指標の計算式と検出ロジック

本サイトに掲載される全ての数値は、ここで定義された方法で計算されています。AI関連スコア・AIコーディングツール検出・13カテゴリの採用率集計まで、再現可能な形で公開しています。

DEFINITION 1. AI開発の2軸定義

「AIプロジェクトかどうか」は単一の基準では捉えきれません。本サイトは直交する2軸で別々に判定します。

AI製作 (is_ai_built)

「リポジトリのコードがAIコーディングツールで書かれた」かどうか。リポジトリの目的(チャットボットでも、TODOアプリでも)は問わない。

判定方法: GraphQLでHEADに以下のいずれかのファイル存在を確認:

CLAUDE.md → Claude Code
.cursorrules → Cursor
AGENTS.md → OpenAI Codex / generic
.windsurfrules → Windsurf
.github/copilot-instructions.md → GitHub Copilot
.aider.conf.yml → Aider
.clinerules → Cline

AI使用 (is_ai_using)

「リポジトリのコードがAI機能を組み込んでいる」かどうか。実装に AI SDK が依存として入っているなら確実にAI製品。

判定方法: 依存関係マニフェストにAI SDKが含まれるかをチェック:

Python: requirements.txt / pyproject.toml / Pipfile
JS/TS: package.json
Go: go.mod · Rust: Cargo.toml

対象 SDK: openai / anthropic / langchain / llama-index / huggingface / cohere / mistralai / replicate / qdrant / pinecone / chroma / weaviate / litellm / ollama …

ESTIMATION 2. サンプリングによる全GitHub推定

GitHubには1億超のリポジトリがあり、全件を詳細判定するのは非現実的。本サイトでは統計的サンプリングで全体比率を推定します。

GH Archive (BigQuery) で対象月にアクティブだった全Repoから N=2,000件をランダムサンプリング (FARM_FINGERPRINT で決定論的)
サンプル各repoについてGraphQLで AI製作 / AI使用を判定
サンプル内比率 = built件数 / N、using件数 / N、両方 / どちらかも算出
推定全GitHub数 = サンプル比率 × GH Archive 月次アクティブRepo総数

※ N=2,000 で 95%信頼区間 ±1pt 程度。各月のサンプルは独立(同じrepoが連続月でサンプルされることはほぼ無い)。

AUX 3. 補助スコア(参考値)

初期設計の名残として、各 tracked repo に以下の補助スコアを保持しています(0-100)。サイトの主軸は上記2軸で、補助スコアは個別Repoの説明やフィルタリングに使う程度です。

AI関連スコア (0-100)

name/desc/topics/READMEのAIキーワード密度。閾値40以上が tracked。

個人開発度 (0-100)

owner_type/follower数/README有無/push頻度等のヒューリスティック。

Web公開度 (0-100)

homepage URL有無 + Vercel/Netlify等にデプロイ済 + READMEのlanding語句。

継続開発率

3ヶ月前に作成されたRepoのうち、直近30日内にpushがあった割合。

DETECT 3. AIコーディングツールの検出

GitHub GraphQL の `object()` クエリで、各リポジトリのHEADに以下のファイル/ディレクトリが存在するかを確認します。検出されたものは `repo_ai_signals` テーブルに記録され、 AIコーディングツール採用率ランキングに集計されます。

ファイル / ディレクトリ	検出されるツール	提供元
CLAUDE.md / .claude/	Claude Code	Anthropic
AGENTS.md	OpenAI Codex / 汎用	OpenAI
.cursorrules / .cursor/rules/	Cursor	Anysphere
.github/copilot-instructions.md	GitHub Copilot	GitHub
.windsurfrules	Windsurf	Codeium
.aider.conf.yml	Aider	Aider
.clinerules	Cline	Cline

ADOPTION 4. 13カテゴリの採用率集計

LLMプロバイダー・フレームワーク・ベクトルDB・モデル等のカテゴリは、AI関連Repoの description / GitHub topics / READMEのAI要約を結合した検索コーパスに対し、各カテゴリに登録されたキーワード辞書(<code>ai_keywords</code>テーブル、現在 377 件アクティブ)で部分文字列マッチを行い、ユニークRepo数をカウントします。

集計はキーワード重複対策として、ケース感度問題を BINARY collation で回避(例: `langchain` 指定で `LangChain` まで巻き込まないように)
誤検出多発する短いキーワード(Lit / Bun / Gin / Yi 等)は無効化済み(`CleanupShortKeywordsSeeder`)
モデルカテゴリはバージョン分散を避けるため「ファミリー単位」で集計(Claude / GPT / Gemini 等)
AI関連スコア40以上のRepoの最新content snapshotのみを対象

CADENCE 5. 更新頻度

ジョブ	頻度	内容
ai-index:daily	毎日 01:10 JST	当月分の新規Repo発見・スコア更新
ai-index:weekly	日曜 03:10 JST	全Repoの再スキャン
ai-index:monthly	1日 04:10 JST	GH Archive集計・月次指標確定
ai-index:generate-report	1日 05:30 JST	月次レポート自動生成・公開
ai-index:summarize	手動 ($3/月予算内)	README AI要約 (gpt-5-mini)

EXPLORE 関連ページ

🔌

データソース

GitHub API / GH Archive / OpenAI / Google Trends の使い分け

📖

用語集

本サイトで使う用語の定義

📊

13ランキング

これらの式を使って実際に集計した結果