指標の計算式と検出ロジック
本サイトに掲載される全ての数値は、ここで定義された方法で計算されています。AI関連スコア・AIコーディングツール検出・13カテゴリの採用率集計まで、再現可能な形で公開しています。
DEFINITION 1. AI開発の2軸定義
「AIプロジェクトかどうか」は単一の基準では捉えきれません。本サイトは直交する2軸で別々に判定します。
AI製作 (is_ai_built)
「リポジトリのコードがAIコーディングツールで書かれた」かどうか。リポジトリの目的(チャットボットでも、TODOアプリでも)は問わない。
判定方法: GraphQLでHEADに以下のいずれかのファイル存在を確認:
CLAUDE.md→ Claude Code.cursorrules→ CursorAGENTS.md→ OpenAI Codex / generic.windsurfrules→ Windsurf.github/copilot-instructions.md→ GitHub Copilot.aider.conf.yml→ Aider.clinerules→ Cline
AI使用 (is_ai_using)
「リポジトリのコードがAI機能を組み込んでいる」かどうか。実装に AI SDK が依存として入っているなら確実にAI製品。
判定方法: 依存関係マニフェストにAI SDKが含まれるかをチェック:
- Python:
requirements.txt/pyproject.toml/Pipfile - JS/TS:
package.json - Go:
go.mod· Rust:Cargo.toml
対象 SDK: openai / anthropic / langchain / llama-index / huggingface / cohere / mistralai / replicate / qdrant / pinecone / chroma / weaviate / litellm / ollama …
ESTIMATION 2. サンプリングによる全GitHub推定
GitHubには1億超のリポジトリがあり、全件を詳細判定するのは非現実的。本サイトでは統計的サンプリングで全体比率を推定します。
- GH Archive (BigQuery) で対象月にアクティブだった全Repoから N=2,000件をランダムサンプリング (FARM_FINGERPRINT で決定論的)
- サンプル各repoについてGraphQLで AI製作 / AI使用 を判定
- サンプル内比率 = built件数 / N、using件数 / N、両方 / どちらかも算出
- 推定全GitHub数 = サンプル比率 × GH Archive 月次アクティブRepo総数
※ N=2,000 で 95%信頼区間 ±1pt 程度。各月のサンプルは独立(同じrepoが連続月でサンプルされることはほぼ無い)。
AUX 3. 補助スコア(参考値)
初期設計の名残として、各 tracked repo に以下の補助スコアを保持しています(0-100)。サイトの主軸は上記2軸で、補助スコアは個別Repoの説明やフィルタリングに使う程度です。
AI関連スコア (0-100)
name/desc/topics/READMEのAIキーワード密度。閾値40以上が tracked。
個人開発度 (0-100)
owner_type/follower数/README有無/push頻度等のヒューリスティック。
Web公開度 (0-100)
homepage URL有無 + Vercel/Netlify等にデプロイ済 + READMEのlanding語句。
継続開発率
3ヶ月前に作成されたRepoのうち、直近30日内にpushがあった割合。
DETECT 3. AIコーディングツールの検出
GitHub GraphQL の `object()` クエリで、各リポジトリのHEADに以下のファイル/ディレクトリが存在するかを確認します。検出されたものは `repo_ai_signals` テーブルに記録され、 AIコーディングツール採用率ランキング に集計されます。
| ファイル / ディレクトリ | 検出されるツール | 提供元 |
|---|---|---|
| CLAUDE.md / .claude/ | Claude Code | Anthropic |
| AGENTS.md | OpenAI Codex / 汎用 | OpenAI |
| .cursorrules / .cursor/rules/ | Cursor | Anysphere |
| .github/copilot-instructions.md | GitHub Copilot | GitHub |
| .windsurfrules | Windsurf | Codeium |
| .aider.conf.yml | Aider | Aider |
| .clinerules | Cline | Cline |
ADOPTION 4. 13カテゴリの採用率集計
LLMプロバイダー・フレームワーク・ベクトルDB・モデル等のカテゴリは、AI関連Repoの description / GitHub topics / READMEのAI要約 を結合した検索コーパスに対し、各カテゴリに登録されたキーワード辞書(<code>ai_keywords</code>テーブル、現在 377 件アクティブ)で部分文字列マッチを行い、ユニークRepo数をカウントします。
- 集計はキーワード重複対策として、ケース感度問題を BINARY collation で回避(例: `langchain` 指定で `LangChain` まで巻き込まないように)
- 誤検出多発する短いキーワード(Lit / Bun / Gin / Yi 等)は無効化済み(`CleanupShortKeywordsSeeder`)
- モデルカテゴリはバージョン分散を避けるため「ファミリー単位」で集計(Claude / GPT / Gemini 等)
- AI関連スコア40以上のRepoの最新content snapshotのみを対象
CADENCE 5. 更新頻度
| ジョブ | 頻度 | 内容 |
|---|---|---|
| ai-index:daily | 毎日 01:10 JST | 当月分の新規Repo発見・スコア更新 |
| ai-index:weekly | 日曜 03:10 JST | 全Repoの再スキャン |
| ai-index:monthly | 1日 04:10 JST | GH Archive集計・月次指標確定 |
| ai-index:generate-report | 1日 05:30 JST | 月次レポート自動生成・公開 |
| ai-index:summarize | 手動 ($3/月予算内) | README AI要約 (gpt-5-mini) |