AI開発影響研究所 EN
データソース
データソース

どこから何を取っているか

aidev-index は以下の公開API・公開データセットだけを使い、サイト上の全数値を再現可能に保ちます。元データは元の権利者に帰属し、本サイトは集計と可視化のみ行います。

6,522
総Repo数 (DB)
152
GH Archive行
900
OpenAI要約済
22
集計済月数

SOURCES 使用しているソース一覧

ソース 用途 頻度 / レート制限 リンク
GitHub GraphQL API Repo詳細・owner情報・signatureファイル存在チェック・README取得 日次, 5,000 req/h docs↗
GitHub REST Search 直近24-48hの新規Repo発見 日次, 30 req/min docs↗
GitHub REST Code Search 全GitHub内でのAIツール設定ファイル数(全体規模の参照値) 月次, 9 req/min docs↗
GH Archive (BigQuery) 全GitHubの月次イベント集計(分母として使用): create / push / fork / watch 月次, 1TiB/月 無料枠内 gharchive.org↗
OpenAI API (gpt-5-mini) README要約・月次レポート下書き $3/月予算ブレーキあり, 50 req/min platform↗
Google Trends 関連キーワードの検索関心度(補助指標) 月次・手動CSV取り込み trends↗

PIPELINE ソースからランキングまでの流れ

1. 発見 (Discovery)

GitHub REST Search で「AI関連キーワード OR」検索を3クエリ群に分割実行。発見された新規Repoを `github_repositories` に登録。

2. 詳細取得 (Detail)

GitHub GraphQL でRepo詳細・owner・README・topics・AIツール設定ファイル7種を一括取得(バッチサイズ20で502リトライ付き)。

3. スコアリング (Scoring)

AI関連スコア・個人開発度・Web公開度を計算し `repo_metric_snapshots` に月次保存。AIツール痕跡は `repo_ai_signals` に。

→ スコア式

4. AI要約 (Summarization)

OpenAI gpt-5-mini でREADMEを500-1000字に要約し `repo_content_snapshots.readme_summary` に保存。$3/月予算ブレーキで自動停止。

5. 月次集計 (Monthly aggregate)

GH Archive (BigQuery) から全GitHub月次イベント数を取得し `global_monthly_aggregates` に保存。AI関連Repo比率の分母として利用。

6. ランキング集計 (Adoption count)

13カテゴリのキーワード辞書で各Repoのコーパス(description+topics+AI要約)を部分文字列マッチし、ユニークRepo数で集計。30分キャッシュ。

→ 13ランキング

COST コスト・クォータ管理

BigQuery

月次テーブル指定 + カラム絞り + maximum_bytes_billed=100GB ハード上限で 1TiB/月 無料枠内に収めます(実績で月数百GB)。

OpenAI

月予算 $3 USD。各呼出前に当月累計+見積コストをチェックし、超えそうなら BudgetExceededException で停止。要約1件あたり実測 $0.001-0.002。

GitHub API

Personal Access Token (Classic, no scopes) で 5,000 core / 30 search / 9 code-search req/min。バッチサイズと指数バックオフリトライで運用。

ホスティング

Xserver 共有レンタルサーバー上で Laravel 13 + PHP 8.5 + MySQL 5.7 を運用。月次アーカイブパーティショニングでDBサイズを抑制。

EXPLORE 関連ページ

🧮

算出方法

これらのソースから具体的にどう数値を出すか

ℹ️

このサイトについて

サイトの目的と方針

📊

13ランキング

集計結果