どこから何を取っているか
aidev-index は以下の公開API・公開データセットだけを使い、サイト上の全数値を再現可能に保ちます。元データは元の権利者に帰属し、本サイトは集計と可視化のみ行います。
SOURCES 使用しているソース一覧
| ソース | 用途 | 頻度 / レート制限 | リンク |
|---|---|---|---|
| GitHub GraphQL API | Repo詳細・owner情報・signatureファイル存在チェック・README取得 | 日次, 5,000 req/h | docs↗ |
| GitHub REST Search | 直近24-48hの新規Repo発見 | 日次, 30 req/min | docs↗ |
| GitHub REST Code Search | 全GitHub内でのAIツール設定ファイル数(全体規模の参照値) | 月次, 9 req/min | docs↗ |
| GH Archive (BigQuery) | 全GitHubの月次イベント集計(分母として使用): create / push / fork / watch | 月次, 1TiB/月 無料枠内 | gharchive.org↗ |
| OpenAI API (gpt-5-mini) | README要約・月次レポート下書き | $3/月予算ブレーキあり, 50 req/min | platform↗ |
| Google Trends | 関連キーワードの検索関心度(補助指標) | 月次・手動CSV取り込み | trends↗ |
PIPELINE ソースからランキングまでの流れ
1. 発見 (Discovery)
GitHub REST Search で「AI関連キーワード OR」検索を3クエリ群に分割実行。発見された新規Repoを `github_repositories` に登録。
2. 詳細取得 (Detail)
GitHub GraphQL でRepo詳細・owner・README・topics・AIツール設定ファイル7種を一括取得(バッチサイズ20で502リトライ付き)。
3. スコアリング (Scoring)
AI関連スコア・個人開発度・Web公開度を計算し `repo_metric_snapshots` に月次保存。AIツール痕跡は `repo_ai_signals` に。
4. AI要約 (Summarization)
OpenAI gpt-5-mini でREADMEを500-1000字に要約し `repo_content_snapshots.readme_summary` に保存。$3/月予算ブレーキで自動停止。
5. 月次集計 (Monthly aggregate)
GH Archive (BigQuery) から全GitHub月次イベント数を取得し `global_monthly_aggregates` に保存。AI関連Repo比率の分母として利用。
6. ランキング集計 (Adoption count)
13カテゴリのキーワード辞書で各Repoのコーパス(description+topics+AI要約)を部分文字列マッチし、ユニークRepo数で集計。30分キャッシュ。
COST コスト・クォータ管理
BigQuery
月次テーブル指定 + カラム絞り + maximum_bytes_billed=100GB ハード上限で 1TiB/月 無料枠内に収めます(実績で月数百GB)。
OpenAI
月予算 $3 USD。各呼出前に当月累計+見積コストをチェックし、超えそうなら BudgetExceededException で停止。要約1件あたり実測 $0.001-0.002。
GitHub API
Personal Access Token (Classic, no scopes) で 5,000 core / 30 search / 9 code-search req/min。バッチサイズと指数バックオフリトライで運用。
ホスティング
Xserver 共有レンタルサーバー上で Laravel 13 + PHP 8.5 + MySQL 5.7 を運用。月次アーカイブパーティショニングでDBサイズを抑制。