SUMMARY AI summary by gpt-5-mini
このリポジトリは、対話型エージェントベンチマークの「主張(成功ラベル)が保存された成果物で実際に裏付けられているか」を後処理で検証するための公開パッケージです。既存のベンチマーク本体(タスク、エージェント、環境、ネイティブ評価器)はそのままに、ケース別チェックリスト、パッケージ化された実行記録、検証ユーティリティ、再採点ヘルパーを追加して、各記録を Evidence Pass / Evidence Fail / Unknown の三値で判定します。これにより単一の成功率ではなく、保存証拠に基づくスコア範囲(エビデンス境界)を報告できます。論文寄与は結果と証拠のギャップの定式化、チェックリスト導入、記録の再分類、証拠支持範囲の提示です。公開物には評価アーティファクト(約6.5GB)、チェックリスト実装、検証・再採点スクリプト、再現手順が含まれ、ベンチマーク作成者・レビュアー・研究者が評価の透明性と再現性を高めるために利用できます。主要対象ベンチマークには AgentDojo、AppWorld、MiniWoB、tau3-retail、AndroidWorld が含まれます。
GitHub Topics
Language breakdown (by bytes)
Owner
Dates
| Created on GitHub | 2026-05-08 |
| Last push | 2026-05-09 |
| First seen here | 2026-05-09 |
| Last fetched | 2026-05-09 18:16 |
Similar repos (same language)
Polymarket prediction markets AI trading paper trading OpenAI GPT CLOB Kelly mean reversion SQLite Node Express Docker Render Vercel dashboard algorithmic trading quant research forecasting crypto
EliasOulkadi/shokunin職人 Shokunin 62 AI agent skills for OpenCode, Claude Code, Cursor, Windsurf. ChromaDB memory, MCP servers, declarative self-updates. Multi-model, open source, zero cost.
led14900/tao-anh-ai-extensionExtension tạo ảnh hàng loạt trên labs.google (Google Flow)
mekku/claude-code-remote-pilot automatewithsaurabh/zepto-ipo-analysisZepto IPO Readiness Analysis 2025-2026 - SHODH AI Intelligence Report
Ahmed-aleryani/claude-code-team-workshopBuild a Team With Claude Code — Vibe Coding Workshop · EBS Tallinn · Live: https://ahmed-aleryani.github.io/claude-code-team-workshop/
asersobhy50-hue/claude-monitorClaude Monitor - Real-time Claude Pro Usage Tracker Desktop Widget
klaywang24/interactive-field-guide-skillCross-agent skill that turns any research topic into a polished, interactive HTML field guide — sidebar nav, ⌘K search, SVG ecosystem map, 2×2 strategic matrix, 22-part editorial structure, VC/CB Insights depth. Claude / Codex / Gemini / Cursor.