SUMMARY AI要約 by gpt-5-mini
このリポジトリは、対話型エージェントベンチマークの「主張(成功ラベル)が保存された成果物で実際に裏付けられているか」を後処理で検証するための公開パッケージです。既存のベンチマーク本体(タスク、エージェント、環境、ネイティブ評価器)はそのままに、ケース別チェックリスト、パッケージ化された実行記録、検証ユーティリティ、再採点ヘルパーを追加して、各記録を Evidence Pass / Evidence Fail / Unknown の三値で判定します。これにより単一の成功率ではなく、保存証拠に基づくスコア範囲(エビデンス境界)を報告できます。論文寄与は結果と証拠のギャップの定式化、チェックリスト導入、記録の再分類、証拠支持範囲の提示です。公開物には評価アーティファクト(約6.5GB)、チェックリスト実装、検証・再採点スクリプト、再現手順が含まれ、ベンチマーク作成者・レビュアー・研究者が評価の透明性と再現性を高めるために利用できます。主要対象ベンチマークには AgentDojo、AppWorld、MiniWoB、tau3-retail、AndroidWorld が含まれます。
GitHub Topics
使用言語(バイト数比)
オーナー情報
日付
| GitHub作成日 | 2026-05-08 |
| 最終Push | 2026-05-09 |
| 当サイト初検出 | 2026-05-09 |
| 最終取得 | 2026-05-09 18:16 |
類似Repo (同じ言語のAI関連Repo)
Polymarket prediction markets AI trading paper trading OpenAI GPT CLOB Kelly mean reversion SQLite Node Express Docker Render Vercel dashboard algorithmic trading quant research forecasting crypto
EliasOulkadi/shokunin職人 Shokunin 62 AI agent skills for OpenCode, Claude Code, Cursor, Windsurf. ChromaDB memory, MCP servers, declarative self-updates. Multi-model, open source, zero cost.
led14900/tao-anh-ai-extensionExtension tạo ảnh hàng loạt trên labs.google (Google Flow)
mekku/claude-code-remote-pilot automatewithsaurabh/zepto-ipo-analysisZepto IPO Readiness Analysis 2025-2026 - SHODH AI Intelligence Report
Ahmed-aleryani/claude-code-team-workshopBuild a Team With Claude Code — Vibe Coding Workshop · EBS Tallinn · Live: https://ahmed-aleryani.github.io/claude-code-team-workshop/
asersobhy50-hue/claude-monitorClaude Monitor - Real-time Claude Pro Usage Tracker Desktop Widget
klaywang24/interactive-field-guide-skillCross-agent skill that turns any research topic into a polished, interactive HTML field guide — sidebar nav, ⌘K search, SVG ecosystem map, 2×2 strategic matrix, 22-part editorial structure, VC/CB Insights depth. Claude / Codex / Gemini / Cursor.