AI開発影響研究所 EN
← ランキング · AI関連リポジトリ

AgentBenchAudit/agent-benchmark-evidence-reports

Release repository for agent benchmark evidence-reporting artifacts and reproduction workflows.

HTML GitHub ↗ 公開URL ↗
★ 0
stars
100
AI関連スコア
35
個人開発度
0
AIツール痕跡

SUMMARY AI要約 by gpt-5-mini

このリポジトリは、対話型エージェントベンチマークの「主張(成功ラベル)が保存された成果物で実際に裏付けられているか」を後処理で検証するための公開パッケージです。既存のベンチマーク本体(タスク、エージェント、環境、ネイティブ評価器)はそのままに、ケース別チェックリスト、パッケージ化された実行記録、検証ユーティリティ、再採点ヘルパーを追加して、各記録を Evidence Pass / Evidence Fail / Unknown の三値で判定します。これにより単一の成功率ではなく、保存証拠に基づくスコア範囲(エビデンス境界)を報告できます。論文寄与は結果と証拠のギャップの定式化、チェックリスト導入、記録の再分類、証拠支持範囲の提示です。公開物には評価アーティファクト(約6.5GB)、チェックリスト実装、検証・再採点スクリプト、再現手順が含まれ、ベンチマーク作成者・レビュアー・研究者が評価の透明性と再現性を高めるために利用できます。主要対象ベンチマークには AgentDojo、AppWorld、MiniWoB、tau3-retail、AndroidWorld が含まれます。

GitHub Topics

#agent-benchmark #benchmark #evaluation #python #reproducibility #research-artifacts

使用言語(バイト数比)

CSS
0.4%
HTML
64.1%
Python
30.4%
Makefile
0%
JavaScript
5.1%

オーナー情報

アカウント
AgentBenchAudit
タイプ
Organization
フォロワー
0

日付

GitHub作成日 2026-05-08
最終Push 2026-05-09
当サイト初検出 2026-05-09
最終取得 2026-05-09 18:16

類似Repo (同じ言語のAI関連Repo)

thinkpixelIab/polymarket-ai-trading

Polymarket prediction markets AI trading paper trading OpenAI GPT CLOB Kelly mean reversion SQLite Node Express Docker Render Vercel dashboard algorithmic trading quant research forecasting crypto

HTML 135 AI 90
EliasOulkadi/shokunin

職人 Shokunin 62 AI agent skills for OpenCode, Claude Code, Cursor, Windsurf. ChromaDB memory, MCP servers, declarative self-updates. Multi-model, open source, zero cost.

HTML 63 AI 70
led14900/tao-anh-ai-extension

Extension tạo ảnh hàng loạt trên labs.google (Google Flow)

HTML 13 AI 40
mekku/claude-code-remote-pilot
HTML 3 AI 75
automatewithsaurabh/zepto-ipo-analysis

Zepto IPO Readiness Analysis 2025-2026 - SHODH AI Intelligence Report

HTML 1 AI 45
Ahmed-aleryani/claude-code-team-workshop

Build a Team With Claude Code — Vibe Coding Workshop · EBS Tallinn · Live: https://ahmed-aleryani.github.io/claude-code-team-workshop/

HTML 1 AI 90
asersobhy50-hue/claude-monitor

Claude Monitor - Real-time Claude Pro Usage Tracker Desktop Widget

HTML 1 AI 75
klaywang24/interactive-field-guide-skill

Cross-agent skill that turns any research topic into a polished, interactive HTML field guide — sidebar nav, ⌘K search, SVG ecosystem map, 2×2 strategic matrix, 22-part editorial structure, VC/CB Insights depth. Claude / Codex / Gemini / Cursor.

HTML 1 AI 70