SUMMARY AI要約 by gpt-5-mini
Agent Behavior Evals Lab は、AIアシスタントやエージェント的システムの振る舞いを「ポリシーで定義された期待」に照らしてローカルで評価するためのハーネスです。ポリシー、評価ケース、ターゲットプロファイル、採点ルール、トレース、レポートを一貫して定義・再利用でき、将来的に実際のモデルアダプタやトランスクリプト再生、エージェント統合に適用できます。 想定ユーザーは、安全性/コンプライアンス評価や振る舞い回帰チェックを行うエンジニアや研究者です。マイルストーン1では決定論的なベースラインを提供し、主な構成要素は以下です:振る舞いポリシー、失敗分類、30件のJSONLケース、3つのターゲットプロファイルと対応プロンプト、モックモデルクライアント、ルールベース採点器、エンドツーエンド実行器、採点済みトレースとMarkdownレポート。評価は4カテゴリ(安全な直接応答、承認が必要な行為、拒否が必要な有害要求、不確実性処理)に分かれ、各ケースはポリシー参照や期待される失敗モード、重症度、採点ノートを含み可監査性を保ちます。 現状は実モデルを使わないモック実行であり性能主張には使えません。実行スクリプトとローカル品質ゲートが用意され、今後はスキーマ検証、採点改善、実モデルアダプタや保存トランスクリプト再生、OpenClaw の制御アダプタ追加などを予定しています。
使用言語(バイト数比)
オーナー情報
Applied AI • Workflow Automation • Decision Support
日付
| GitHub作成日 | 2026-05-06 |
| 最終Push | 2026-05-09 |
| 当サイト初検出 | 2026-05-09 |
| 最終取得 | 2026-05-09 18:17 |
類似Repo (同じ言語のAI関連Repo)
AI Agent 中文學習地圖 — 從零開始的結構化學習路徑,每階段有必做練習跟必修閱讀。三語對照(繁中/简中/English)。歡迎社群一起貢獻、優化內容。
lonr-6/cc-desktop-switchLightweight desktop tool for configuring DeepSeek, Kimi, Zhipu GLM and Bailian providers in Claude Desktop.
TomSolid/myPKAMy whole life. One folder. No vendor. myPKA is a Personal Knowledge Architecture with a 4-person AI team baked in. Plain markdown files on your machine. ICOR® methodology. Works in Claude Code, Codex, Gemini, Cursor, Obsidian.
linora-u/AgentLoomSimple, flexible workflow orchestration for multi-agent AI apps, with YAML configuration, runtime safety, observability, and resume support.
oodadoudou/TransoriaAI desktop toolkit for novel translation, glossary management, and batch text replacement.
hieuchaydi/MemoryFeedLocal-first social memory search engine with browser capture, hybrid AI retrieval, and optional C++ acceleration.
alias8818/enoch-agentic-research-systemAgentic research control plane with local proof, provenance packaging, and explicit audit-status reporting.
helderpgoncalves/feedbotTurn community chat into a structured product backlog — Telegram + dashboard + MCP for Claude Code.