AI開発影響研究所 EN
← ランキング · AI関連リポジトリ

NavidBroumandfar/agent-behavior-evals-lab

Policy-mapped evaluation lab for AI assistants and agents: approval gates, refusal boundaries, uncertainty handling, tool-use grounding, JSONL traces, and regression reports.

Python GitHub ↗
★ 0
stars
75
AI関連スコア
50
個人開発度
0
AIツール痕跡

SUMMARY AI要約 by gpt-5-mini

Agent Behavior Evals Lab は、AIアシスタントやエージェント的システムの振る舞いを「ポリシーで定義された期待」に照らしてローカルで評価するためのハーネスです。ポリシー、評価ケース、ターゲットプロファイル、採点ルール、トレース、レポートを一貫して定義・再利用でき、将来的に実際のモデルアダプタやトランスクリプト再生、エージェント統合に適用できます。 想定ユーザーは、安全性/コンプライアンス評価や振る舞い回帰チェックを行うエンジニアや研究者です。マイルストーン1では決定論的なベースラインを提供し、主な構成要素は以下です:振る舞いポリシー、失敗分類、30件のJSONLケース、3つのターゲットプロファイルと対応プロンプト、モックモデルクライアント、ルールベース採点器、エンドツーエンド実行器、採点済みトレースとMarkdownレポート。評価は4カテゴリ(安全な直接応答、承認が必要な行為、拒否が必要な有害要求、不確実性処理)に分かれ、各ケースはポリシー参照や期待される失敗モード、重症度、採点ノートを含み可監査性を保ちます。 現状は実モデルを使わないモック実行であり性能主張には使えません。実行スクリプトとローカル品質ゲートが用意され、今後はスキーマ検証、採点改善、実モデルアダプタや保存トランスクリプト再生、OpenClaw の制御アダプタ追加などを予定しています。

使用言語(バイト数比)

Python
100%

オーナー情報

アカウント
NavidBroumandfar
タイプ
User
フォロワー
2

Applied AI • Workflow Automation • Decision Support

日付

GitHub作成日 2026-05-06
最終Push 2026-05-09
当サイト初検出 2026-05-09
最終取得 2026-05-09 18:17

類似Repo (同じ言語のAI関連Repo)

WenyuChiou/awesome-agentic-ai-zh

AI Agent 中文學習地圖 — 從零開始的結構化學習路徑,每階段有必做練習跟必修閱讀。三語對照(繁中/简中/English)。歡迎社群一起貢獻、優化內容。

Python 516 AI 100
lonr-6/cc-desktop-switch

Lightweight desktop tool for configuring DeepSeek, Kimi, Zhipu GLM and Bailian providers in Claude Desktop.

Python 347 AI 45
TomSolid/myPKA

My whole life. One folder. No vendor. myPKA is a Personal Knowledge Architecture with a 4-person AI team baked in. Plain markdown files on your machine. ICOR® methodology. Works in Claude Code, Codex, Gemini, Cursor, Obsidian.

Python 56 AI 70
linora-u/AgentLoom

Simple, flexible workflow orchestration for multi-agent AI apps, with YAML configuration, runtime safety, observability, and resume support.

Python 29 AI 70
oodadoudou/Transoria

AI desktop toolkit for novel translation, glossary management, and batch text replacement.

Python 24 AI 45
hieuchaydi/MemoryFeed

Local-first social memory search engine with browser capture, hybrid AI retrieval, and optional C++ acceleration.

Python 14 AI 70
alias8818/enoch-agentic-research-system

Agentic research control plane with local proof, provenance packaging, and explicit audit-status reporting.

Python 11 AI 45
helderpgoncalves/feedbot

Turn community chat into a structured product backlog — Telegram + dashboard + MCP for Claude Code.

Python 6 AI 70