bhargav141223/warehouse-multi-agent-rl-using-mappo
A comprehensive full-stack application for multi-agent warehouse navigation using Multi-Agent Proximal Policy Optimization (MAPPO) with Large Language Model (LLM) reward shaping and Retrieval-Augmented Generation (RAG) memory.
SUMMARY AI要約 by gpt-5-mini
このリポジトリは、倉庫内ナビゲーション問題を対象にしたマルチエージェント強化学習の実装で、Multi‑Agent Proximal Policy Optimization (MAPPO) を学習基盤に、Large Language Model(LLM)を用いた報酬整形と Retrieval‑Augmented Generation(RAG)ベースのメモリ機構を統合した応用例を提供します。目的は、複数ロボットの協調移動・衝突回避・タスク配分などの複雑な行動を、言語モデル由来の高次情報で補強しながら学習・評価することです。 想定利用者は、マルチエージェント強化学習、ロボット制御、倉庫自動化、あるいは LLM を強化学習に組み込みたい研究者・開発者です。主な機能は次の通りです: - MAPPO によるマルチエージェント学習フレームワーク(環境定義、学習ループ、チェックポイント保存) - LLM を使った報酬整形モジュール(観測や履歴から高次の評価を生成して報酬に反映) - RAG ベースのメモリ/履歴検索機構(過去の経験や外部知識を参照して行動決定を支援) - 学習・評価用スクリプト、設定ファイル、可視化・ログ出力の仕組み 導入は依存ライブラリのインストール、設定ファイルで環境・LLM設定を行い、提供される学習/評価スクリプトを実行する流れが想定されます。実用化には LLM API キーや検索用コーパスの準備が必要です。
オーナー情報
日付
| GitHub作成日 | 2026-05-09 |
| 最終Push | 2026-05-09 |
| 当サイト初検出 | 2026-05-09 |
| 最終取得 | 2026-05-09 18:14 |