ポリシー勾配
公開日: 2025/06/02
ポリシー勾配とは?強化学習における直接的な方策最適化手法
はじめに
ポリシー勾配(Policy Gradient)は、強化学習でエージェントの行動方策(ポリシー)を直接最適化する手法の一つです。
状態から行動を選択する確率分布をパラメータ化し、報酬を最大化するように勾配上昇法で学習します。
この記事ではポリシー勾配の基本原理や特徴、代表的なアルゴリズムをわかりやすく解説します。
基本情報・概要
ポリシー勾配は、価値関数を介さずに方策そのものを最適化するアプローチで、
連続行動空間や大規模な状態空間にも対応しやすいのが特徴です。
-
主な特徴:
- 方策を確率分布で表現し直接最適化
- 勾配上昇法を用いて報酬を最大化
- オフポリシー手法より安定性が高い場合もある
用語 説明 方策(ポリシー) 状態から行動を選択する確率分布 勾配上昇法 報酬を最大化する方向にパラメータを更新する手法 REINFORCE 基本的なポリシー勾配アルゴリズム
深掘り解説
-
ポリシー勾配の更新式(REINFORCE)
[ \nabla_\theta J(\theta) = \mathbb{E}\pi \left[ \nabla\theta \log \pi_\theta(a|s) \cdot G_t \right] ]- (\theta): ポリシーパラメータ
- (\pi_\theta(a|s)): 状態(s)での行動(a)の確率
- (G_t): その時点からの累積報酬
-
バリエーション
- アクター・クリティック法(Actor-Critic):価値関数を併用し勾配の分散を低減
- PPO、TRPOなどの安定化手法
-
利点
- 連続行動空間に適応しやすい
- 方策の確率的性質を活かした多様な行動選択が可能
応用・発展的な使い方
- ロボット制御
- 自然言語生成
- ゲームAI(複雑な連続制御タスク)
- 自動運転の行動決定
よくある誤解と注意点
- ポリシー勾配はサンプル効率が低い場合がある
- 高い分散を持つため勾配のばらつきに注意
- 適切な報酬設計とハイパーパラメータ調整が重要
まとめ
ポリシー勾配は強化学習における直接的な方策最適化手法であり、
連続行動や大規模問題に強みを持ちます。
基礎的な仕組みと代表的なアルゴリズムを理解し、実践的な応用を目指しましょう。