JST200211 : 第２回公開シンポジウム予稿集「脳を創る」 31-31

強化学習における環境の同定と行動に関する注意

吉田和子¹⁾, 石井信¹⁾

1) 奈良先端大·情報科学

強化学習において良い戦略を得るためには、explorationとexploitationという2つの相反する問題をうまくバランスする必要がある。我々は、環境を同定するモデルを用いた強化学習法の行動選択に、逆温度メタパラメータを導入した。これは、現在の状態の確実性に基づいて決められ、行動に関する注意に相当する。さらに、環境の情報を獲得するためのexplorationボーナスを導入した。この手法を迷路探索問題へ適用した結果を示す。