TOP > 巻一覧 > 目次一覧 > 書誌事項


第2回公開シンポジウム予稿集 「脳を創る」  31-31
[Image PDF (51K)


強化学習における環境の同定と行動に関する注意
吉田 和子1), 石井 信1)
1) 奈良先端大·情報科学
強化学習において良い戦略を得るためには、explorationとexploitationという2つの相反する問題をうまくバランスする必要がある。我々は、環境を同定するモデルを用いた強化学習法の行動選択に、逆温度メタパラメータを導入した。これは、現在の状態の確実性に基づいて決められ、行動に関する注意に相当する。さらに、環境の情報を獲得するためのexplorationボーナスを導入した。この手法を迷路探索問題へ適用した結果を示す。

[Image PDF (51K)

Copyright (c) 2002 科学技術振興事業団