ディープラーニングの強化学習

ニューラルネットワークの強化学習とは、お手本となる教師信号の存在しない状況下で最適政策を求めるアルゴリズムです。元々工学的な利用のために開発されたアルゴリズムなのですが、近年の研究において実際の生物の脳内(特に大脳基底核)で行われていることが示唆されました。その影響をうけて脳内における強化学習のモデルも数多く発表されています。しかし、戦略等のパラメータが実際に存在に対するのかといった疑問や、強化学習で使われているモデルがmodel freeである等の問題は残っています。

我々はいろいろ行動が取れる空間に放り投げ出されます。どんな行動をとったらいいかはわかりません。でも行動をとると褒められたり怒られたりします。そしてできるだけいっぱい褒めてもらおうとします。

現在私たちの身の回りには多くの機械が溢れています。しかし、人間が行っている情報処理と比べとまだまだ未熟であると言わざるを得ません。その内の一つが未知なる環境での学習能力なのです。

強化学習とは未知な環境において、試行錯誤を繰り返し、出来る限り多くの報酬を得られるような行動を学習するアルゴリズムです。教師あり学習と異なり、行動系列事態を自ら編み出していく点が特徴的であります。元々強化学習は工学的に発達してきましたが、最近の研究によって強化学習が実際の脳内でも行われていると示唆するような実験結果が得られており、brain scienceの分野でも大きく取り扱われるようになっています。

歴史的に見た場合、ニューラルネットワークの強化学習は80年代前半に次に述べる3つの考えをまとめた理論です。
第一は、最適化法である。この分野は制御理論から発達したものです。
第二は、動物が行う学習方法の一つである、Try-and-Errorによる学習理論です。
第三は、TD誤差学習の利用です。
つまり強化学習は行学的に発展してきた理論に実際の動物による学習理論を織り交ぜた理論であります。TD誤差学習(Temporal Difference Learning)とは現在、強化学習として一般的に用いられている手法です。です。TD学習とは自分自身の評価を行い、それを更新するための手法を提案するものです。TD学習ではTD誤差と呼ばれるものを用いて、この誤差を0に近づけていくという方法で学習を進めます。TD誤差とは現在の状態の評価値と実際に行動してみてその状態の評価が正しかったかどうかという誤差になります。

この強化学習は脳の大脳基底核と密接な関係があります。それは大脳皮質の深部に位置する一連の神経核の集まりの総称です。大脳基底核はその破壊による運動機能の異常が生じることから運動の実行や計画にかかわり、また報酬をえるための行動などの、目的志向行動を形成するための重要な役割を担うと考えられています。これまで多くの研究者がその機能の解明を目指して研究しています。しかし、複雑に絡み合った核群の機能的役割はまだ謎のままです。

「お腹がすいた、ご飯をたべよう」やら「水がたらない、飲物が欲しい」脳のなかでこんな信号を出す中枢にしたがって我々は行動を起こし、なんとかこれまで生きぬいています。しかし、このモチベーションだけでは食べ物や飲物にはありつけません。条件を満たすための知識や手順を総動員して食物にありつかなければなりません。手に届く所に食物があるならば、自ら手を伸ばし始めることを決定し、手を伸ばすための制御をし、口へと運んで、口をあけ、噛み砕いて飲み込みます。ここまでして、始めて「ああお腹いっぱい」という報酬信号が脳に到達します。目の前の乾きかけのパンよりも、歩いて食堂に言った方がおいしいものが食べれると判断して歩き始めるという行動を選択し、食堂までの道のりをたどり、注文し、やっと食物にたどりつります。

こういった、随意的な運動の開始や手順の記憶などの制御の問題からより複雑で認知的な報酬を得るための行動計画にいたるまで、大脳基底核は報酬にいたる目的志向的な行動系列の生成と学習に関係すると考えられています。報酬を最大化する行動則(制御則) を生成、学習する理論的枠組である「強化学習」を大脳基底核の計算論として説明しています。

「強化学習」は、ある入力に対する出力の評価のみが報酬という形で与えられる学習パラダイムです。特に多くの場合に報酬は遅れて与えられることがありますので、その時刻の入力と報酬の連合だけでなく、報酬の時間的和を最大にするような出力列が要求されます。このような状況は、生物の場合には複数の行動列の後に食物を獲得するなどの目的を達成する行動系列生成のモデルとなります。

強化学習では入出力時系列に時間的関係を持たせた環境を仮定しています。多くの強化学習パラダイムでは、環境のモデルとしてマルコフ決定過程を仮定しています。

ニューラルネットワークにおける強化学習の特徴を挙げると、試行錯誤的な探索(trail?and?error search) と遅延報酬(delayed reward) の2 点になります。行動は直接的な報酬のみならず、その次の情况に影響を与え、そのことを通じて、その後に続く全ての報酬に影響を与えます。

ニューラルネットワークにおける教師あり学習は外界から与えられる教師信号によって自らの行動を適応させていきます。例えや規範となるものからの学習になります。例からの学習も重要な要素の1つですが、相互作用を介した学習では未知の問題領域で学習者自らが経験から学ぶ必要があります。教師あり学習では、与えられた入力に対して最初はランダムな結合係数によって答えを出し、その答えを教師信号の示す方向に変化させていきます。この意味では結合係数によって定義される空間の探索を行なっていると見なすことができます。

一方、強化学習では自身の取りうる行動のレパートリーの中から最適な行動を探索していると見なすことができます。強化学習には、他の手法と異なる抽象的な概念?ポリシー、プランニング、価値関数、報酬関数、環境のモデルなどを直接取り扱う事です。
ポリシーはある時点での学習者の振舞い方を定義する確率として扱われます。報酬関数は目標を定義します。強化学習者(エージェント) の目的は最終的に受け取る総報酬を最大化することになります。価値関数は最終的に何がよいのかを指定します。

ある状態の価値とは、エージェントがその状態を起点として将来にわたって蓄積することを期待する報酬の総量となります。人間にたとえれば報酬は喜びや苦痛のようなものでありますが、価値は我々の環境が特定の状態にあるとき、どれだけ満足あるいは不満であるかに関して、もっと洗練された長期的観点からの判断に相当します。すなわちエージェントはもっとも高い報酬ではなくもっとも高い価値、多くの場合に総報酬量の関数として定義される価値を持つ状態につながるような行動を見つけ出そうとするわけになります。

強化学習が他のタイプの学習ともっとも異なる特徴は正しい行動を直接与えて教示する
のではなく、実行した行動の評価を訓練情報として利用することなのです。従って、よい行動を直接探索するために試行錯誤による能動的な探索が必要になります。行なった行動がどれくらい良いのかが知らされたり、それが可能な行動の中で最良または最悪であるかについては知らされる事はありません。

一緒に英語を学びませんか

ディープラーニングで一緒に英語を勉強しませんか。次のサイトにメソッドと教材があります。

30日無料モニターを募集しております。下記ページから無料で登録できます。

この画像には alt 属性が指定されておらず、ファイル名は kakumei-b-01-300x141.png です

シェアする

  • このエントリーをはてなブックマークに追加

フォローする