DeepMindのSilver氏の強化学習の講義動画シリーズを観てみた

強化学習の勉強を始めるために、DeepMindのDavid Silver氏の強化学習の講義を録画した動画を観てみました。「強化学習の勉強をするならコレだ!」と色んなところでお勧めされていたので、ずっと気になっていました。

UCLの強化学習の講義を録画したもので、全部で10回。Youtubeに上がっているので無料で勉強することができます。各講義が1時間30分〜1時間40分ぐらいですので、全体の負担もそんなに多くはありません。(通常、大学の講義動画系はこれの倍以上の時間がかかる傾向にある気がします。)

www.youtube.com

強化学習の基礎の基礎から始めて、DQNなど(少なくとも講義録画時点では)ナウい話も出てきます。求められる前提知識は数学(確率、統計、線形代数微積分)と、機械学習(特に教師あり学習)の知識あたりでしょうか。私は強化学習の知識がほとんどゼロの状態から始めて、時々、本なども読みながら動画を進めていきました。Silver氏の授業が非常にわかりやすいので、わからないところがあっても2度、3度聞けばかなり頭に入ってきます。

指定教科書はこちら:

http://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdf

こちらのリンクは現在準備中の新しいエディションのものです。概ねこの本の流れに沿って授業が進んでいきますので、わからない箇所があればこちらを参照するのもお勧めです。

10回の授業はそれぞれ次の通りです。

Lecture 1: Introduction to Reinforcement Learning
Lecture 2: Markov Decision Processes
Lecture 3: Planning by Dynamic Programming
Lecture 4: Model-Free Prediction
Lecture 5: Model-Free Control
Lecture 6: Value Function Approximation
Lecture 7: Policy Gradient Methods
Lecture 8: Integrating Learning and Planning
Lecture 9: Exploration and Exploitation
Lecture 10: Case Study: RL in Classic Games

第1回目はお話的なイントロ、最終回はゲームへの応用のお話。特に重要なのは第2回〜第7回という印象です。わからないところがあれば、理解できるまで何度も巻き戻して観ることをお勧めします。あとで同じ手法や概念が何度も登場するからです。

授業の講義ページはこちら。授業スライドなどもこちらからダウンロードできます。
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

Youtubeだと再生回数も見れるのが面白いですよね。第1回目はなんと20万人近く観ていることがわかります。ですが第2回目となると8万人、第3回目は5万人、そして最終回まで頑張った人は1万人近くまで激減(笑)。最後まで粘ると満足感を得られますね!