ICML'17における強化学習 - sotetsuk's tech blog

この記事は2017年に書きかけのままだったブログ記事の供養です。今2018年年始なので、NIPS参加報告も目立つ中、4ヶ月遅れくらいですが書きかけだったICML2017の参加録をひとまず投稿しておきます。

ホットトピック
個人的に面白かった発表・トピック5選
総括
[PR] 速習強化学習

f:id:sotetsuk:20170909193237j:plain

8月上旬にシドニーで行われたICML2017に参加してきました私自身は自然言語生成のワークショップで発表をしてきました。強化学習系のセッションを中心に聞いていたのでどんな研究や発表が傾向として多かったかをまとめます。このブログは内輪で参加報告をしたスライドを簡単にまとめたものなので、より詳細には発表スライドを参照ください。

docs.google.com

ホットトピック

まずは発表が多かったトピックについて簡単にまとめたいと思います。また、強化学習一般の基本的な知識については仮定した上で説明します。

モデルベース深層強化学習

既存のDQNやA3Cといった有名な深層強化学習アルゴリズムは基本的に環境のモデルをブラックボックス的に扱うモデルフリーのアルゴリズムですが、今回はモデルベースの深層強化学習アルゴリズムがいくつか登場して目立っていた印象です。実用の観点からは推定したモデルを使ったプランニングが出来るようになると実用への大きな一歩になると感じます。元々環境のモデルが既知で推定する必要がない囲碁AIなどのドメインでの成功を見ると、次は（環境の）モデルを推定する必要がある問題で、これをうまく推定して活用しようという流れがあるのは自然な気がします。

f:id:sotetsuk:20180102210049p:plain

[1] Tutorial: Deep Reinforcement Learning, Decision Making, and Control
[2] The Predictron: End-To-End Learning and Planning
[3] Prediction and Control with Temporal Segment Models
[4] End-to-End Differentiable Adversarial Imitation Learning
[5] Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning

ソフト最適

例えば、Q学習ではmaxをベルマン作用素に使って目標値R + γ max Q(s, a)に近づけるようQ関数を学習しますが、この作用素のmaxをlog-sum-expを使って定義する”ソフト（マックス）”な作用素を使ったQ学習 (Soft-Q) を提案する研究がいくつか登場しました[2, 3]。特に理論的な側面からの興味深さが際立ちます。まず、(1) 最適化したい期待収益にエントロピーも考慮すると、Soft-Qから定まる最適方策と方策勾配法で最適化して求まる最適方策が一致します[4,5]。これは価値ベース・方策ベースの手法の統一的な見方が出来るやもという点でとても面白いです。また、(2) この作用素は縮小写像なので他の強化学習アルゴリズムと同様バナッハの不動点定理を使い収束性を示せます [3]。そして、(3) ハイパーパラメータの極限を取ることでmax, meanの作用素を復元できます[3, 4]。これによってQ学習やSARSAで使われる作用素を復元できます。この話題に関しては、似たようなアイディアの研究が同時期にたくさん出ていて、正直貢献の細かい違いをきちんと把握できていないです。

[1] Tutorial: Deep Reinforcement Learning, Decision Making, and Control
[2] Reinforcement Learning with Deep Energy-Based Policies
[3] An Alternative Softmax Operator for Reinforcement Learning
[4] Nachum et al. (2017) Bridging the Gap Between Value and Policy Based Reinforcement Learning
[5] Schulman et al. (2017) Equivalence Between Policy Gradients and Soft Q-Learning

[4], [5]はICML'17での発表ではありませんが、いくつかの発表内で言及がありました。

階層性（オプション）

Montezuma’s Revengeのように報酬がスパースな問題はいくつかのサブタスクのようなものに分割しないと解くのが難しいですが、この分割を自動で学習しようという研究がいくつかありました。強化学習の文脈では、より階層が上の方策（のようなもの）をオプションと呼ぶことがあります。基本的には報酬に依存しない情報だけから何らかの形で（当然ヒトの事前知識も使わず）中間的なサブゴールを獲得しにかかるアプローチになります。

f:id:sotetsuk:20180102215817p:plain

[1] Invited talk by R. Hadsell (DeepMind)
[2] A Laplacian Framework for Option Discovery in Reinforcement Learning
[3] FeUdal Networks for Hierarchical Reinforcement Learning
[4] Unifying Task Specification in Reinforcement Learning

（報酬情報なしでの）系統立った探索

Montezuma’s Revengeのような問題ではどうようにどう空間を系統立てて探索するかが重要になります。よくある探索のアプローチは「不確かなときは楽観的に」の原則に従うものですが、極めて報酬がスパースで状態空間が膨大な問題設定では実用性に乏しいです。アプローチとしては、（疑似）カウント系のアプローチと、予測の確信度を使う系統のアプローチがあるそうです（ただどちらもある状態がどの程度起こりそうだと予測しているかを推定する形になり本質的には近いような気もします）。[1]では報酬を使わずにマリオのプレイができてしまうというのは中々インパクトがあります。

f:id:sotetsuk:20180102205805p:plain

[1] Curiosity-driven Exploration by Self-supervised Prediction
[2] Count-Based Exploration with Neural Density Models

一貫学習 (end-to-end learning)

これはテーマというよりは、ニューラル全盛の時代である今、モジュール全体を繋げて微分可能に設計するのは一つの基本戦略と言っても良いのかもしれません。言うまでもなくこうして全てのモジュールを全部一貫して微分可能にして誤差逆伝搬法で全体を最適化する手法はいくつか散見されました。RLはナイーブに考えると比較的途中で切断されやすい気もするので一層重要なのかもしれません。

f:id:sotetsuk:20180102210151p:plain

[1] End-to-End Differentiable Adversarial Imitation Learning
[2] The Predictron: End-To-End Learning and Planning
[3] FeUdal Networks for Hierarchical Reinforcement Learning
[4] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

学習時と異なる環境への汎化（transfer/zero-shot）

シミュレータで学習して実機を動かしたいときなど、（似てはいるが）異なるMDPへの汎化を獲得しなければいけない状況はままあるので、こうした場合について、学習時に適切な外乱を加えて正則化をかけたり[1]、異なるMDPへの汎化を学習するモジュールをend-to-endに組み込んで一緒に学習するといったアプローチがありました[2,3]。

f:id:sotetsuk:20180102215930p:plain

[1] Robust Adversarial Reinforcement Learning
[2] DARLA: Improving Zero-Shot Transfer in Reinforcement Learning
[3] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

実用的な探索（安全・公平）

現実社会に強化学習アルゴリズムをデプロイする場合には、学習中の挙動に制限を書けたい場合があります。例えば、(1) 安全に探索して欲しい[3]（e.g., 壁にぶつかって欲しくない）(2) 公平に探索してほしい[2]（e.g., 白人ばかり不公平に優先するのはやめて欲しい）といった場合が考えられます。こうした意味で探索に何らかの形で制約をかけたりするアルゴリズムがいくつかありました。

[1] Tutorial: Deep Reinforcement Learning, Decision Making, and Control
[2] Fairness in Reinforcement Learning
[3] Constrained Policy Optimization

ヒトによる教示

ヒトによる教示を学習に使いやすいようにしているような研究がいくつかありました。（階層的なゴール設定が必要な場合など）学習が難しい環境では無駄にアルゴリズムの設計を頑張るよりヒトと協調して動くアルゴリズムを考えたほうが実用的かもしれません。

f:id:sotetsuk:20180102213832p:plain

[1] Interactive Learning from Policy-Dependent Human Feedback
[2] Modular Multitask Reinforcement Learning with Policy Sketches
[3] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

方策オフ型学習でのバイアス・バリアンス

これは別に昔からある話題ですが、今回もこういう系の話題でセッション一つ分くらいはありました。方策オフ型での学習では勾配や価値関数の推定でバイアスが生じます。これを修正するために重点サンプリング (IS) が行われる場合が多いですが、（強化学習の場合はとくに）分散が大きくなってしまい学習が安定しません。ISよりもバイアスは出るがバリアンスは小さい推定量を提案する研究など、関連研究は昔からたくさんあり、昨年も例えばDR (doubly robust) 推定量を使った研究などがいくつかありましたが、今年もこうした研究は盛んに続いている印象です。

[1] Data-Efficient Policy Evaluation Through Behavior Policy Search
[2] Stochastic Variance Reduction Methods for Policy Evaluation
[3] Optimal and Adaptive Off-policy Evaluation in Contextual Bandits
[4] Consistent On-Line Off-Policy Evaluation

個人的に面白かった発表・トピック5選

チュートリアル

f:id:sotetsuk:20170909191851p:plain:w400 — Speaker Bios | https://sites.google.com/view/icml17deeprl

良かったセッションは色々あったのですが、初日のS. Levine氏らによるチュートリアル"Deep Reinforcement Learning, Decision Making, and Control"は非常に良かったので興味がある方は是非リンクからスライド眺めてみると良いのではないかと思います。前半の基本的なところは方策勾配系と連続行動空間にとくに詳しくて分かりやすく、後半の発展的な話はソフト最適の話や、逆強化学習はGANとの関係にも触れています。最後の方のモデルベースは正直知らない話題が多かったですが勉強になりました。

ソフト最適

内容については上で既に触れましたが、個人的にソフト最適の話は好きです。

カテゴリカルDQN

通常のベルマン方程式は期待値だけ考えるが、マルチモーダルなときなどを考えると良くないので分布で考えたいということで、DQNのアーキテクチャに組み込める形でQ関数の分布を推定できる手法を提案しました。

f:id:sotetsuk:20180102214152p:plain

[1] A Distributional Perspective on Reinforcement Learning

ベータ方策

連続行動空間の確率的方策では昔からガウス方策がよく使われます。ただ現実には物理的に取りうる値にしきい値があり、これによってバイアスがでる場合があります。これをベータ分布を使ってこれを解決します。

f:id:sotetsuk:20180102210812p:plain

[1] Improving Stochastic Policy Gradients in Continuous Control with Deep Reinforcement Learning using the Beta Distribution

PVFによるオプションの発見

ちょっと正直まだ良く理解できてないですが、Proto-value function (PVF) というものを利用してオプションを見つけるという研究が面白かったです。PVFは価値関数を線形和で分解したもので、結局 φ(s') - φ(s) をSVDする感じになるっぽいです。Montezuma’s Revengeで実験もして獲得されたオプションが重要なオブジェクトに対応していることを確認しています。

f:id:sotetsuk:20180102214656p:plain

[1] A Laplacian Framework for Option Discovery in Reinforcement Learning

総括

深層強化学習も研究の主眼がだんだんと難しい（が実用化に資する）ものに移ってきた感じがします（1. -> 2. -> 3.）。モデルベースの深層強化学習はドメインによってはかなり困難なタスクのように見えますが、実現すればまた一つブレイクスルーになる可能性がある分野だと思うので今後の発展が楽しみです。

Model-free value-based , 離散行動空間 (e.g., DQN)
Model-free policy-based, 連続行動空間 (e.g., A3C, TRPO)
Model-based, 連続行動空間 (e.g., Predictron)

また論文の見せ方も強化学習は派手なものが多く、ビデオがついてるものはやはり見栄えがいいなと感じました。arXiv, blog, YouTube, GitHubの4点セットを付けないと中々注目を集めにくくなっているのかもしれません。

[PR] 速習強化学習

Csaba Szepesvari著、"Algorithms for Reinforcement Learning"の訳書「速習強化学習 ―基礎理論とアルゴリズム―」が共立出版から2017年9月末に発売になりました。コンパクトな本ですが強化学習の理論を体系的に学ぶことができます。深層強化学習に関する節も訳者補遺としてございますので是非お手にとっていただければと思います。

f:id:sotetsuk:20180102221423p:plain:w300

速習強化学習 ―基礎理論とアルゴリズム― / Csaba Szepesvári 著小山田創哲訳者代表・編集前田新一小山雅典監訳池田春之介大渡勝己芝慎太朗関根嵩之高山晃一田中一樹西村直樹藤田康博望月駿一訳 | 共立出版

GoogleのAlphaGoによるプロ棋士打破は,人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく,自動運転やロボット制御などの重要な分野への応用も知られ,いま世間の強い関心を集めている。その一方,日本語で強化学習を体系的に学べる教科書は多くはなく,代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。本書はトップ会議のチュートリアルで利用されたり,2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように,入門書として広く読まれている良書である。本書の内容は動的計画法などの基本的かつ重要なアルゴリズムに始まり,比較的新しい手法も体系的に網羅しつつもコンパクトに自己完結している。原著の出版から7年あまり経つが,近年の発展は本書で掲載されたアルゴリズム・アイデアをその基礎においている。特に本書では,深層学習を利用した深層強化学習を含む最近の発展に,本書で紹介されたアルゴリズムがどのように使われているかを解説した訳者補遺を追加することで,本書と最先端の研究との橋渡しをしている。

sotetsuk's tech blog

ホットトピック

モデルベース深層強化学習

ソフト最適

階層性（オプション）

（報酬情報なしでの）系統立った探索

一貫学習 (end-to-end learning)

学習時と異なる環境への汎化（transfer/zero-shot）

実用的な探索（安全・公平）

ヒトによる教示

方策オフ型学習でのバイアス・バリアンス

個人的に面白かった発表・トピック5選

チュートリアル

ソフト最適

カテゴリカルDQN

ベータ方策

PVFによるオプションの発見

総括

[PR] 速習 強化学習

[PR] 速習強化学習