本講義では先端的な人工知能技術について学びます.具体的には,試行錯誤を通じて良好な解探索するアルゴリズムである進化計算,および,試行錯誤を通じて良好な行動戦略を獲得するアルゴリズムである強化学習について講義します.本講義の目的は,1)進化計算と強化学習に関する知識を習得し,2)実世界の問題解決に応用できるようになることである.
本講義を履修することによって,以下の数理的知識と応用技術を習得させる.
1) 進化計算技術
2) 強化学習技術
進化計算,ブラックボックス最適化,多目的最適化,強化学習,価値ベースの手法,方策ベースの手法,深層強化学習
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | 展開力(実践力又は解決力) |
講義はスライドを使った講義と演習の併用によって進める。
授業計画 | 課題 | |
---|---|---|
第1回 | 進化計算入門 | 講義の目的と進化計算の基礎の理解 |
第2回 | 関数最適化のための進化計算:遺伝的アルゴリズム | 関数最適化,遺伝的アルゴリズムの理解 |
第3回 | 関数最適化のための進化計算:進化戦略 | 進化戦略の理解 |
第4回 | 組合せ最適化のための進化計算:遺伝的アルゴリズム | 組合せ最適化のための遺伝的アルゴリズムの理解 |
第5回 | 離散最適化のための進化計算:分布推定アルゴリズム | ブラックボックス離散関数最適化のための分布推定アルゴリズムの理解 |
第6回 | 大域的多峰性最適化のための進化計算 | 大域的多峰性と大域的多峰性問題最適化のための進化計算の理解 |
第7回 | 多目的最適化のための進化計算 | 多目的最適化,多目的進化計算の理解 |
第8回 | 強化学習入門 | 強化学習の基礎の理解 |
第9回 | 深層ニューラルネットワーク | 深層ニューラルネットワークの理解 |
第10回 | Deep Q-Network (DQN) | Deep Q-Network (DQN) の理解 |
第11回 | DQNの改良 | DQNの改良版の理解 |
第12回 | 方策勾配法とActor-Critic法 | REINFORCE, Natural Actor-Critic (NAC), Asynchronous Advantage Actor-Critic (A3C)の理解 |
第13回 | 連続行動空間のための深層強化学習 | Understand Deep Deterministic Policy Gradient (DDPG), Twin Delayed Deterministic Policy Gradient (TD3), Soft Actor-Critic (SAC)の理解 |
第14回 | Trust Region Policy OptimizationとProximal PolicyOptimization | Trust Region Policy OptimizationとProximal PolicyOptimizationの理解 |
学修効果を上げるため,教科書や配布資料等の該当箇所を参照し,「毎授業」授業内容に関する予習と復習(課題含む)をそれぞれ概ね100分を目安に行うこと。
教科書の指定はない。講義資料を配付する。
Artificial Intelligence - A Modern Approach (Third Edition, Prentice Hall) ほか
各講義で出題する課題で評価する.
JavaとPythonのプログラミング経験があることが望ましい。