本講義では、音声の認識や合成および理解における最新の技術進歩と基礎理論に焦点を当てる。特に、ニューラルネットワークを含む現代の確率・統計モデルの理解を深め、これらがどのように音声情報処理に応用されているかを詳細に説明する。また、音声認識と音声合成の基本原理から、最新の研究動向、例えば、グラフィカルモデル、マルコフ決定過程、強化学習などの進歩した概念に至るまでをカバーする。さらに、これらの技術がヒューマンインターフェースやその他の応用領域にどのように統合されているかについても探求する。
音声コミュニケーションは日常生活における基本的な活動であり、それを模倣しようとする工学的努力は複雑な情報処理技術を必要とする。現代の音声情報処理技術は、人間の能力に匹敵する、あるいはそれを超える性能を発揮する可能性を秘めている。この講義を通じて、学生には人間の音声コミュニケーションの複雑さと、それを工学的に再現する試みの興奮を体験してもらいたい。
本講義を履修することによって次の能力を修得する。
1)統計モデルを用いて,音声をモデル化できる
2)統計モデルの学習アルゴリズムの導出や,統計モデルを用いた推論ができる
3)音声認識システムや音声合成システムが,どのように実現されているか説明できる
4)ヒトの発声・聴覚機構と,音声認識・音声合成システムの関係について説明できる
5)音声を用いたヒューマンインタフェースについて仕組みの説明ができる
6)音声の信号処理について,基本的な定式化ができる
音声認識,音声合成,音声符号化,ヒューマンインタフェース,発声・聴覚機構,音響モデル,言語モデル,グラフィカルモデル,ベイズ推定,ニューラルネットワーク,音声言語獲得
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | ✔ 展開力(実践力又は解決力) |
講義内容を復習するための演習課題を出し、回答レポートをT2SCHOLAより提出してもらいます。授業スケジュールをもとに、予習をしてください。
授業計画 | 課題 | |
---|---|---|
第1回 | 音声通信と音声インターフェースシステム | 音声通信と音声インターフェースシステムの基本概念と歴史的発展を説明せよ |
第2回 | 信号解析 | サンプリング、線形時不変(LTI)システム、フーリエ変換、およびZ変換の基本原理と音声信号への応用を説明せよ |
第3回 | 音声のパラメトリックおよび非パラメトリック表現 | LPC、Parcor、連結音響管モデル、およびケプストラムを含む、音声のパラメトリックおよび非パラメトリック表現を説明せよ |
第4回 | 確率分布の基礎 | 確率分布の基本を説明せよ |
第5回 | 音声認識と合成の原理 | 音声認識と合成の基本原理とその実現における主要な技術的挑戦を説明せよ |
第6回 | グラフィカルモデル | ベイジアンネットワーク、因子グラフ、およびd-分離を含むグラフィカルモデルの基本概念を説明せよ |
第7回 | マルコフモデルと隠れマルコフモデル | マルコフモデルと隠れマルコフモデルの定義とそれらが音声言語情報処理においてどのように応用されるかを説明せよ |
第8回 | Viterbiアルゴリズムとメッセージパッシングアルゴリズム | HMMとグラフィカルモデル上での効率的な計算を実現するViterbiアルゴリズムとMessage-passingアルゴリズムの原理を説明せよ |
第9回 | ベイズ推定 | 共役事前分布、変分ベイズ、およびサンプリングを含むベイズ推論の基本を説明せよ |
第10回 | ニューラルネットワークの基礎 | 多層パーセプトロン、フィードフォワードネットワーク、および再帰ネットワークの基本構造と機能を説明せよ |
第11回 | ニューラルネットワークによる音声認識 | ニューラルネットワークを用いた音声認識の基本原理と最新の進歩を説明せよ |
第12回 | ニューラルネットワークによる音声合成 | ニューラルネットワークを用いた音声合成の基本原理と最新の進歩を説明せよ |
第13回 | マルコフ決定過程と強化学習 | マルコフ決定過程と強化学習の基本概念を説明せよ |
第14回 | 対話システムと音声言語獲得 | 対話システムと音声言語獲得の基本原理を説明せよ |
学修効果を上げるため,教科書や配布資料等の該当箇所を参照し,「毎授業」授業内容に関する予習と復習(課題含む)をそれぞれ概ね100分を目安に行うこと。
毎回講義資料を配布する
C. Bishop, "Pattern Recognition and Machine Learning," Springer, ISBN-13: 978-0387310732
古井貞煕『新音響・音声工学』近代科学社,ISBN-13: 978-4764903302
牧野 貴樹, 澁谷 長史, 白川 真一 編 「これからの強化学習」, ISBN-13: 978-4627880313
X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall, ISBN-13: 978-0130226167
音声認識,音声合成,音声信号処理およびそこで用いられている各種統計モデルについて,その理解度を評価
配点は,レポート(40%),期末試験(60%)
下記の講義に相当する知識を有すること。
LAS.M102 : 線形代数学第一・演習
LAS.M101 : 微分積分学第一・演習
ICT.S206 : 信号とシステム解析