本講義では,音声認識や音声合成を実現する上で中心的な役割を果たしている隠れマルコフモデル,N-gram,重み付き有限状態トランスデューサ,ニューラルネットワーク等の確率・統計モデルを扱う。さらに,それらが実際どのように音声認識や音声合成に用いられているのかを説明する。また音声認識や音声合成のヒューマンインタフェースへの応用や,音声信号の信号処理技術についても触れる。講義は演習を組み合わせながら行い,音声情報工学について全般的な基礎を提供する。
音声コミュニケーションは我々が日常生活の中で日々行っていることである。しかし工学的に同等のことを行おうとすると,それが非常に高度な情報処理の仕組みを必要とするものであることが分かる。現在の音声情報処理技術は一般にヒトの能力に及ぶものではないが,限られた条件ではヒトと同等以上の性能を出すこともできるようになりつつある。講義を通してヒトの音声コミュニケーションが如何に高度なものであるかを実感するとともに,その機能の工学的な実現にチャレンジする醍醐味を味わってほしい。
本講義を履修することによって次の能力を修得する。
1)統計モデルを用いて,音声をモデル化できる
2)統計モデルの学習アルゴリズムの導出や,統計モデルを用いた推論ができる
3)音声認識システムや音声合成システムが,どのように実現されているか説明できる
4)ヒトの発声・聴覚機構と,音声認識・音声合成システムの関係について説明できる
5)音声を用いたヒューマンインタフェースについて仕組みの説明ができる
6)音声の信号処理について,基本的な定式化ができる
音声認識,音声合成,音声符号化,音声強調,ヒューマンインタフェース,発声・聴覚機構,隠れマルコフモデル,N-gramモデル,重み付き有限状態トランスデューサ,グラフィカルモデル,ベイズ推定,ニューラルネットワーク,音声言語獲得
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | ✔ 展開力(実践力又は解決力) |
講義内容を復習するための演習課題を出し、回答レポートをT2SCHOLARより提出してもらいます。授業スケジュールをもとに、予習をしてください。
授業計画 | 課題 | |
---|---|---|
第1回 | 音声とヒューマンインタフェース | 音声を用いたヒューマンインタフェースについてどのようなものがあり,どのように実現されているのか説明せよ |
第2回 | 人の発声機構と聴覚機構,音韻 | 人がどのような機構を用いて音声コミュニケーションを実現しているのかについて説明せよ |
第3回 | 波形符号化と音声信号の分析 | 音声波形の表現手法や分析方法を説明せよ |
第4回 | 音声信号のパラメトリック表現 | 音声信号のパラメトリックな表現手法について説明せよ |
第5回 | 確率分布の基礎と統計的音声認識・音声合成の原理 | 確率分布の基礎及び統計的枠組みに基づいた音声認識・音声合成の原理について説明せよ |
第6回 | グラフィカルモデル | 様々な構造をもった確率モデルを統一的に記述できるグラフィカルモデルについて説明せよ |
第7回 | マルコフモデルと隠れマルコフモデル | マルコフモデルや隠れマルコフモデルの定義と,それらの音声認識・音声合成への応用について説明せよ |
第8回 | 重み付有限状態トランスデューサ | 状態遷移を伴う様々な統計モデルを統一的に扱うことのできる重み付き有限状態トランスデューサについて説明せよ |
第9回 | 動的計画法とビタビアルゴリズム | 動的計画法とビタビアルゴリズムについて説明せよ |
第10回 | ベイズ推定 | ベイズ推定や,その応用について説明せよ |
第11回 | ニューラルネットワークの基礎 | ニューラルネットの基礎について,学習・推論のためのアルゴリズムを含めて説明せよ |
第12回 | ニューラルネットに基づいた音声認識・音声合成 | ニューラルネットに基づいた音声認識・音声合成システムについて説明せよ |
第13回 | マルコフ決定過程と対話システム | マルコフ決定過程と対話システムについて説明せよ |
第14回 | 強化学習と音声言語獲得 | 強化学習と音声言語獲得について説明せよ |
学修効果を上げるため,教科書や配布資料等の該当箇所を参照し,「毎授業」授業内容に関する予習と復習(課題含む)をそれぞれ概ね100分を目安に行うこと。
毎回講義資料を配布する
C. Bishop, "Pattern Recognition and Machine Learning," Springer, ISBN-13: 978-0387310732
古井貞煕『新音響・音声工学』近代科学社,ISBN-13: 978-4764903302
牧野 貴樹, 澁谷 長史, 白川 真一 編 「これからの強化学習」, ISBN-13: 978-4627880313
X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall, ISBN-13: 978-0130226167
音声認識,音声合成,音声信号処理およびそこで用いられている各種統計モデルについて,その理解度を評価
配点は,レポート(40%),期末試験(60%)
期末試験の実施が困難な際は試験に変えてレポート課題を課し,レポートの配点を100%とする。
下記の講義に相当する知識を有すること。
LAS.M102 : 線形代数学第一・演習
LAS.M101 : 微分積分学第一・演習
ICT.S206 : 信号とシステム解析