本講義では,音声認識や音声合成を実現する上で中心的な役割を果たしている隠れマルコフモデル,N-gram,重み付き有限状態トランスデューサ,ニューラルネットワーク等の確率・統計モデルを扱う。さらに,それらが実際どのように音声認識や音声合成に用いられているのかを説明する。また音声認識や音声合成のヒューマンインタフェースへの応用や,音声信号の信号処理技術についても触れる。講義は演習を組み合わせながら行い,音声情報工学について全般的な基礎を提供する。
音声コミュニケーションは我々が日常生活の中で日々行っていることである。しかし工学的に同等のことを行おうとすると,それが非常に高度な情報処理の仕組みを必要とするものであることが分かる。現在の音声情報処理技術は未だに到底ヒトの能力に及ぶものではないが,長い研究の積み重ねにより限られた条件ではヒトに近い性能を出すこともできるようになりつつある。講義を通してヒトの音声コミュニケーションが如何に高度なものであるかを実感するとともに,工学的な立場からその高度な仕組みにチャレンジする醍醐味を味わってほしい。
本講義を履修することによって次の能力を修得する。
1)統計モデルを用いて,音声をモデル化できる
2)統計モデルの学習アルゴリズムの導出や,統計モデルを用いた推論ができる
3)音声認識システムや音声合成システムが,どのように実現されているか説明できる
4)ヒトの発声・聴覚機構と,音声認識・音声合成システムの関係について説明できる
5)音声を用いたヒューマンインタフェースについて仕組みの説明ができる
6)音声の信号処理について,基本的な定式化ができる
音声認識,音声合成,音声符号化,音声強調,ヒューマンインタフェース,発声・聴覚機構,隠れマルコフモデル,N-gramモデル,重み付き有限状態トランスデューサ,グラフィカルモデル,ベイズ推定,ニューラルネットワーク,適応
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | ✔ 展開力(実践力又は解決力) |
毎回の講義の前半で,復習を兼ねて前回の演習問題の解答を解説します。講義の後半で,その日の教授内容に関する演習問題に取り組んでもらいます。各回の学習目標をよく読み,課題を予習・復習で行って下さい。
授業計画 | 課題 | |
---|---|---|
第1回 | 音声とヒューマンインタフェース | 音声を用いたヒューマンインタフェースについてどのようなものがあり,どのように実現されているのか説明せよ |
第2回 | 人の発声機構と聴覚機構,音韻 | 人がどのような機構を用いて音声コミュニケーションを実現しているのかについて説明せよ |
第3回 | 音声信号の分析とパラメトリック表現 | 音声信号からモデル化に必要な音響特徴量を抽出する方法を説明せよ |
第4回 | 音声認識の原理 | 統計的枠組みに基づいた音声認識の原理について説明せよ |
第5回 | 隠れマルコフモデル | 隠れマルコフモデルの定義,およびパラメタ推定や推論のためのアルゴリズムについて説明せよ |
第6回 | 単語ネットワークとN-gramモデル | 単語列のモデル化に用いられる統計モデルについて説明せよ |
第7回 | 重み付有限状態トランスデューサ | 状態遷移を伴う様々な統計モデルを統一的に扱うことのできる重み付き有限状態トランスデューサについて説明せよ |
第8回 | グラフィカルモデル | 様々な構造をもった確率モデルを統一的に記述できるグラフィカルモデルについて説明せよ |
第9回 | ベイズ推定 | ベイズ推定や,そのいくつかの具体的な問題への応用について説明せよ |
第10回 | ニューラルネットワーク | ニューラルネットの構成や,学習・推論について説明せよ |
第11回 | 適応化技術 | 話者や環境の違いに起因する音声の変動に対処する適応化手法について説明せよ |
第12回 | 音声強調とその応用 | 雑音劣化音声の雑音低減手法や実環境音声認識への応用手法について説明せよ |
第13回 | 音声合成の原理 | 音響特徴量から音声信号波形を生成する手法を説明せよ |
第14回 | 統計的音声合成 | 統計モデルに基づいたテキスト音声合成手法の原理を説明せよ |
第15回 | 音声符号化 | 情報量圧縮の観点から音声信号の効率的表現手法と復元手法を説明せよ |
毎回講義資料を配布する
C. Bishop, "Pattern Recognition and Machine Learning," Springer, ISBN-13: 978-0387310732
古井貞煕『新音響・音声工学』近代科学社,ISBN-13: 978-4764903302
X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall, ISBN-13: 978-0130226167
音声認識,音声合成,音声信号処理およびそこで用いられている各種統計モデルについて,その理解度を評価
配点は,レポート(40%),期末試験(60%)
下記の講義に相当する知識を有すること。
LAS.M102 : 線形代数学第一・演習
LAS.M101 : 微分積分学第一・演習
ICT.S206 : 信号とシステム解析