2019年度 音声情報工学   Speech Information Technology

文字サイズ 

アップデートお知らせメールへ登録 お気に入り講義リストに追加
開講元
情報通信コース
担当教員名
篠崎 隆宏  小林 隆夫 
授業形態
講義
曜日・時限(講義室)
火1-2(G224)  金1-2(G224)  
クラス
-
科目コード
ICT.H503
単位数
2
開講年度
2019年度
開講クォーター
1Q
シラバス更新日
2019年4月22日
講義資料更新日
-
使用言語
英語
アクセスランキング

講義の概要とねらい

本講義では,音声認識や音声合成を実現する上で中心的な役割を果たしている隠れマルコフモデル,N-gram,重み付き有限状態トランスデューサ,ニューラルネットワーク等の確率・統計モデルを扱う。さらに,それらが実際どのように音声認識や音声合成に用いられているのかを説明する。また音声認識や音声合成のヒューマンインタフェースへの応用や,音声信号の信号処理技術についても触れる。講義は演習を組み合わせながら行い,音声情報工学について全般的な基礎を提供する。
 音声コミュニケーションは我々が日常生活の中で日々行っていることである。しかし工学的に同等のことを行おうとすると,それが非常に高度な情報処理の仕組みを必要とするものであることが分かる。現在の音声情報処理技術は未だに到底ヒトの能力に及ぶものではないが,長い研究の積み重ねにより限られた条件ではヒトに近い性能を出すこともできるようになりつつある。講義を通してヒトの音声コミュニケーションが如何に高度なものであるかを実感するとともに,工学的な立場からその高度な仕組みにチャレンジする醍醐味を味わってほしい。

到達目標

 本講義を履修することによって次の能力を修得する。
1)統計モデルを用いて,音声をモデル化できる
2)統計モデルの学習アルゴリズムの導出や,統計モデルを用いた推論ができる
3)音声認識システムや音声合成システムが,どのように実現されているか説明できる
4)ヒトの発声・聴覚機構と,音声認識・音声合成システムの関係について説明できる
5)音声を用いたヒューマンインタフェースについて仕組みの説明ができる
6)音声の信号処理について,基本的な定式化ができる

キーワード

音声認識,音声合成,音声符号化,音声強調,ヒューマンインタフェース,発声・聴覚機構,隠れマルコフモデル,N-gramモデル,重み付き有限状態トランスデューサ,グラフィカルモデル,ベイズ推定,ニューラルネットワーク,適応

学生が身につける力

国際的教養力 コミュニケーション力 専門力 課題設定力 実践力または解決力
- - -

授業の進め方

毎回の講義の前半で,復習を兼ねて前回の演習問題の解答を解説します。講義の後半で,その日の教授内容に関する演習問題に取り組んでもらいます。各回の学習目標をよく読み,課題を予習・復習で行って下さい。

授業計画・課題

  授業計画 課題
第1回 音声とヒューマンインタフェース 音声を用いたヒューマンインタフェースについてどのようなものがあり,どのように実現されているのか説明せよ
第2回 人の発声機構と聴覚機構,音韻 人がどのような機構を用いて音声コミュニケーションを実現しているのかについて説明せよ
第3回 音声信号の分析とパラメトリック表現 音声信号からモデル化に必要な音響特徴量を抽出する方法を説明せよ
第4回 隠れマルコフモデル 隠れマルコフモデルの定義,およびパラメタ推定や推論のためのアルゴリズムについて説明せよ
第5回 音声認識の原理 統計的枠組みに基づいた音声認識の原理について説明せよ
第6回 単語ネットワークとN-gramモデル 単語列のモデル化に用いられる統計モデルについて説明せよ
第7回 重み付有限状態トランスデューサ 状態遷移を伴う様々な統計モデルを統一的に扱うことのできる重み付き有限状態トランスデューサについて説明せよ
第8回 グラフィカルモデル 様々な構造をもった確率モデルを統一的に記述できるグラフィカルモデルについて説明せよ
第9回 ベイズ推定 ベイズ推定や,そのいくつかの具体的な問題への応用について説明せよ
第10回 ニューラルネットワーク ニューラルネットの構成や,学習・推論について説明せよ
第11回 適応化技術 話者や環境の違いに起因する音声の変動に対処する適応化手法について説明せよ
第12回 音声合成の原理 音響特徴量から音声信号波形を生成する手法を説明せよ
第13回 統計的音声合成 統計モデルに基づいたテキスト音声合成手法の原理を説明せよ
第14回 音声符号化 情報量圧縮の観点から音声信号の効率的表現手法と復元手法を説明せよ
第15回 音声強調とその応用 雑音劣化音声の雑音低減手法や実環境音声認識への応用手法について説明せよ

教科書

毎回講義資料を配布する

参考書、講義資料等

C. Bishop, "Pattern Recognition and Machine Learning," Springer, ISBN-13: 978-0387310732
古井貞煕『新音響・音声工学』近代科学社,ISBN-13: 978-4764903302
X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall, ISBN-13: 978-0130226167

成績評価の基準及び方法

音声認識,音声合成,音声信号処理およびそこで用いられている各種統計モデルについて,その理解度を評価
配点は,レポート(40%),期末試験(60%)

関連する科目

  • ICT.H410 : 計算言語学
  • ICT.H416 : 脳の超並列モデルと数理的基礎
  • ICT.H508 : 言語工学

履修の条件(知識・技能・履修済科目等)

下記の講義に相当する知識を有すること。
LAS.M102 : 線形代数学第一・演習
LAS.M101 : 微分積分学第一・演習
ICT.S206 : 信号とシステム解析

このページのトップへ