2020年度 音声情報工学   Speech Information Technology

文字サイズ 

アップデートお知らせメールへ登録 お気に入り講義リストに追加
開講元
情報通信コース
担当教員名
篠﨑 隆宏 
授業形態
講義    (Zoom)
メディア利用科目
曜日・時限(講義室)
火1-2(G224)  金1-2(G224)  
クラス
-
科目コード
ICT.H503
単位数
2
開講年度
2020年度
開講クォーター
1Q
シラバス更新日
2020年9月18日
講義資料更新日
-
使用言語
英語
アクセスランキング
media

講義の概要とねらい

本講義では,音声認識や音声合成を実現する上で中心的な役割を果たしている隠れマルコフモデル,N-gram,重み付き有限状態トランスデューサ,ニューラルネットワーク等の確率・統計モデルを扱う。さらに,それらが実際どのように音声認識や音声合成に用いられているのかを説明する。また音声認識や音声合成のヒューマンインタフェースへの応用や,音声信号の信号処理技術についても触れる。講義は演習を組み合わせながら行い,音声情報工学について全般的な基礎を提供する。
 音声コミュニケーションは我々が日常生活の中で日々行っていることである。しかし工学的に同等のことを行おうとすると,それが非常に高度な情報処理の仕組みを必要とするものであることが分かる。現在の音声情報処理技術は未だに到底ヒトの能力に及ぶものではないが,長い研究の積み重ねにより限られた条件ではヒトに近い性能を出すこともできるようになりつつある。講義を通してヒトの音声コミュニケーションが如何に高度なものであるかを実感するとともに,工学的な立場からその高度な仕組みにチャレンジする醍醐味を味わってほしい。

到達目標

 本講義を履修することによって次の能力を修得する。
1)統計モデルを用いて,音声をモデル化できる
2)統計モデルの学習アルゴリズムの導出や,統計モデルを用いた推論ができる
3)音声認識システムや音声合成システムが,どのように実現されているか説明できる
4)ヒトの発声・聴覚機構と,音声認識・音声合成システムの関係について説明できる
5)音声を用いたヒューマンインタフェースについて仕組みの説明ができる
6)音声の信号処理について,基本的な定式化ができる

キーワード

音声認識,音声合成,音声符号化,音声強調,ヒューマンインタフェース,発声・聴覚機構,隠れマルコフモデル,N-gramモデル,重み付き有限状態トランスデューサ,グラフィカルモデル,ベイズ推定,ニューラルネットワーク,適応

学生が身につける力(ディグリー・ポリシー)

専門力 教養力 コミュニケーション力 展開力(探究力又は設定力) 展開力(実践力又は解決力)

授業の進め方

講義内容を復習するための演習課題を出し、回答レポートをOCWより提出してもらいます。授業スケジュールをもとに、予習をしてください。

授業計画・課題

  授業計画 課題
第1回 音声とヒューマンインタフェース 音声を用いたヒューマンインタフェースについてどのようなものがあり,どのように実現されているのか説明せよ
第2回 人の発声機構と聴覚機構,音韻 人がどのような機構を用いて音声コミュニケーションを実現しているのかについて説明せよ
第3回 波形符号化と音声信号の分析 音声波形の表現手法や分析方法を説明せよ
第4回 音声信号のパラメトリック表現 音声信号のパラメトリックな表現手法について説明せよ
第5回 音声認識の原理 統計的枠組みに基づいた音声認識の原理について説明せよ
第6回 隠れマルコフモデル 隠れマルコフモデルの定義,およびパラメタ推定や推論のためのアルゴリズムについて説明せよ
第7回 単語ネットワークとN-gramモデル 単語列のモデル化に用いられる統計モデルについて説明せよ
第8回 重み付有限状態トランスデューサ 状態遷移を伴う様々な統計モデルを統一的に扱うことのできる重み付き有限状態トランスデューサについて説明せよ
第9回 グラフィカルモデル 様々な構造をもった確率モデルを統一的に記述できるグラフィカルモデルについて説明せよ
第10回 ベイズ推定 ベイズ推定や,その応用について説明せよ
第11回 ニューラルネットワーク ニューラルネットの構成や,学習・推論について説明せよ
第12回 統計的音声合成 統計モデルに基づいた音声合成手法の原理を説明せよ
第13回 適応化技術 話者や環境の違いに起因する音声の変動に対処する適応化手法について説明せよ
第14回 音声強調とその応用 雑音低減手法とその音声認識への応用について説明せよ

授業時間外学修(予習・復習等)

学修効果を上げるため,教科書や配布資料等の該当箇所を参照し,「毎授業」授業内容に関する予習と復習(課題含む)をそれぞれ概ね100分を目安に行うこと。

教科書

毎回講義資料を配布する

参考書、講義資料等

C. Bishop, "Pattern Recognition and Machine Learning," Springer, ISBN-13: 978-0387310732
古井貞煕『新音響・音声工学』近代科学社,ISBN-13: 978-4764903302
X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall, ISBN-13: 978-0130226167

成績評価の基準及び方法

音声認識,音声合成,音声信号処理およびそこで用いられている各種統計モデルについて,その理解度を評価
配点は,レポート(40%),期末試験(60%)
期末試験の実施が困難な際は試験に変えてレポート課題を課し,レポートの配点を100%とする。

関連する科目

  • ICT.H410 : 計算言語学
  • ICT.H416 : 脳の超並列モデルと数理的基礎
  • ICT.H508 : 言語工学

履修の条件(知識・技能・履修済科目等)

下記の講義に相当する知識を有すること。
LAS.M102 : 線形代数学第一・演習
LAS.M101 : 微分積分学第一・演習
ICT.S206 : 信号とシステム解析

このページのトップへ