【概要】インターネット上などに存在する大量のテキストデータを有効利用するためには,コンピュータによる自動的な言語処理が不可欠です.言語処理では,文字の系列として入力されるデータを,適切に組み上げて単語を認識し,句を認識し,構文的構造を推定します.このような処理をするための基礎的な考え方や,機械学習に基づいた方法の紹介などをします.機械翻訳,文書要約,評判分析などの応用についても,その数理的モデルと含む詳しく説明します.また,言語の仕組みを研究するための基本的な知識についても説明します.
【ねらい】言語処理の基礎的な知識、そのための機械学習の知識を身に付け、またそれらがどのように応用されているかについても理解できるようになることをねらいとします.
【到達目標】 本講義を履修することによって,以下の能力を習得する:
(i) 言語処理分野の研究論文が読める
(ii) 言語処理の基盤技術である形態素解析や構文解析などを実行することができる
(iii) 言語処理に用いられる基礎的な機械学習手法について、そこで使用されている数式の導出ができる
計算言語学、自然言語処理、機械学習、テキストマイニング
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | 展開力(実践力又は解決力) |
授業の最初に前回の宿題の解説を行う。続けて講義を行う。
宿題は、リーディングアサインメント、数式導出、アルゴリズム実装などである。
授業計画 | 課題 | |
---|---|---|
第1回 | 隠れマルコフモデルによる品詞タグ付け | 隠れマルコフモデルによる品詞タグ付けの確率モデルと、そこで使われる動的計画法を理解する。 |
第2回 | ナイーブベイズ分類器による文書分類 | ナイーブベイズ分類器の多項モデルと多変数ベルヌーイモデルを学び、それを通して生成モデルの考え方を理解する。 |
第3回 | 最適化の基礎とパラメータ推定 | ラグランジュの未定乗数法による制約付き最適化の方法と、それを用いたパラメータ推定を学ぶ。 |
第4回 | 文書の数学的表現、およびサポートベクターマシンによる分類 | 文書のbag-of-words表現とその変種について学び、またサポートベクターマシンによる分類方法についても理解する。 |
第5回 | 系列タギングによる固有表現抽出および係り受け解析 | 固有表現抽出と係り受け解析がどのようにして系列タギング問題に帰着するかを理解する。 |
第6回 | 系列タギングのための確率モデル | 対数線形モデルと、それを系列データに適用した条件付き確率場を理解する。 |
第7回 | 文書要約 | 文書要約に関する基礎的な知識をつけると同時に、要約における最適化問題の重要性を理解する。 |
第8回 | 文書クラスタリングの手法 | k平均法、ガウス混合クラスタリング、EMアルゴリズム、PLSAなどを学ぶ。 |
第9回 | 文書の生成モデル | LDAとそのためのギブスサンプリングを理解する。 |
第10回 | 言語リソースおよび実装方法 | 様々な言語リソースやツールについての知識を得て、それらを利用するための方法を学ぶ。 |
第11回 | 単語,文,文書の高度な数学的表現方法 | 単語、文、文書などの、分散表現について学ぶ。 |
第12回 | テキストにおける評判分析 | テキストにおける評判分析の様々な研究課題とそのための手法について学ぶ。 |
第13回 | 機械翻訳 | 統計的機械翻訳モデルであるIBMモデルについて学び、その基礎的な部分のアルゴリズムを理解する。 |
第14回 | 言語探求のための基礎知識 | 言語研究のための数理的手法としてどんなものがあるか、どういった分野が特に研究されているかなどを学ぶ。 |
第15回 | 言語探求のための数理的手法 | 数理的手法を用いた言語研究について学ぶ。 |
特になし
特になし
演習(40%)およびレポート(60%)を通して,言語処理基盤技術の考え方や使い方,および応用における考え方やモデルに関する理解度を評価する.
特になし。