自然言語テキストをコンピュータで処理および解析するための方法論と、それを支える理論について理解することを目標とします。テーマは「テキスト処理の最前線」です。
コンピュータによるテキスト処理やテキストマイニング、テキストの自動評価について、その理論と方法について説明します。 またRを使ったネットワーク分析の他、ランダムフォレストなど最近の学習理論について講義します。
(大よその目安です)
第1回 オリエンテーション(本講義の目的、概要、構成)
第2回 形態素解析、構文解析、意味解析
第3回 計量文献学、コーパス言語学、言語資源
第4回 統計モデルと集計ツール、統計法則と指標
第5回 語のネットワーク分析、テキストの評価
第6回 小論文やエッセイの自動採点
第7回 サポートベクターマシン、集団学習
第8回 ランダムフォレスト/予備日
特に指定しません。授業担当者作成の講義資料とスライドを使用します。
ただ以下を参考図書として推薦しておきます。
「Rによるデータサイエンス」, 金明哲,森北出版(2007), 3600円
Analyzing Linguistic Data, R.H.Baayen, Cambridge Press, 9000円程度
特になし
レポートおよび出席
担当教員は日本語小論文の自動採点システムJessの開発者です。また大学図書館システムLimedioの設計開発に中心的に関わってきました。自然言語で書かれた調査対象を、ただ単にツールやソフトを使って解析するだけなく、その中身を知り、必要に応じて独自の観点や評価に基づくプログラムを自作できることは重要です。