本講義では、機械学習およびデータマイニングにおける基本的な概念について述べる。
【到達目標】現実の世界において観測される大量のデータから、分類、相関、クラスタリング、数値予測等を行うための基礎となる概念や手法を習得することを目標とする。本講義では機械学習およびデータマイニングについての基本的な概念や手法を説明するとともに、理解を深めるためのツールの紹介も行う。
【テーマ】本講義では、機械学習において取り扱う入力データや出力データの形式、学習のためのアルゴリズム、学習手法の性能の評価方法、現実世界における欠損やノイズを含んだデータの処理方法などを中心に説明する。
属性、インスタンス、バイアス、overfitting、欠損値、教師あり学習、教師なし学習、決定木、information gain、gain ratio、枝刈り、分類、ナイーブベイズ、相関ルール、アプリオリアルゴリズム、数値予測、回帰、事例ベース学習、クラスタリング、k-meansアルゴリズム、階層クラスタリング、recall、precision、cross-validation、bootstrap、significance test、confusion matrix、ROC curve、最少記述長原理、support vector machine、EMアルゴリズム
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | 展開力(実践力又は解決力) |
講義の中で機械学習のツールについても説明することで理解を促す。
授業計画 | 課題 | |
---|---|---|
第1回 | イントロダクション | 機械学習とデータマイニング、ツール(Weka) |
第2回 | 概念記述、機械学習の応用 | 機械学習における表現と応用 |
第3回 | 概念空間、バイアス | 表現によるバイアス |
第4回 | 入力データ形式、分類、相関 | 分類や相関における入力形式 |
第5回 | クラスタリング、数値予測 | クラスタリングや数値予測における入力形式 |
第6回 | 属性の種類と変換 | 表現における属性の特徴 |
第7回 | 知識表現、決定木、分類ルール | 決定木や分類ルールにおける表現 |
第8回 | 相関ルール、事例ベース表現 | 相関ルールや事例ベース学習における表現 |
第9回 | 基本的な学習アルゴリズム、ナイーブベイズ | ナイーブベイズによる学習 |
第10回 | 決定木、information gain、gain ratio | 決定木学習 |
第11回 | カバーリングアルゴリズム、ルールと決定木 | 分類ルール学習と、決定木との比較 |
第12回 | 学習手法の評価、cross validation | 学習の評価と使用データ |
第13回 | t-statistic、最少記述長原理 | 機械学習手法の比較 |
第14回 | ROC curve、recall、 precision | 学習手法の評価指標 |
第15回 | support vector machine、EMアルゴリズム | SVMとEMアルゴリズム |
Data Mining: Practical Machine Learning Tools and Techniques (Third Edition)
I. H. Witten, E. Frank, Morgan Kaufmann, 2011.
講義で指定する.
レポート課題(70%)や小テスト等(30%)で成績を評価する。
特になし
特になし