すべての分野において計算とデータの活用が欠かせない時代になってきている.本講義では,理工系の研究者・技術者として活躍していくために重要となる,大量のデータをコンピュータを利用して解析し,利用するための基礎的な方法に関する演習を行う.本講義のねらいは,コンピュータ・ソフトウェアを用いてデータを処理・分析し,そこから重要な知見得る基礎技術を身に付けさせることである.
コンピュータによるデータの処理の基本を理解し,統計学的分析のためのコンピュータ・ソフトウェアを適切に利用できるようになること
分類,回帰,クラスタリング,次元圧縮,訓練誤差と汎化誤差,交差検証
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | ✔ 展開力(実践力又は解決力) |
講義と演習を交互に行いながら授業を進める.講義内容に続き,関連したプログラミング演習を行う.
授業計画 | 課題 | |
---|---|---|
第1回 | ガイダンス | 履修に必要となる数学的事項,Python 言語などに関する知識についてテストする. |
第2回 | 前提学力確認テスト | 計算(情報処理)とデータマイニングの基本的な考え方について理解でき,本科目の講義・演習の準備ができる. |
第3回 | データ分析の基礎 | データマイニングの概要を理解し,基本的なデータ(事例集合)が何かを説明できるようになる. |
第4回 | 計算環境の整備と活用 | Classification の概要を理解し,単純規則ならびにnaiive bayesian rule の導出について説明できるようになる. |
第5回 | 分類とモデル評価 | 単純な判定規則の生成の仕組みを特徴を理解し,生成ソフトを適切に使えるようになる. |
第6回 | 分類 | Decision tree の構成原理を説明できるようになる. |
第7回 | クラスタリング | Decision tree 生成アルゴリズムの仕組みを理解し,標準的な decision tree 生成ソフトを適切に使えるようになる. |
第8回 | クラスタリング | Association rule の考え方と評価方法を説明できるようになる. |
第9回 | 主成分分析 | Association rule 生成アルゴリズムの仕組みを理解し,標準的な生成ソフトを適切に使えるようになる. |
第10回 | 主成分分析 | Regression の考え方と各種評価方法を説明できるようになる. |
第11回 | 次元圧縮 | Regression rules の導出原理を理解し,代表的な生成ソフトを適切に使えるようになる. |
第12回 | 次元圧縮 | Clustering の考え方と clustering の基本手法の原理を説明できるようになる. |
第13回 | 発展的トピック | Clustering の代表的な手法の仕組みを理解し,大代表的な clustering の形成ソフトを適切に使えるようになる. |
第14回 | 発展的トピック | 本講義で学んだ様々な手法を適切に使えるようになり,さらに進んだ話題についても概観できるようになる. |
第15回 | 総合討論 | 基本的ではあるが実際的なデータマイニングの課題に対して,適切な手法を適用できるようになり,得られた成果を評価できるようになる. |
特になし.
OCW-i にて電子的に配布する
授業内での小テスト/レポートにもとづいて評価する
線形代数学,微分積分学,数理統計学に関する基本的な知識があることが望ましい.
質問はメールベースで随時受けつける
本授業科目は、TAC-MI登録学生対象科目です。今年度はTAC-MI登録学生限定とします。XCO.T487 : 基盤データサイエンスとXCO.T488 : 基盤データサイエンス演習を合わせたものと同一内容になっております。Google Colaboratory を使って演習を行います.第1回目までに各自 Google アカウントを取得し,Google Drive でのファイルアップロード/ダウンロードができるようにしておくことが望ましい。