データ工学は、先進的なデータベース処理に代表されるような、計算機システム中の多様な大量データに対する高度な処理に関するアクティブな研究分野である。
本講義では、データ工学における様々な最新の技術を理解することで、大量データを効率的に処理するための最先端の方法論を身に着けることをねらいとする。そのため、大量のデータを扱うアプリケーションの例、高機能かつ高性能な大量データ処理のためのデータ構造、インデックス、処理アルゴリズム、並列化手法等について学ぶ。
本講義を履修することによって以下を習得する。
1) データ工学の基本概念とそのベースとなる関係データベース、トランザクション処理
2) データ工学の大きな適用分野であるデータウェアハウスに関する技術
3) データウェアハウスで行われるOLAPおよびデータマイニングに関するデータ構造、アルゴリズム、インデックス手法
4) データウェアハウスを前提とした関係データベース演算の実現アルゴリズムとそのコスト見積もりの方法
5) 関係データベース演算の高速化のための並列化アプローチ
6) 並列データベース演算における偏り制御の方法
7) クラウド環境を含む分散環境でのデータベース処理
8) 最新のXMLやRDFデータベースの動向
データウェアハウス、OLAP、データマイニング、索引手法、並列データベース演算、データ配置、偏り制御、クラウドデータベース、XML/RDF データベース
✔ 専門力 | 教養力 | コミュニケーション力 | 展開力(探究力又は設定力) | ✔ 展開力(実践力又は解決力) |
一般の講義形式
授業計画 | 課題 | |
---|---|---|
第1回 | データ工学の基本概念と背景 | データ工学の基本概念に関する理解 |
第2回 | 関係データベースとトランザクション処理 | 前提となる関係データベースとトランザクション処理に関する理解 |
第3回 | データウェアハウス、OLAP、データマイニング | データウェアハウスに関する理解 |
第4回 | データの格納 | データ格納方法に関する理解 |
第5回 | 索引手法 | インデックス手法に関する理解 |
第6回 | 関係演算のコスト見積もり(1)選択演算、射影演算 | 選択演算と射影演算のアルゴリズムとコストに関する理解 |
第7回 | 関係演算のコスト見積もり(2)結合演算、集約演算 | 結合演算と集約演算のアルゴリズムとコストに関する理解 |
第8回 | データベース処理の並列化の分類とデータ分割 | データベース処理並列化の分類とデータ分割に関する理解 |
第9回 | 並列結合演算処理:ソートマージ結合、ハッシュ結合 | 並列ソートマージ結合、並列ハッシュ結合のアルゴリズムとコストに関する理解 |
第10回 | 並列集約演算処理、偏り制御 | 並列集約演算のアルゴリズムとコスト、偏り制御に関する理解 |
第11回 | 分散データベース処理、ブロックチェーン | 分散データベース処理に関する理解 |
第12回 | クラウドとRDFデータベース | クラウド環境におけるデータベース処理に関する理解 |
第13回 | XMLデータベース | XML データベースに関する理解 |
第14回 | データベースのプライバシーとセキュリティ | データベースのプライバシーとセキュリティに関する理解 |
学修効果を上げるため,教科書や配布資料等の該当箇所を参照し,「毎授業」授業内容に関する予習と復習(課題含む)をそれぞれ概ね100分を目安に行うこと。
OCW/OCW-i で資料を公開
Jim Gray and Andreas Reuter著「Transaction Processing: Concept and Techniques」 Morgan Kaufmann Publishers
邦訳:トランザクション処理-概念と技法-(上下), 日経BP, 2001
講義中に出す課題の提出内容(60%)と最終レポートの内容(40%)に基づいて評価する。
データベースと計算機アーキテクチャに関する基本知識
yokota[at]cs.titech.ac.jp