講義内容詳細:データマイニング演習

戻る
年度/Academic Year 2021
授業科目名/Course Title (Japanese) データマイニング演習
英文科目名/Course Title (English) Practice in Data Mining
学期/Semester 前期 単位/Credits 2
教員名/Instructor (Japanese) 高木 宏明
英文氏名/Instructor (English) TAKAGI Hiroaki

講義概要/Course description
初級レベルのデータサイエンティスト育成を目的とした、データ分析のエントリー授業です。機械学習を中心としたデータ分析知識・能力はこれからのAI/IoT/DX時代には必須のスキルとなります。
授業ではプログラミング無しで学べる機械学習ソフトRapidMiner(ラピッドマイナー)を用いて実際にデータ前処理ー予測モデル作成ーモデル精度検証ー精度向上のテクニックを学びます。


尚、科目「デーマイニング」「データマイニング演習」の2科目の連続履修を前提とします。
達成目標/Course objectives
初級レベルの「データのハンドリング」「機械学習アルゴリズム理解」「予測モデルの作成・検証・精度向上テクニック」を理解・実行可能にすること。また、実社会での機械学習の適用事例・シーンを理解し将来的なビジネス・研究に活かせる素養をつくること。
履修条件(事前に履修しておくことが望ましい科目など)/Prerequisite
・科目「デーマイニング」「データマイニング演習」の2科目の連続履修を前提とします。
・PC教室を利用しますが、課題・レポートには個人PCを用いてデータ分析課題に取り組むことが想定されます。
(尚、機械学習ソフトRapidMinerは個人PCにも無償でインストール可能です)
・統計入門レベルの基礎的な考えは履修していることが前提となります。
授業計画/Lecture plan
1
授業計画/Class イントロダクション
・時代背景 社会構造変化・技術進歩
・データ活用と産業構造変化
・これからのキャリアパス
・データ分析の全体像(教師あり学習/教師なし学習/強化学習)
初回授業のみ「オンライン(オンデマンド型)」で実施します。
事前学習/Preparation 機械学習を中心としたテクノロジーにより社会がどう変化するか考えておくこと。
事後学習/Reviewing 動画視聴(別途指定)、分析ツール準備など
2
授業計画/Class データ理解
・分析ツール紹介(RapidMiner)
・データ種類
・データの記述・要約・基本統計量とプロット
・多重共線性・欠損値・外れ値(※紹介のみ)
・(簡易レベル)分類モデルの作成
事前学習/Preparation 前回内容の理解
事後学習/Reviewing 授業内課題実施(データプロット)
3
授業計画/Class クラス分類入門Ⅰ
・決定木 / k-NN(最近傍法)/ サポートベクターマシーン
・精度検証手法(分割検証・交差検証・混合行列)
事前学習/Preparation 前回内容の理解
事後学習/Reviewing 授業内課題実施
4
授業計画/Class クラス分類入門Ⅱ
・ナイーブベイズ
・ロジスティクス回帰
・決定木の発展:ランダムフォレスト、Gradient Boosted Trees
・クラス分類のパフォーマンス指標(Accuracy / Recall / Precision / F-measure)

アンサンブル学習
・バギング/ブースティング/スタッキング
事前学習/Preparation 前回内容の理解
事後学習/Reviewing 授業内課題実施
5
授業計画/Class 回帰入門Ⅰ
・単回帰
・重回帰
・多項式回帰
・回帰のパフォーマンス指標(R2、RMSE)
・線形モデルの注意点
事前学習/Preparation 前回内容の理解
事後学習/Reviewing 授業内課題実施
6
授業計画/Class 回帰入門Ⅱ
・ノンパラメトリック回帰
・モデルの複雑性とオーバーフィッティング
事前学習/Preparation 前回内容の理解
事後学習/Reviewing 授業内課題
7
授業計画/Class 変数選択・正則化
・ステップワイズ法
・多重共線性
・リーク情報
・その他変数除去の考え方
・リッジ回帰、ラッソ
事前学習/Preparation これまでの授業内容の総復習
事後学習/Reviewing 一連のデータ分析プロセスの再学習・理解
8
授業計画/Class 授業内講演
・講演者検討中
事前学習/Preparation 講演者が属する企業のビジネス・業界を理解すること
事後学習/Reviewing 講演内容に関するレポート作成(別途指定)
9
授業計画/Class 前処理・特徴量設計入門Ⅰ
・標準化・対数化
・ビンニング
・ワンホットエンコーディング
・欠損値補完
事前学習/Preparation これまでの総復習
事後学習/Reviewing 授業内課題の復習
10
授業計画/Class 前処理・特徴量設計入門Ⅱ
・外れ値・異常値対応
・次元圧縮
・不均衡データ対応

データ分析個人課題・グループ課題説明
・Kaggle Titanic号生存者予測
事前学習/Preparation 前回講義の復習
事後学習/Reviewing グループ課題(Titanic号生存者予測)
11
授業計画/Class データ分析演習
・ハイパーパラメータ最適化
・前処理・特徴量設計の復習
事前学習/Preparation 前回講義の復習
事後学習/Reviewing グループ課題(Titanic号生存者予測)
12
授業計画/Class Deep Learningによる画像分類入門(MNIST)
事前学習/Preparation 前回講義の復習
事後学習/Reviewing グループ課題(Titanic号生存者予測)
13
授業計画/Class グループワーク、ハンズオン演習
事前学習/Preparation 前回講義の復習
事後学習/Reviewing グループ課題(Titanic号生存者予測)
14
授業計画/Class グループワーク、ハンズオン演習
事前学習/Preparation 前回講義の復習
事後学習/Reviewing グループ課題(Titanic号生存者予測)
15
授業計画/Class データ分析発表会
・Titanic号生存者予測 グループ発表
事前学習/Preparation 予測モデル作成、モデル改善、グループ発表内容作成
事後学習/Reviewing 個人レポートの作成、予測モデル改善検討
授業方法/Method of instruction
毎回、講義およびPCを使用したデータ分析実習を行います。
本講義は対面授業で実施します。
成績評価方法/Evaluation
1 レポート Report 60% 授業内講演 感想レポート 20%、データ分析実習(タイタニック号生存者予測モデル 個人レポート)40%
2 平常点 In-class Points 40% 授業内個人発言、グループ課題発表内容 40%
参考書/Reference books
 著者名
Author
タイトル
Title
出版社
Publisher
出版年
Published year
価格
Price
コメント
Comments
 
1 G. James Rによる統計的学習入門 朝倉書店 2018 7480 文系を含む学部学生でも読みこなせる良書です。授業の復習などに活用下さい。
"Rによる"と書いてありますが、プログラミングに関する記述は少なく、アルゴリズムやデータ分析の考え方を数式を使わずに分かり易く解説しています。
2 Sebastian Raschka他 [第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 インプレス 2018 4400 プログラミング言語Pythonとともにデータサイエンスを学ぶ入門書として良書です。
メッセージ/Message
機械学習という新しい分野の授業となります。ぜひ楽しみながら授業に参加頂ければ幸いです。
その他/Others
アルゴリズムや分析テクニックだけでなく、実務におけるデータ分析プロジェクトの課題等もお話致します。
キーワード/Keywords
機械学習     データサイエンス     AI     IoT     DX     実務経験