Kickstarter Projects のデータで機械学習の手法を総まとめ

Kickstarter Projects のデータで機械学習の手法を色々試してみる

 

混同行列まとめ

Accuracy

全てのデータの中でどれくらい正解しているか

$$\frac{TP+TN}{TP+TN+FP+FN}$$

Precision(適合率)

“陽性”と分類した中で実際に”陽性”だった割合

Recall(再現率)

医療系のような陽性データを見逃したくない(誤診したくない)ようなケースでは高いRecallを目指します.

Specificity (特異度)

“Negative”のデータを正しく”Negative”と分類できたデータの割合
Recallの”Negative”版

 

Day1

目的変数と説明変数の関係を確認する(グラフ化する)

 

 

欠損値対策

 

 

Day2

正則化・正規化・標準化・SVM

 

Day3

特徴選択

 

交点探索を用いてハイパーパラメータチューニング

 

Day4

k最近傍法・主成分分析

 

ランダムサーチを用いちてハイパーパラメータチューニングを行う

 

ベイズ最適化を用いてハイパーパラメータチューニングを行う

 

ベイズ最適化を用いて探索できるライブラリ Optuna

 

 

 

 

 

コメント