Kickstarter Projects のデータで機械学習の手法を色々試してみる
混同行列まとめ
Accuracy
全てのデータの中でどれくらい正解しているか
$$\frac{TP+TN}{TP+TN+FP+FN}$$
Precision(適合率)
“陽性”と分類した中で実際に”陽性”だった割合
Recall(再現率)
医療系のような陽性データを見逃したくない(誤診したくない)ようなケースでは高いRecallを目指します.
Specificity (特異度)
“Negative”のデータを正しく”Negative”と分類できたデータの割合
Recallの”Negative”版
Day1
目的変数と説明変数の関係を確認する(グラフ化する)
欠損値対策
Day2
正則化・正規化・標準化・SVM
Day3
特徴選択
交点探索を用いてハイパーパラメータチューニング
Day4
k最近傍法・主成分分析
ランダムサーチを用いちてハイパーパラメータチューニングを行う
ベイズ最適化を用いてハイパーパラメータチューニングを行う
ベイズ最適化を用いて探索できるライブラリ Optuna
コメント