弘前大学大学院 / 修士
機器学習練習項目の一:クレジットカード不正検出
プロジェクト概要:クレジットカードのトランザクションデータに基づいて分類モデルを構築し、トランザクションが異常、あるいは正常であることを予測します。 プロジェクトの技術点と流れ: 1.この項目では、データを観察したことにより、サンプルが不均衡であるという問題を発見し、それによりオーバーサンプリング(Over-Sampling)とダウンサンプリング(Under-Sampling)の2つの方案を提案し、二つのモデリング比較の結果を行って、より良いモデルを選ぶ。 2.モデリングの前に、データの標準化(Standardization)、欠落値充填(Fill Nan)など、データに対して様々な前処理を行った。 3.モデル化する前に、このモデルの評価方法としてリコール率(Recall Score)を使った。 4.適切なアルゴリズムを選択した。ここではロジスティック回帰(LogisticRegression)モデルを使用した。 5.クロスリファレンス(Cross Validation)によりモデルをパラメータ調整し、最適なモデルを見つけた。