放送局、開発会社、分析会社、フリーランスエンジニア、大学生の方々交え、論点を一緒に整理して、Kaggleのケーススタディを研究しました。
トピック:
自然言語処理における前処理の種類とその威力
=> BeautifulSoup(スクレイピング処理後のパーサー)/lxml/NEologd(新語もアップデートされている辞書)/TF-IDF(多過ぎる単語・少な過ぎる単語は重要ではないという傾向に基づく分析)/エントロピー(平均情報量)を見る/One-Hot表現/分散表現(Word2Vecにも登場)
https://qiita.com/Hironsan/items/2466fe0f344115aff177
Kaggle Case Study クレジットカードの不正検出のKernel 前処理の事例
=> SMOTE(Synthetic Minority Over-Sampling Technique)/ Confusion Matrix(混同行列) / ROC Curve / Skewed Data(歪んだデータ)
https://www.kaggle.com/…/in-depth-skewed-data-classif-93-re…
Kaggle Case Study 肺がん画像の分類における前処理の事例 3D Modeling含む
=> Resampling/3D Plotting/Lung Segmentation/Dilation Morphological Operation(モルフォロジ処理=ノイズ除去)/Normalization/Zero-Centering
https://www.kaggle.com/gzuidhof/full-preprocessing-tutorial
UpSampling/DownSampling or UnderSampling/OverSampling
モデルの選択と、説明変数・目的変数の選択の関係性
そもそもCSV型の構造化データに持ってくるまでにデータの前処理や特徴エンジニアリングが必要
Pythonではじめるデータラングリング(データを飼いならすという意味) (オライリー)
https://www.oreilly.co.jp/books/9784873117942/
Bad Data HandBook (オライリー)
https://www.oreilly.co.jp/books/9784873116402/
次回への改善アイデア
全体像を把握した上での現在地のマッピングが必要
MatrixではなくYES/NO形式のケースのFlowChartが良さそう
これを漏れなくダブりなくまとめる
Text=>構造化データ=>欠損値がある場合
Grid Search 色んなモデルのハイパーパラメーター調整
モンテカルロ
マルコフ連鎖
Team AIでは毎日勉強会を開催しています。開催日と詳細は下記よりご確認頂けます。
お気軽に遊びにいらしてください!!
https://teamai.connpass.com/
#100万人の機械学習コミュニティを東京に創る
#AIエンジニアに世界一愛される組織になる
#DataHackathonEverday
#OpenInnovation