1
/
5

【書籍紹介】Python for Data Science For Dummies, 2nd Edition, Eds. John Paul Mueller and Luca Massaron

著者:佐藤能臣
書籍:John Paul Mueller and Luca Massaron「Python for Data Science For Dummies, 2nd Edition」

「データサイエンス」や「AI」に興味や関心を持っていても、「でもさぁ、じゃあ、どこから始めればいいの?」と悩んでいる人向けに書かれた書籍です。

6部で構成されており、その約7割が、データサイエンス概論、データサイエンスを行うための最低限のコンピュータの操作、データへのアクセス・データ整形・可視化に関するデータ操作の基本に重きが置かれています。分析手法についても、高度な分析手法やアルゴリズム、数学を用いた記述はできる限りなくし、実行例も、初学者がつまずかずに実行して、「Pythonを動かすってこんな感じなのかなぁ」という感触をつかめるよう配慮されていますので、データサイエンスやPythonの初学者にとって、とてもなじみやすい構成になっています。

また、コンピュータ技術やインターネット技術の開発の進展、そしてなにより、AI技術としての深層学習の社会実装等によるデータサイエンス・AI市場の成長に合わせ、初版に比べ、次の点で内容が充実しています:

  • ニューラルネットワーク
  • ミストゥルース
  • グーグル・コラボ

本記事では、初版を通じて一貫している内容の1つで、日本ではあまりなじみのないデータサイエンス用語「データサイエンスパイプライン」を含め、第2版での「ニューラルネットワーク」「ミストゥルース」「グーグル・コラボ」を紹介します。

データサイエンスパイプライン

データサイエンスパイプラインとは、データサイエンスプロジェクトを推進するにあたっての、次の一連の作業フローを指し、海外ではよく使われるデータサイエンス用語のようです。データサイエンティストとして求められる基本的なスキル「情報収集」「分析」「プレゼンテーション」を一連の作業フローの骨格として、次のようにプロジェクトの業務を進めていくことです:

  • 情報収集データを用意する
  • 分析探索的データ分析を行う
    データを使ってモデルを学習する
  • プレゼンテーション可視化する
    インサイト

このような作業フローをこなすことで、はじめて、意思決定につながるインサイトが得られるようになります。

ニューラルネットワーク

ニューラルネットワークとは、機械学習アルゴリズムの1つで、2020年に入って世間を騒がせている深層学習の根幹をなす技術です。本書は、初学者が、ビジネスで生じる課題を解決するためのスキルとして、データサイエンスの基礎を勉強することを想定しているので、深層学習は紹介せず、ニューラルネットワークの初期の研究であるローゼンブラッドのパーセプトロンの紹介から始まり、マルチパーセプトロンの実装まででとどまっています。そのため、深層学習を使ったデータサイエンスを基礎から勉強したい人にとっては、取っつきやすくなっています。

グーグル・コラボ

初版では、ジュピター・ノートブックのインストールから起動、操作方法を懇切丁寧に書かれていました。しかし、第2版では、2020年以降のクラウドサービスの普及も見据え、グーグルのアカウント取得からグーグル・コラボの操作まで詳細な説明が追加されているので、ジュピター・ノートブックのみならずグーグル・コラボでもPythonを使ってデータサイエンスを勉強する人にとって、とても親切です。ジュピター・ノートブック上でのコーディングになれている人も、グーグル・コラボへスムーズに移行できるよう配慮されています。

ミストゥルース

「ミストゥルース」 この言葉は、ビジネスでデータサイエンスを実践されている皆さんでもあまり聞きなれない言葉ではないでしょうか。「誤解」や「誤謬」の意味を持つこの言葉は、初版では紹介されていませんでした。しかし、第2版では、コラム「CONSIDERING THE FIVE MISTRUTHS IN DATA」で「コミッション」「オミッション」「パースペクティブ」「バイアス」「フレーム・オブ・レファレンス」の例をあげて詳しく紹介しています。このコラムで、著者は次のことを皆さんに伝えようとしていると思いました:

「データサイエンティストは、データに潜む本質を理解するため、またはインサイトを得るため、データをじっくり眺めて、データに潜んでいる何かしらの情報は取り出しますが、ときにその本質を見逃してしまうぐらいに情報を取り出してしまうことがあります。そのような行き過ぎを防ぎ本質を見極めるため、5つのミストゥルースを参考にしましょう。もし本質的であれば、インサイトとしてクライアントが抱える課題の解決や意思決定の一助につながります。」

今回、紹介した書籍の訳書が近いうちに刊行されますので、ぜひとも書店に足を運んで手に取って読んでみてはいかがでしょうか?

タイトル:ミュラーPythonで実践するデータサイエンス(第2版)
著者:John Paul Mueller、Luca Massaron
訳者:佐藤能臣
ISBN 978-4-8079-203207
B5判・約400ページ
税込み価格:4400円(本体価格4000円)
刊行日:近刊

Like 佐藤 能臣 PhD's Story
Let 佐藤 能臣 PhD's company know you're interested in their content