おうちだいすき

自宅警備員からデータサイエンティストになった人の雑記的ななにか。

データサイエンティストになって1ヶ月たったので初学者として読んでおいてよかった本をまとめた

台風来るのかと思いきや割といい天気になって変な肩透かしを食らったような気持ちでいます、こんにちは。

最近はデータサイエンスだとか、機械学習がちょっとしたブームになっているのもあって、関連する書籍が山のように出版されているような気がします。
実際、どれから読んでいいかわからなかったり。

そこで今回はスターターのデータサイエンティストが実際に「あ、これ読んでおいて正解だったかな」という書籍を紹介したいなと思います。
では、よろしくお願いいたします。

機械学習関係

[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

こちら、常に持ち歩いてわからないところがあればすぐこれを開くくらい最近はよく使っています。
モデルについての理論、評価方法、パラメータチューニングなど数式を用いた解説と実装例が記載されています。
網羅的でかつ数式を用いた理論の解説があり、かつコードの実装まで書かれているので実装しながら理論も学べます。
流石にPRMLなどと比較すると理論面では物足りなさはありますが、スターターレベルと考えるとちょうど良い範疇かと思います。

ただ、これから独学で始めようという初学者がいきなりこれから読み出すとキツい感じはしないでもないです。
もしキツいなと感じたら最初は読み飛ばしてどんな理論があるか程度にとどめておいて、後から戻って来ると理解が深まって良いかと思います。

統計学関係

完全独習 統計学入門

完全独習 統計学入門

大学で基礎統計関連や、重回帰分析あたりは履修したにはしたのですが土台がふらついていました。
仮説検定とかは学んでませんでしたし、標準偏差という単語と意味くらいは理解しているけども、実際にばらつきと言われてイメージが掴めてなかったり。
こちらの書籍はそういった、「標準偏差ってなぁに?」といったイメージを掴むところから始めて最終的には仮説検定まで触れてくれる上、難しい数式も出て来ないですので統計の感覚を養うにはもってこいでした。

マンガでわかる統計学

マンガでわかる統計学

上で紹介した完全独習統計学入門の後に読むと良いかと思います。
可愛らしい顔して案外数式攻めしてきます。

このあたりの知識は仕事をする上で最低限必要になって来る知識ですのでもしこれから目指そうと思われる方はほぼほぼ必読かと思います。

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

紹介しようか迷ったのですが、機械学習の方で難しそうな本に触れておいてこっちは簡単そうなのばかりと言うのもおかしい気がしたので紹介します。
初学者が読むのにはどうかと言う声もちらほら伺いますが、やはりこの赤本レベルの知識は押さえておきたいところです。
スターターレベルでここの知識を問われるかどうかは微妙な範囲ではありますが知識としておいておくと先輩方の話についていきやすくなるので、やはり読んでおいて損はないはずです。

前処理周り

原著は無料で公開されております。

Python Data Science Handbook | Python Data Science Handbook

勉強し始めの頃、Numpy、Pandas、Matplotlibの使い方と格闘するかと思います。というか格闘しました。
この本一冊写経しておけばこれらのライブラリにはある程度慣れることができます。
より高度な使い方を目指すには物足りませんが、そこは今回の記事の要件から外れますので触れないこととします。

データを飼いならす

Pythonではじめるデータラングリング ―データの入手、準備、分析、プレゼンテーション

Pythonではじめるデータラングリング ―データの入手、準備、分析、プレゼンテーション

どちらかというと、これから読む本です。
クローラ作りの時に表記揺れに悩まされたことがあり、正規表現の使い方やScrapyの使い方について調べる時に軽く目を通しました。
Pandasなどがある程度使えるようになった上で、もうワンランク上のデータの処理を学ぶのに良いかと思っています。

実際の業務ではデータを開けてみるといらないデータまみれだったり、誤字脱字まみれだったり、表記ゆれのオンパレードだったりします故、このあたりを解決してくれるヒントになってくれそうです。
ただ、Scrapyについて解説してある場所ではバージョンがかなり古いもので書かれていたりしましたのでそこは注意が必要です。

あったら読みたい

最近は日本語の自然言語処理をする機会が増加しました。
この機会にがっつりと学びたいのですが、あまり良さげな本を見つけられていないのが現状です。
日本語の自然言語処理に強くて且つそれをどう機械学習と組み合わせるかについて良い書籍があれば是非読みたいです。。。