データサイエンス学習記録#1 (2021.10.17)
テーマについて
8月より化学メーカーの研究開発職から転職して、データサイエンティストとしての一歩を踏み出しています。
今回から自分の学習棚卸のために定期的にブログを書いていこうと思います。
(たまに好きな本や映画等の紹介もしたいと思います。)
私のバックグラウンドとして、大学時代は有機化学を専攻しており、実験系の研究室に所属していました。就職後も業務としては実験を行う毎日で、データの統計的な解析やプログラミングは興味があったものの趣味の自己学習レベルでしか触れていませんでした。
ただ、自身の業務とはまったく異なる内容であったため、学習への本気度が足りず、あまり何かが身についたとは思えない状況でした。
転職後現在までに習得したスキル
上記のように今までは趣味レベルでしか取り組んでこなかったデータサイエンスなのですが、仕事にすることとしたので、真剣に取り組むことにしました。
ただ、データサイエンスは発展が速く(例えば深層学習だと毎年ベンチマークのモデルが変わる等)、また範囲も広い(扱う対象データ形式でいうと時系列、画像、テーブル、グラフ等)ので、まずは基礎固めをすることとしました。
以下、約2か月で進めてきた学習です。
- Pythonと付随のデータ分析ライブラリ(Pandas等)の基礎的な構文理解と機械学習における前処理・モデルに必要となるコーディング力
- SQLの基礎構文(データベースを作成するというよりは、データウェアハウス上で必要な集計を行う)
- 古典的(非深層学習)な機械学習の仕組みと実装(線形、ロジスティック、サポートベクターマシン、正則化手法、k-meansクラスタリング、決定木と勾配ブースティング法)←仕組みに関しては復習が必要かつもう少し深堀が必要(ex. カーネル法における相対問題を結論レベルでしか理解していない、勾配ブースティング系のアルゴリズムの差を理解していない)
- 深層学習の仕組みと画像分類の実装(誤差伝播法によるニューラルネットワークの最適化、畳み込み・プーリングによる畳み込みニューラルネットワーク、最適化関数)
こうして振り返ると、機械学習と呼ばれるものに必要な学問は確率統計論と最適化数学であり、さらにその前工程としてデータ設計の理論的な理解とデータをデータベースに格納するスキルが必要なのではと思いました。
また、データサイエンスは広く見るとITの1ジャンルと捉えることができると思います。
今後は確率統計論とITの基礎的な知識をインプットを進め、更にアウトプットとしては、kaggleやAt corderに取り組み、分析対象に対するアプローチの学習と検証・コーディング能力アップを試みたいと思います。
また、随時ブログを更新していこうと思いますので今後ともよろしくお願いします。