データサイエンティスト -21世紀で最もセクシーな職業- の実態について
どうも、Koheiです。
友人に誘われブログ始めてみました。
趣味の山登りと自転車のことで、いくらでも書けることがあるのですが、
今日はいったん置いといて、、、
自分の仕事「データサイエンティスト」の実態について、自分の感じたことを書きたいと思います。
・最近データサイエンティストってやつが流行ってるらしいけど、実際何してんの?
・データサイエンティストになりたいんですが
・ビッグデータ…!! AI…!!よくわからんが(*´Д`)ハァハァ
そんな方のお役に立てればと思います。
まず僕の経歴ですが、
今の会社に入社してからIT運用系部署のビッグデータ担当として4年目になりました。
運用支援のためのツールの開発をメインに仕事をしています。
データベースやSPSS, Apache Hadoop, Spark, ElasticSeacrhなどなど...には一通り触れて、スペシャリストとはとても言えませんが、なんとなく話は分かるくらいにはなっています。(この辺のツールやシステムの話はまたどこかで)
あなたの職種は?と聞かれたら、「データサイエンティスト」っていえば一応当てはまると思います。
この「データサイエンティスト」ですが、
Harvard Business Reviewの2012年10月号にて(もうだいぶ古くなってしまいました)
21世紀で最もセクシーな職業とまで言われています。
では本題のこの「データサイエンティスト」ですが、そもそも「データサイエンス」って何なんでしょうか
wikipedia先生に聞いてみます。
データサイエンス(data science)とは、データに関する研究を行う学問である。
データの具体的な内容ではなく、異なる内容や形式を持ったデータに共通する性質、またそれらを扱うための手法の開発に着目する点に特色がある。
使用される手法は多岐にわたり、分野として数学、統計学、計算機科学、情報工学、パターン認識、機械学習、データマイニング、データベース、可視化などと関係する。
データサイエンスの研究者や実践者はデータサイエンティストと呼ばれる。
つまり、データに関する何かしらの仕事を行えば、みんな「データサイエンティスト」と呼ばれてもよさそうです。かなり曖昧な定義です。
しかし、このデータに関する何らかの仕事、とまるっと言っていますが、
自分の経験している範囲でも、実際はかなり幅広い業務があります。
データサイエンティストの仕事は、おおよそ下記のようなプロセスを踏みます。
- 要件のヒアリング
- 必要なデータの収集
- 分析の準備
- データ分析
- 結果のアウトプット
さらっと書きましたが、これらの項目に求められるスキルを追記してみます。
(データサイエンティスト協会のデータサイエンティスト スキルチェックリストを参考に...)
- 要件のヒアリング
→ビジネスの理解、プロジェクト管理、コミュニケーション能力、コンサル能力 - 必要なデータの収集
→ITインフラ全般(サーバ、ネットワーク、データベース)、大規模データ処理(Hadoop, Spark, NoSQLなど)、プログラミング能力 - 分析の準備
→ITインフラ全般(サーバ、ネットワーク、データベース)、大規模データ処理(Hadoop, Spark, NoSQLなど)、プログラミング能力 - データ分析
→2.3.に加えて、数学、統計学の知識。人工知能の知識 - 結果のアウトプット
→1.と同様
つまり、データサイエンティストに求められるのは、ビジネス理解力とコミュニケーション能力、コンサル能力があって、サーバ・データベースを中心としてITインフラ全般の知識を持ってプログラミングもかけて、Hadoop/Sparkも知ってって、数学・統計学も・・・あ、ついでにAIもやっといて・・・って
超人過ぎない…?(゚Д゚)
少なくとも、僕は上記を網羅しているとはとても言えません。
そりゃ、データサイエンティスト不足しますよ。いや、いるかもしれませんが。
じゃあ、実際どうやって仕事をこなしているのかというと
僕の例で言うと、プロセスごとに、それぞれの得意分野の人と協力して進めています。
2. データ収集のプロセスではNW/サーバに強い人と組んで具体的にデータ連携の方式を検討したり、3. 分析の準備の段階ではDBに詳しい人に依頼したり…と
実際は、全部の能力を持った「データサイエンティスト」がいることは稀で
各得意分野を持った「データサイエンティスト」たちが協力して業務をこなしていくわけです。
とはいえ、各得意分野の人とコミュニケーションが取れるくらいの大枠の知識は必要になります。
また個人的な考えですが、サーバ・ネットワーク・データベース周りのプロは結構多いので、大規模データ処理系(Hadoop/Spark)、統計解析にスキルとして比重を置くのが、データサイエンティストとして価値があるんじゃないかと思っています。
(まあ、大規模データ処理系、統計解析だけでもかなり広い分野があるんですが…)
まとめると、自分なりに考えるデータサイエンティストに求められる能力は
- コミュニケーション能力(社会人の基本かもしれませんが)
- 大規模データ処理系の知識
- 統計スキル
が柱でしょうか。
僕は今のところ、これらを軸とした「データサイエンティスト」を目指して頑張りたいと考えています。とはいえ、まだまだ社会人若輩者なので、これから必要な軸はまだ変化していくかもしれません。
そのあたりも今後ブログを通じて発信出来たらいいかなと考えています。
次回は、実際のデータ分析について具体的なエピソードを書いていく予定です。
ではでは