若手データサイエンティストの日常
どうも、Koheiです。
鬼のように暑い日々が続きますね
今日は前回の記事を踏まえて、
もう少し具体的に、各プロセスでどんなことをしているのか実体験を交えて共有したいと思います。
前回の記事
前回、データサイエンティストの仕事は、下記のプロセスを踏むと書きました。
- 要件のヒアリング
- 必要なデータの収集
- 分析の準備
- データ分析
- 結果のアウトプット
では、各項目でどんなことをしているのか、書いてみます。
-
要件のヒアリング
「○○サービスの利用状況を知りたい」
「お客さま報告のため○○データを解析してほしい」
「大量のサーバログで故障要因の解析したい」
などなど、各方面から様々なリクエストがきます。
そこからどのデータをどれくらいの期間、どう分析したいのか?など要件をヒアリングします。
状況によっては、そのまま要望を受けるではなく
「サービスの利用状況を知りたいなら○○データより××データのが正確なのでこちらはどうですか?」
などといった提案活動もします。
ユーザの業務把握や課題分析能力などが求められるので、ITコンサルっぽい要素もあります。
-
必要なデータの収集
1.でヒアリングした内容を基にデータを集めます。このご時世データの在り方は千差万別です。・特定サーバからFTPなどで定期的にファイルを取得・データベース連携、SQLでアクセス・APIをたたいてデータ取得・そのほか、特定のプロトコルでデータ連携自分の仕事で言うと、全体の6割くらいがファイルベースのやり取りが多いです。
ネットワークの設定やサーバの設定、スクリプトを書いたりなどなど -
分析の準備
データが取得できる環境が整ったら、見たいアウトプット(特定のダッシュボードだったり、表だったり)のカタチにするべく、データを加工します。だいたいデータベースに入れて、特定の可視化ツールで見ることが多いので・CSV形式っぽくデータを加工する・データベース作成・データロードの手順を踏むことが多いです。このとき・区切り文字のないひたすらの文字列・スペースや改行コードの混在・そもそも文字化けして謎みたいなのと格闘します。データベース設計やここでもスクリプト書いたり -
データ分析
さあ、ようやく待ちに待った分析の時間です。
ツールを使って、いろんな尺度でデータを集計したり、グラフにしたりして特徴を把握します。
ここで見えた特徴をもとに統計モデルを作成して…
とつなげていけると機械学習、AI系の話になるのですが、そこまで進むことは稀です。
なぜ、AIまでたどりつかないのか…という話はまた次回
-
結果のアウトプット
解析結果をユーザにフィードバックし、分析の振り返りやアクションにつなげなます。フィードバックの大半は「データが欠けてます」「値おかしいです」などですが。。。
データ分析あるあるとして、とりあえず可視化して満足して終えるケースがあります。アクションに繋がらない分析結果は価値0なので、常にその点を頭に入れて分析は進めます。
さて、では僕がこのうち各プロセスに費やしている時間を可視化してみます。
使うツールは世界最強?のデータ分析ツールExcelです。
じゃん!
お判りいただけただろうか
悲しいかな、僕が費やす時間はほとんど、
2.必要なデータの収集
3.分析の準備
です。
2.必要なデータの収集
3.分析の準備
です。
まあ、これはデータ分析を仕事にする人に広く言えることだと思います。
この辺に時間を割かざるを得ない状況になる理由としては下記の点があると思います。
- データがとにかく汚い
例:流通してるデータがランダムなタイミングで欠ける。
実は見たかったデータは全体の5%程度で、95%ノイズ。
そもそもデータの定義があいまいで、謎のデータが紛れている
データを取得までに何人も経由しているため、未知データや例外的な情報が不明。
定義を確認するために、また何人も人を経由する必要があり、時間がかかる。
データを取得までに何人も経由しているため、未知データや例外的な情報が不明。
定義を確認するために、また何人も人を経由する必要があり、時間がかかる。
- セキュリティの障壁
例:システム管理者とデータ流通リスクの整理に時間がかかる
そもそもシステムがデータ取得するIFを設計しておらず、大幅な改修が必要
分析した結果どれだけコストメリット算出が困難で、システム改修が停滞
そもそもシステムがデータ取得するIFを設計しておらず、大幅な改修が必要
分析した結果どれだけコストメリット算出が困難で、システム改修が停滞
- データ分析インフラの性能限界
例:データが巨大すぎて、単純に処理に時間がかかる
場合によってはインフラを増強しなければそもそも解析できない。
場合によってはインフラを増強しなければそもそも解析できない。
などなど。
データボリュームはさておき、これらを解決する肝は「データの管理」だと思います。
どこで生成され、どんなデータで、どのタイミングで更新されて、誰がアクセスしているのか、という情報の整理が必須です。
でないと、業務の大半がデータの誤りを指摘することで終わってしまいます。
でないと、業務の大半がデータの誤りを指摘することで終わってしまいます。
が、実態としてはなかなかこの部分がうまくできていないのが現状で、試行錯誤の毎日です。
このあたりは「データガバナンス」や「MDM(マスタデータ管理)」とかキーワードが出ていますね。
と、ここまで生生しい感じのデータ分析業務の実態について話をしましたが、いかがでしょうか。うちだとこうしてるよ!とか、同じ悩み抱えています!とか、あればコメントいただけると嬉しいです。
次回以降は、分析系やAI系のトピックについても書いていこうと思います。
ではでは