IT社員3人組によるリレーブログ

某IT企業に勤める同期3人が、日常で思ったことを記録していきます (twitter: @go_mount_blog)

データ分析で困ったあるある7選

どうもKoheiです。

最近の週末雨が多すぎやしないでしょうか

 

さて、今日は最近仕事で感じるデータ分析で困ったあるある7選をまとめて共有したいと思います。

 

データ分析を仕事にしている方、またはデータ分析を誰かにお願いする立場の方も、データと日ごろ関係のない方も、こんなことが実際には起きてるよ!というのを共有したいと思います。

 

f:id:go-mount:20181003011437j:plain

 

では分析の準備編、分析実施編、分析結果共有編の3パートでそれぞれ書きたいと思います。

分析準備編

1. そもそもデータが集まらない。

いきなりそもそも論です。

実際に業務を進めて行くと、データ分析を行うターゲットや効果がイメージできるのにデータが集まらないパターンが多々あります。

データが集まらない理由というのはいくつかあって

・システムの制約でデータを出力できない、貯められない。

・セキュリティの問題上、持ち出すことができない。

・組織上の管理、整理の問題

などなどがあげられます。こうした理由を打破するためには、「データが集まったとき想定される効果をいかに具体化できるか」がカギです。

2. 分析業務の費用対効果が明確化しにくい。

とはいえ、分析の結果どれくらいの効果が見込めるかを見積もるのは非常に難しいです。なぜなら、データの中身がわからない段階で、そのデータからどんなことがわかるのかはやってみたいとわからない面が大きいからです。

これはお客様への営業を行う際には大きな壁になります。

効果出るかわかんないけど、なんか良さそうな気がするから、うちと契約して分析させてくれ・・・と言ってもなかなかお金を出してくれる会社はありません。

この課題に対しては、これまでの分析知見や他社の事例などをひっぱってきて、定性的な効果を積み上げるところから始めていくことになります。

3. データサイエンティストにデータを上げれば結果が返ってくると思われてしまう。

さあ、いざ解析スタート!となったときにあるのですが、依頼元からの「データ丸投げであとはよろしく」です。

これではとてもデータからよい効果を出すことはできません。

データサイエンティストは、あくまでデータ解析のスペシャリストであって、業務のスペシャリストでないことがほとんどだからです。

データ解析をお願いする立場の人が、いかにデータの裏側に潜む業務の知識(ドメインの知識と言ったりします)やそのデータをどう使いたいかを具体化して分析者に伝えることができるかがカギになります。

なんかよさそうなデータあるからよろしくーぽいーをしている時点で、その分析案件が成功するかはかなり怪しいです。

分析編

4. データが汚すぎて、中身の把握だけで長時間かかる。

これは3.の丸投げパターンのときにありがちです。

依頼元がデータの解析に興味がないorデータを知らないなどの要因で、ゴミデータや間違ったデータが混在したり、解析しにくい形式のままだったりします。

実体験であったひどいケース

  • 数値の書いてあるWordファイルだけを渡される。
  • 分析してみたら欠損だらけのデータ。
  • 実はダミーデータが混ざってて、分析やり直し

ぜひ分析を依頼する人はちょっと解析する人のことを考えてあげてください。

分析者とのコミュニケーションをとりながら、データの提供元もどんなデータを用意すればよいかを合わせて考える必要があります。

5. データが巨大すぎて解析できない or 解析結果が出るのに数日かかる

まさにbigdata時代ならではの悩みです。

解析対象のデータが数百GB、ときに数TBにもおよび、コンピュータリソースはあっという間に足りなくなっていきます。

これは「データを分析するプラットフォームを拡張する」「分散処理のアーキテクチャを利用する」といった抜本的な方法を必要とされるケースもありますが、「分析対象を小さくしてスモールスタートで進める」「データの形式に合わせたソフトウェアを使って解析する」など工夫しながら進めていくことが大事です。

分析結果報告編

6. いろんな尺度で分析したが、結果のレポートを整理しきれず、伝わらない。

せっかくデータも集まって、多種多様な統計処理をこなしていくと、様々な側面からの解析結果が集まります。苦労して集めたデータをキレイに前処理して…と進めていくと、ちょっと分析者としても頑張りたくなるからです。

様々な尺度で解析をしていくのは楽しいですが、結果を待つ人からすれば、まずは期待している回答を出してほしいというのが本音です。

そもそもの分析目的はなんだったのか、というのを念頭に置きつつ解析結果を報告し、プラスアルファでこんな知見も見られました・・・という形で伝えることが大切です。

7. 精度の高い結果が出ても、業務上は役に立たないと言われてしまう。

 さあ、分析も波に乗って、機械学習も組み合わせて、いい感じの判別モデルができました!さあこれをぜひ業務で使ってください!と、意気揚々にしていると、「なんかすごそうだね、へー」っと一度は感心されつつ、結局使われない・・・なんてことがあります。

今まで人間が判断した内容を機械が判定するのは納得がいかない」「機械学習のロジックが説明できない/理解できないから使えない」といった感情的要因が時に出てきます。

こうした点は、データサイエンティストと実業務の担当者との溝が原因です。

お互いにコミュニケーションを取りながら、「実際にデータからこんなことが見える」「業務を進めるためにはこんな点が重要なんだ」といったお互いの観点をうまく交換しながら進めていくことが不可欠です。

 

 まとめ

さて、ここまでデータ分析で困ったあるあるを紹介してきました。

もし、同じような悩みを抱えていた方、その悩みに対してこんな解決策をとったよ!という方がいればコメントいただけると嬉しいです。

 

ではでは