
データサイエンスは世界でも注目を集め、聞き慣れている人は多い一方で、様々な分野にまたがる学問でもあり単純に理解するのが難しいです。
今回はデータサイエンスの概要を分かりやすく解説し、データサイエンティストの仕事内容を絡ませながら、データサイエンスについての理解を深めていきます。
業界業種問わず、注目を浴びているデータサイエンスですが、その世界観をユースケースを用いて紹介します。
データサイエンスとは
この章では、データサイエンスが注目されている背景について触れた上で、データサイエンスの言葉の意味、その概要をお伝えしていきます。
データサイエンスの概要
データサイエンスとは、多くの研究分野の集合体として成り立っている学問であり、その目的は「データから有意義な洞察(インサイト)を引き出す」ことです。
ここで言う研究分野とは、主に経営などのビジネス分野、プログラミングを代表とするIT分野、データ分析に必要不可欠な数学・統計の分野などです。これらの分野の知識を組み合わせ、様々なデータから知見や洞察を引き出すことがデータサイエンスの真髄なのです。
比較的新しい言葉と思われがちのデータサイエンスですが、実はその始まりは、1974年にデンマークのコンピュータ科学者であるピーター・ナウア(Peter Naur)の著書「Concise Survey of Computer Methods」の中で何度も使用された言葉として有名です。
データサイエンスが期待されている背景
データサイエンスが期待されている背景には、IoTの発展により世界で取り扱われるデータ量が急速に増えてきたことが関係しています。あらゆるデバイスがインターネットと繋がることでデータ量が増え、さらに世界中で発信されているデータに誰でも簡単にアクセスできる時代になったのです。
この大量かつ複雑化したデータ、つまりビッグデータを分析・活用することで、企業は業種や規模にかかわらず、これまでとは別の角度からビジネス課題を見つけることが可能になりました。そして、新しいビジネスアイディアを見つけることで企業の成長に繋げたり、ビジネスに変化をもたらすといった点でデータサイエンスが期待されています。
例えば、データから新たな顧客の趣向を発見し新サービスの立ち上げに繋げたり、顧客の行動予測から新しい購買パターンを発見することで売上を上げるなど、ビッグデータの活用そのものがビジネスの競争力に影響を与えることもあります。
この動きと連動し、データサイエンスを専門とするデータサイエンティストの需要も高まっています。現に、アメリカの2020年のベスト・ジョブとしてデータサイエンティストが3位にランクインしています。国内でも直近1年でデータサイエンティストを増員した企業が56%、データサイエンティストを採用しようとするも目標人数を確保できなかった企業が6割弱に上ったといった数字が出ています。(参考:企業が求めるデータサイエンティスト人材像|データサイエンティスト協会 調査・研究委員会)
データサイエンスに必要なスキルとデータサイエンティストの仕事内容
この章では、データサイエンスに必要なスキルの整理と、データサイエンティストのワークフローと照らし合わせながらデータサイエンスの領域について理解を深めていきます。
データサイエンスで大切な3つのスキル
先述したようにデータサイエンスの学問領域は広範囲となっていますが、データサイエンスで求められるスキルは大きく以下の3つに分けることができます。
①ビジネス力
②ITスキル
③統計解析スキル
ビジネス力
データサイエンスの主な目的は、データを分析した上で、そのデータを活用しビジネスに活かすことです。ビジネスにいま何が求められているかを知った上で、何をどのように分析すべきかを決定していく必要があるのです。そのため、分析対象の業界知識や事業内容やビジネスモデルのほか、市場トレンドや競合他社の状況などを理解することが大切です。また、分析を行う上での論理的思考能力も必要不可欠です。
ITスキル
データサイエンスには大きく3つのITスキル「データベースの知識」「データを高速処理するためのスキル」「プログラミングスキル」が必要となります。
まずは膨大なデータを格納しておくデータベースの仕組みを知り、データベース管理システムについての理解が必要となります。
さらに、ビッグデータを継続的に活用するためには、データ処理の速度を高速化することも大切です。高速に処理を行うことで、よりリアルタイムに近い分析が行え、社会情勢の変化に追随することができます。データを高速処理するためには、列指向データベースの知識や、分析用データベースへのデータコピー、必要に応じてデータを分割・統合するといったスキルを習得しておく必要があります。
最後に、データ解析する際に必要な様々プログラミング言語を使用して、プログラムやアルゴリズムを作成することも求められます。
統計解析スキル
データサイエンスにおいて、統計処理手法やデータマイニング手法に関する深い知識は必要不可欠です。確率や統計、微分積分、行列、回帰分析といった数学知識に加え、データマイニング、機械学習といったデータ分析処理手法の知識を押さえた上で、データ分析ツールでデータサイエンティスト以外の人の目にもわかりやすく視覚化するスキルを習得しておく必要があります。
データサイエンティストの主な仕事内容
ここでは、データサイエンティストの業務フローを紹介しながら、その中でデータサイエンティストに求められるスキルを紹介していきます。
問題定義
まずは問題定義を行います。問題定義とは、ビジネスを理解した上で解決すべき課題を抽出・設定することです。そのためには、企業のビジネスモデルの理解、業界知識や経営・事業戦略に関する最低限の知識、ならびに論理的思考力や仮説立案の能力、根本課題の追求力などのスキルを要します。
データの収集・整理・加工
次に、データの収集・整理・加工です。ここでは、仮説の立証に必要なデータを収集し、分析が可能なレベルに加工していきます。収集するデータは、様々な異なる形態になっていることが多いため、このデータを統合したり整理したりすることで、分析できる状態に加工する技術が必要です。
また、多くのデータを様々なシステムから収集し続けれるような環境を作ることも求められます。そのため、大量のデータを効率的にクレンジングするプログラミングを行うスキルやデータベースの理解が必要となります。
データ分析
収集したデータを分析し、当初設定した問題の解決に繋がるような知見を見出すことが、このフェーズでの目的です。大量のデータから意味のある情報を見つけるためには、まず数学のスキルが必要となります。具体的には、確率・統計、微分積分、行列などの数学スキルを用いてデータ解析を行います。合わせて、分析に適した統計処理のテクニックやデータマイニング手法についても理解しておく必要があります。また、効率的なデータ分析を可能とする分析プラットフォームの活用スキルも重要です。
課題の可視化・提案
最後に、データ分析して得られた知見をレポート化し、どのように定義した問題に活用していくのかを経営層や関連部門に提案します。あらゆる角度からデータ分析した結果を正しく読み取り、課題解決に繋がる提案を行うことがポイントです。
仮説と分析結果を照らし合わせながら、経営者などの専門家ではない読み手にも内容が理解できるよう、次回取るべきアクションを明確にした上で、レポートを作成することが必要です。それに伴い、相手が理解できるよう分析結果を伝えるプレゼンテーションスキルやコミュニケーションスキルも重要になります。
関連記事 データサイエンティストの仕事とデータ分析業務を効率化するAutoML
データサイエンスの業界ごとの活用シーン
実際に各業界やビジネスにおいてどのようにデータサイエンスが活用されているのでしょうか。
下記、活用シーンをまとめました。
流通・小売業
データを活用した売上予測を行い、効率的なマーケティングや在庫管理が可能となります。例えば、いつ・誰が・どのタイミングで・何を購入したのか、他にどのような商品に興味があったのかといった購買に関連するデータや、市場データ、顧客データ等を紐づけて集積することで、顧客ごとの行動パターンや嗜好性を明確にデータ予測します。その上で、購買の可能性の高い顧客ターゲットを絞り込み、顧客の嗜好に応じたクーポン配信を行うなどのマーケティング施策を打つことが可能となります。
また、SNSの投稿やWEB行動データなどを組み合わせて今後のトレンドを予測することも可能です。それにより商品需要を正確に予測することができ、確保すべき在庫数を把握し、在庫コントロールを行うことで、売上の拡大が期待できます。
金融業
過去の株式取引データや為替データと世界で起こっている様々な経済指標を組み合わせることで株価・為替の予想を行うことができます。1秒後の短期的な株式・為替予想だけではなく、1か月程度の長期的な予想も可能となったことで、銘柄選びだけではなく、売買のタイミングまでAIが予想した上で外貨等を自動購入するサービスも出てきています。顧客にとっては、運用負担が軽減し、またリスクを考慮した上での投資が実現できるため、初心者~経験のある投資家の方まで囲い込むことが期待できます。
飲食業
飲食業においてもビッグデータを活用すれば、あらゆるデータを組み合わせ、正確な売上予測を行うことができます。これまでの飲食業では、主にPOSシステムで収集されたデータから、過去の売上結果に基づく売上予測を行っていました。このPOSシステムのデータに加え、店舗周辺のイベント状況や宿泊予測や飲食店検索サイトへのアクセス数、天候や気温の環境データ等のオープンデータを含めたデータ解析を行うことができれば、より正確な来店者数や売上予測が可能となります。
売上が見込めない時期には、食材や人員の最適化を行うことで食品ロスなどのコスト削減を可能としたり、売上が見込めるときは在庫・人員を確保し売上増加が期待できます。売上予測に応じた、施策を予め考えておくことも容易になることもポイントの1つです。
まとめ
データサイエンスは、前述の通り、その領域は広く、一言では説明できない学問分野です。データサイエンスの目的は「データから洞察(インサイト)を得てビジネスに活かす」ということです。
データから洞察を得ることができれば、経験や勘に頼った意思決定ではなく、合理的で正確な意思決定を行うことが可能になります。データからこれまでと違う視点で物事を俯瞰してみることで新しいビジネスチャンスを掴んだり、予めリスクを予測し、リスク回避を可能にし、経営の決断を手助けしてくれる貴重な役割を果てしてくれることでしょう。
この機会に、データサイエンスの活用が自社にとってどんな影響を与えてくれるのか今一度考えてみても良いのではないでしょうか。