1.3.1 - 法政大学 情報科学部

データサイエンス講義
14k0136
矢代 磨沙浩
14k0010
岡田 和也
14k0135
向田 佑介
はじめに
 近年、「データサイエンス」や「ビックデータ」が大々的に取り上げられている
↓
疑いを持ったり困惑したりする
↓しばらく困惑する
データの文化にパラダイムシフトを起こすのでは?
これらを考えるより先に困惑さと曖昧さを引き起こしたのは何?
↓
どのように解決していったか
1.1 ビックデータとデータサイエンスの過剰喧伝
 データサイエンスに対して様々な理由から懐疑的になっている
→何に?なぜ?
↓
 データサイエンスを社会にプラスの影響を与える分野へと昇華させる影響力を
我々自身が保有している
 ビックデータとデータサイエンスの何に対して懐疑的になるか整理する
 ビックデータとデータサイエンスの何に対して懐疑的になるか整理する
1、「データサイエンス」、「ビックデータ」についての定義
(何なのか、規模の大きさ・・・)は曖昧なため、ほとんど意味をなさない
2、産学の研究機関の研究者への敬意の欠如
3、過剰喧伝
4、データサイエンスについての間違った認識、表現
5、「それ自体を科学と呼ばなければいけないものは科学ではない」という考え方
1.2
過剰喧伝を克服する
 レイチェルの経験という事例から、データサイエンスには本質が存在する
ことを確認できる
↓そこから
 学校で習うことから実際に仕事に移るとき、「学術統計と産業統計の差異、
ギャップ」に直面するということを感じる
↓これに対して2つの反応

・本当に差異がなければならないのか

・単に差異だけを表しているわけではない
 データサイエンスは確かに新しいが、生まれたばかりのため、早くに拒絶
すると危ない
↓そのため
 レイチェルはデータサイエンスの文化的現象と他者が
どのように体験できるか理解できるようにした
(Ex.専門の人々とミーティングし、明確な概念の形成、講義しながらの調査など)
↓それゆえ
本当の意味が分かる
1.3
なぜ今なのか
 現在、私たちの生活では膨大な量のデータと安価な計算能力も存在する。
→・オンライン行動の「データ化」。

・オフライン行動の「データ化」。
↓
二つを組み合わせる
 行動や自分がどのようなカテゴリに属するのかに関した情報を得ることができる。
 対象となるのはインターネットだけではない
→金融、医療産業、医薬、生物情報、社会福祉などさまざまな物が対象
 収集されるデータ量は「ビッグ」とみなされるのに十分なものもあれば、
そうでない場合もある。
↓
 新しいデータを興味深いものにするのは膨大さだけではない。
→データそのものがデータ関連製品の構成要素。
 文化として浸透している大規模なフィードバックグループ
→行動が製品を変化させ、製品が行動を変化させる。
(大規模データ処理のためのインフラ、メモリやネットワーク帯域幅の増加、
普段の生活における技術の文化的受容など}
→10年前には当てはまらなかった。
 このフィードバックの影響を考える。
→そのループをどう実現するのか
+このプロセスに関与する人々の倫理的、技術的な責任を考慮
1.3.1
データ化
 「Foreign Affairs」でデータ化の概念の議論
→例:「いいね!」を使った友情の定量化方法
 「Foreign Affairs」の著者はデータ化を「生活のあらゆる場面を取り出し、
データに変換する」プロセスと定義
 データ化は自分のデータを共有するかどうかを判断する場合、データ化の
重要性を考えさせることになる。
→私たちの行動はデータ化されつつある
 データ化に題する私たちの意図が関わる範囲は、ソーシャルメディア実験
に参加する場合、徹底的な監視や追跡をされている場合にまで及ぶ
→しかし、それらのいずれもがデータ化である
 物事をデータ化してしまえば、その後は私たちは目的を変え、その情報を
新しい形式の価値に変換することができる
→どのような種類の価値を指しているのかという疑問がわく。
1.4
現状(および多少の歴史)
 データサイエンスとは何か?
→新しいもの?
統計や分析論の名前を変えて再生させたもの?
本当に価値のあるもの?
単なる過剰喧伝?
→新しいものでありかつ本当に価値があるならば、何を意味する?
↓
何が起こっているか理解する1つの方法
 オンラインで調べ、どのような議論が行われているか確認すること。
 Metamarket社のMike Driscollの見解
・データサイエンスは、レッドブルに支えられたハッキングとエスプレッソに
触発された統計学の混ぜ合わせである。
・ハッカーや統計学者が気にしないこと、出来ないことを可能にする。
・データーサイエンスはデータの土木工学であり、その信奉者はツールや素材の
実用的知識を持っていることに加え、何が可能かを理論的に理解している。
→Drew Conwayのデータサイエンスのベン図に言及
(2010年)
図.1 Drew Conwayのデータサイエンスのベン図
→Nathan Yauの投稿した「Rise of the Data Scientist」にある
データマニアの優れたスキルについての言及
・統計(検討するのに慣れた従来の分析)
・データマンジング(データ解析、解体、フォーマット)
・可視化(グラフ、ツールなど)
 データサイエンスは単なる手段の詰め合わせなのか?
統計学や機械学習などの他の分野の論理的延長なのか?
 Cosma Shaliziの考え
・有能な統計部門はデータサイエンスの説明を全て実行している。
・つまりデータサイエンスは単なる名前の付け替えであり、
ありがたくない統計学の乗っ取りである。
 Nancy Gellerの考え(Amstat Newsの記事「Don’t shun the ‘S’word」)
・統計学者とは科学、工学、医学で発生しているデータ氾濫を解明する役割を
になっているということを、みなに告げる必要がある。
・統計学は、美術史から動物学までのすべての分野におけるデータ分析の方法を
提示する。
・すべての分野におけるデータ爆発によって多くの課題がもたらされるため、
21世紀に統計学者になるのは刺激的なことである。
→筆者からすれば、この例は墓穴を掘っているようなもの
この分野の発展は学術界ではなく産業界で生じており、学術界に
データサイエンスの教授はいないため(これは変わりつつあるかもしれない)
 DJ Patil とJeff Hammerbacherがどのようにして
「データサイエンティスト」という言葉を作ったのかを説明(2008年)
→職種としての「データサイエンティスト」が登場
(2012年にWikipediaにデータサイエンティストの項目が出来る)
 データサイエンスにおける社会科学者の役割
・データサイエンティストの説明や定義には、ハイブリッド科学者、
ソフトウェアエンジニア、社会科学者が含まれている。
→製品がソーシャルである企業や、人間やユーザーを扱っている企業を
考えればうなづける。
・Drew Conwayのベン図にある実質的な専門知識は、解決しようとする問題に
よって左右される。
・社会科学者は優れた質問者になる傾向があり、優れた調査資質を持っている。
(あくまでもデータサイエンティストの観念をオンラインユーザー行動データ
だけを扱う人に限定している状態)
→さらに昔に遡ってみる
 William Clevelandの声明
「Data Science : An action plan to expand the field of statistics」(2001年)
→データサイエンスはデータサイエンティストより前に存在していたのか?
意味論?それとも理にかなったもの?
→データサイエンティストが行うことをデータサイエンスと定義できる?
誰がこの分野を定義する?(メディア?)
実務家や自称データサイエンティストを信頼すべき?
権限当局が存在するのか?
1.4.1
データサイエンスの仕事
 データサイエンスが実在の分野でなくても、仕事は実在する。
→データサイエンティストだけでニューヨーク市に465に仕事があった。
 データサイエンティストに求められているもの
・計算幾科学、統計、通信、データ可視化の専門であること
・特定の分野での豊富な専門知識を持つこと
全ての領域の専門家である人はいない。
↓従って
 さまざまな経歴と異なる専門知識を持つ人々のチームを作る。
→すべてを専門とすることが可能となる。
1.5
データサイエンスプロフィール
データの可視化
機械学習
数学
統計学
計算機科学
コミュニ
特定分野の
ケーション
専門知識
図.2 データサイエンティストプロフィール
・レイチェルのデータサイエンティストプロフィール
→尺度や可視化法を利用して事故報告の欠点について考えてもらうために作成
 すべての分野が得意な人はいないから、データサイエンスチームはさまざまな
人々がさまざまなスキルを持っているとき効果的に機能する
→データサイエンティストを定義するよりも「データサイエンスチーム」を
定義したほうがいい
図.3 データサイエンスチーム
1.6 思考実験:メタ定義
 すべてのクラスで学生がグループで議論する思考実験を少なくとも1回行った。
→ほとんど思考実験は自由な形式で、データサイエンスに関する幅広いトピックに関する
議論を喚起することを目的とする
 最初のクラスは「データサイエンスを使ってデータサイエンスを定義できるか」
テキストマイニングモデルの場合
 「データサイエンス」をGoogle検索を行う。
→これだと規定者であるより用法者になる
 用法者はGoogleの検索エンジンの検索結果にデータサイエンスを定義させるの
だが規定者になってオックスフォード英語大辞典などの権威を参照したほうが
いいのではないだろうか
クラスタリングアルゴリズムの場合
 データサイエンスの事務家を調べ、自分たちが実行していることをどのように
説明しているかを確認する
→これなら統計学者、物理学者、経済学者などのほかの学者であると主張して
いる人々が自分たちの行っていることをどのように主張しているかを調べる
こともできる
 クラスタリングアルゴリズムを利用してだれかが行っていることを検索すると
その人がどのような分野であるか適切に予測できるかどうかを確認できる
データ
データ
データ
データ
ビジネスパーソン
クリエイティブ
デベロッパー
リサーチャー
統計学
プログラミング
数学/OR
ML/ビッグデータ
ビジネス
図.4 スキルとアイデンティティの上位要因
・「Analyzing the Analyzers」における2012年半ばでのデータサイエンス事務家
の調査にもとづくデータサイエンスのサブフィールドのクラスタリングと可視化の図
1.7 データサイエンティストとは本当は何か
 データサイエンスを定義する最も具体的な方法
その用途(データサイエンティストは何を行って報酬をもらうのか、など)
を利用する。
→これを動機としてデータサイエンティストが何を行うかを説明する。
1.7.1
学術界
 現在学術界には一部を除いて、自分をデータサイエンティストと呼ぶ人は
いない。
 学術界ではだれがデータサイエンティストになるつもりなのか?
 コロンビア大学におけるデータサイエンス入門の講義
統計学者、応用数学者、計算機科学者で構成されると予想。
↓実際には
それらの人々に加え、社会学者、ジャーナリスト、政治学者など。
 生徒の大半が、データを使って社会的に価値のある重要な問題を解決する
方法の解明に関心があった。
 学術的なデータサイエンティスト
社会科学から生物学までの何かに長けており、大量のデータを扱い、
データの構造、サイズ、乱雑性、複雑性、性質によってもたらされる計算問題に
立ち向かう必要があると同時に、現実世界の問題を解決する科学者であると
言ってよいかもしれない。
 まとめ
さまざまな学問分野において、難解なデータ計算問題の存在は
共通する大きな特徴。
→部門を超えた研究者が力を合わせると、さまざまな分野での現実世界にある
複数の問題を解決できる。
1.7.2
産業界
 産業界におけるデータサイエンティスト
経験レベルや、特にインターネットやオンライン業界に関して話題にしているかどうかに
左右される。
 データサイエンティストという言葉はIT業界から生じている
↓
IT業界でのデータサイエンティストの意味とは?
 チーフデータサイエンティスト
データの収集、ロギングのためのエンジニアリング、インフラ、
プライバシーに対する懸念や、ユーザが直面するデータ、
データをどのように利用するか、データからどのようにして成果を導くかを決定
することにいたるまでの全てを定める。
→データサイエンティストはエンジニア、科学者、アナリストとチームを管理
し、社内の指導者とコミュニケーションを取るべき。
 一般的なデータサイエンティスト
・データから意味を抽出し、解釈する方法を知っている人であり、
統計や機械学習のツールや手法に加え、人間らしくある必要がある。
・データの収集、クリーニング、マンジングの作業にも多くの時間を使うため、
忍耐、統計、ソフトウェアエンジニアリングスキルが必要。
・データに基づき意思決定をするための探索的データ分析が重要。
・チームメンバー、エンジニア、指導者と明確な言葉やデータ可視化を使って、
コミュニケーションをとり、データ自体に没頭していない者にも
その意味が分かるようにする。
 これは高水準な概念であり、この本はその大部分の理解の役に立つことを
目的としている