Document

第10回:2015年6月30日
IT教育ネットワーク論特論A
(デジタルサイネージについて)
小嶋 秀樹
[email protected]
IT教育ネットワーク論特論A あくまで予定ですが…
4月14日 イントロダクション
4月21日 人間を理解するための心理学
4月28日 人間を理解するための脳科学
5月12日 視線について(技術編)
5月19日 視線について(心理編)
5月26日 人と物のトラッキング(技術編1)
6月 2日 人と物のトラッキング(技術編2)
6月 9日 人と物のトラッキング(心理編)
6月16日 <休講(出張のため)>
6月23日 言語(音声・テキスト)について 6月30日 デジタルサイネージについて
7月 7日 3次元映像とプロジェクションマッピング
7月14日 スマートフォンのインタフェースデザイン
7月21日 動きをつくる(カイネマティックインタフェース)
7月28日 まとめ1:人が人を理解するということ 前回の復習
言語(音声・テキスト)について
音声の入出力(すこしだけ)
音声のデジタル表現(標本化と量子化)
音の波形
(空気の
圧力変化)
標本化(sampling)
一定の時間間隔で実数値列へ 量子化(quantization)
実数値をデジタルへ 音声の入出力(すこしだけ)
音声認識(音声⇒テキスト)
Audacity(フリーソフト)を使用
音声信号
音響モデル
音素列
音韻列
t o:
とー
h o ku d a i g a
ほ
く
だい
が
言語モデル
単語列
テキスト
東北
大学
東北大学
kh
く
音声の入出力(すこしだけ) 使える音声認識システム
Julius:連続音声認識エンジン
PC上で数万単語の連続音声認識を実時間で実行
フリーソフト(京都大学ほか)
ウインドウズ,Unix,Mac など
(試用する場合は「ディクテーションキット」がよい)
音響モデル・言語モデルを差し替え/カスタマイズ可能
(口語や他言語への適応が可能)
音声認識の精度を上げるコツ
アナウンサーのように喋る
(ハッキリと,一定の強さ・速さで)
よいマイクを使う
(音響モデルの構築時に使ったマイクがベスト)
音声の入出力(すこしだけ) 使える音声合成システム
音声合成エンジン
ひらがな+アクセント記号などを実時間で音声合成.
漢字を含むテキストからの音声合成が出来るものもあり.
AquesTalk2 (テキスト>音声)
(Mac, Win, Unix, iOS, Android)
さとうささら
(ボーカロイド)
なぜ「テキスト処理」が注目されているのか
ビッグデータとしてのテキスト
Web, Line, Twitter, Facebook, ...
「言葉の海」から「潮流」を読み取る
流行の予測
【テキスト以外にも…】
選挙結果の予測
購入情報(amazon・楽天など)
感染症の予測 乗降情報(JR/Suicaなど)
走行情報(Honda/NaviLinkなど)
Twitter の大きさ(2012)
5億人以上
3億4千万tweet/日以上
Wikipedia/en
Line の大きさ(2014)
4億人以上
100億トーク/日(最大)
Line 公式ブログ
形態素解析(morphological analysis)
文章を形態素(=単語)に分割し,辞書項目と対応づける.
文章
単語 単語 単語 単語 単語 単語
辞書 辞書 辞書 辞書 辞書 辞書
項目 項目 項目 項目 項目 項目
「まずい朝食を食べさせられた」
まずい
朝食
を
食べ
させ
られ
た
形容詞 一般名詞 格助詞 動詞語幹 助動詞 助動詞
助動詞
「まずい」 「ちょうしょく」 「を」
「たべる」 「させ」 「られ」
「た」
〈tastless〉〈breakfast〉 〈OBJ〉 下一連用形 連用形 連用形
終止形
〈eat〉
〈CAUSE〉〈PASSIVE〉〈PAST〉
辞書を引きながら,単語の 尤もらしい切りかた繋げかたを探索
もっと
つな
いぬがみけのいちぞく
犬,が,三毛,の,一族
犬神家,の,一族
形態素解析(morphological analysis)
ダイナミック・プログラミング
来る まで ハマった
車 で ハマった
DP (dynamic programming)
(5)
(15)
くる(来る)
5
(動詞)
10
20 (20)
5
まで
(5)
では
10
まった(舞った)
(名詞) 10 (10)20(接続詞) (20)
くるま(車)
(名詞)
は 10 まった(待った)
5 (係助詞) (30)(動詞+助動詞)
(25) (副助詞)(55)
10
30
ま(間)
5
(30)
10
5
で 10
(格助詞)
単語の選択コスト(出現頻度)の導入
確率の導入(Viterbi アルゴリズム)
(動詞+助動詞)
5
5
(25)
5
はまった(ハマった)
(動詞+助動詞)
日本語解析
かな漢字変換 のエンジン
音声認識
形態素解析システム MeCab めかぶ(和布蕪)
奈良先端大(現在Google)の工藤氏による
研究用のフリーソフト
辞書はダブル配列 コスト最小化1位,2位,・・・
接続コストを統計学習 ⇒ DPで最小化; N -best解の出力
% mecab 新幹線でビールを飲みます 新幹線 名詞,一般,*,*,*,*,新幹線,シンカンセン,シンカンセン で 助詞,格助詞,一般,*,*,*,で,デ,デ ビール 名詞,一般,*,*,*,*,ビール,ビール,ビール を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 飲み 動詞,自立,*,*,五段・マ行,連用形,飲む,ノミ,ノミ ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス EOS 形態素解析システム MeCab めかぶ(和布蕪)
http://mecab.sourceforge.net/
Windows での漢字/半角切り替えは[Alt+漢字]
構文解析
日本語の場合: 文節列について〈係り受け構造〉をつくること
文節 = 意味と発音の点から文を自然に区切った最小単位
〈文節〉 → 〈接頭辞〉* 〈自立語〉+ 〈接尾辞・助詞・助動詞〉* 文節間の〈係り受け〉の解析
私は 朝の 新幹線で 学会の 準備を しました
〈名詞〉+「の」 → 〈名詞〉
〈名詞〉+「と」 → 〈名詞〉
〈名詞〉+「が」 → 〈述語〉
〈名詞〉+「を」 → 〈述語〉
〈名詞〉+「で」 → 〈述語〉
CaboCha の出力
私は---------D 朝の-D | 新幹線で-----D 学会の-D | 準備を-D しました 構文解析 syntactic analysis
構文解析とは何か?
日本語の場合: 文節列について〈係り受け構造〉をつくること
文節 = 意味と発音の点から文を自然に区切った最小単位
〈文節〉 → 〈接頭辞〉* 〈自立語〉+ 〈接尾辞・助詞・助動詞〉* 仙台/駅前/で
お/弁当/を 買い/ます/か 黒い 瞳の大きな 女の子
黒い 瞳の大きな 女の子
黒い 瞳の大きな 女の子
構文解析
簡単に使える構文解析ソフトがあります.
CaboCha/南瓜(フリーソフト;Unix/Mac/Windows)
工藤 拓 氏(奈良先端大→Google) 形態素解析は MeCab が担当 unix> cabocha
私は朝の新幹線で学会の準備をしました 私は---------D 朝の-D | コーパスから
新幹線で-----D 統計的学習により
学会の-D | 抽出した規則
準備を-D しました EOS
構文解析
CaboCha による係り受け構造解析例
文節0
文節1
文節2
文節3
文節4
文節5
user> cabocha –f1
私は朝の新幹線で学会の準備をしました
* 0 5D 0/1 0.000000 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O * 1 2D 0/1 1.683670 朝 名詞,副詞可能,*,*,*,*,朝,アサ,アサ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 2 5D 0/1 0.000000 新幹線 名詞,一般,*,*,*,*,新幹線,シンカンセン,シンカンセン O で 助詞,格助詞,一般,*,*,*,で,デ,デ O * 3 4D 0/1 1.649081 学会 名詞,一般,*,*,*,*,学会,ガッカイ,ガッカイ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 4 5D 0/1 0.000000 準備 名詞,サ変接続,*,*,*,*,準備,ジュンビ,ジュンビ O を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O * 5 -1D 0/2 0.000000 し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ O まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ O た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O EOS ここまでのまとめ テキスト解析の技術
形態素解析 = 単語分割+辞書項目との対応づけ
まずい
朝食
を
食べ
させ
た
られ
一般名詞 格助詞 動詞語幹 助動詞 助動詞
形容詞
「まずい」 「ちょうしょく」「を」
「たべる」 「させ」 「られ」
〈tasteless〉 〈breakfast〉 〈OBJ〉 下一連用形 連用形 連用形
〈eat〉
〈CAUSE〉〈PASSIVE〉
助動詞
「た」
終止形
〈PAST〉
構文解析 = 文節間の〈係り受け〉の解析
私は 朝の 新幹線で 学会の 準備を しました
MeCab / CaboCha のような解析ツールを活用!
文字の統計学
文字はいくつあるか?
英語: アルファベット ・・・ 26字
日本語:ひらがな ・・・ 46字,48字(∋ゐ・ゑ),73字(が・ざ・だ・ば・ぱ)
カタカナ ・・・ 46字,48字(∋ヰ・ヱ),73字(ガ・ザ・ダ・バ・パ)
漢字 ・・・・・・ 教育漢字(1,006字) ⊂ 常用漢字(1,945字)
⊂ JIS X 0208 第1(2,965字)+第2(3,390字)
⊂ 諸橋轍次「大漢和辞典」(約50,000字)
(1955~1960) 韓国語:ハングルは理論上 11,172字
KSC5601のハングル(2,350字)で日常の99%以上
(1986~1990)
中国語:簡体字(电气)は 2,235字.「漢語大字典」(約56,000字)
GB2312-80 = 第1(3,755字)+第2(3,008字)
歴史を遡れば「康熙字典」(1716年;約49,000字)
文字と単語の統計学
単語(語彙)はいくつある?
日本語:「日本国語大辞典」(小学館),約 450,000語
英語: 「Oxford English Dictionary」,約 616,500語 中国語:「漢語大詞典」,約 370,000語
日常的な単語(語彙)はいくつある?
国立国語研究所「現代雑誌九十種の用語用字」
異なり単語は 39,930個 (のべ438,000語の調査から) (頻度1が 45.2%,頻度2が 16.5%)
日常的には比較的少数(数万語)の語彙で十分
文字と単語の統計学
単語(語彙)はいくつ使われているか
英語(LOBコーパス)
総語数(トークン数):
1,006,815
総語彙数(タイプ数): 47,888
カバー率(%)
100
語彙数とカバー率
80
60
2000語⇒78%
5000語⇒88%
40
20
日英仏の比較
0
0
2000 4000 6000 8000 語彙数
1000語
2000語
3000語
4000語
5000語
日本語
60.5%
70.0%
75.3%
N/A
81.7%
英語
80.5%
86.6%
90.0%
92.2%
93.5%
フランス語 83.5%
89.4%
92.8%
94.7%
96.0%
日本語は国立国語研究所「現代雑誌九十種の用語用字」による.
英語・フランス語はモスクワ国立言語研究所の調査による.
前回の積み残し
言語について
文字と単語の統計学
テキストの統計解析は「強力な分析ツール」
アンケートの自由記述
会話や独り言の書き起こし 単語の使用頻度など
字幕放送・・・
単語 w の「目立ち度」
ft(w) ・・・ 当該文書 t における単語 w の相対出現頻度
fc(w) ・・・ コーパス c における単語 w の相対出現頻度
コーパス全体
某大学パンフレット
「入試」の出現頻度
0.1%
「入試」の出現頻度
1.0%
1.0
= 10.0
0.1
「説明」の出現頻度
0.5%
「説明」の出現頻度
1.0%
1.0
= 2.0
0.5
テキストの統計解析は「強力な分析ツール」
文書群における単語 w の「目立ち度」 tf・idf
tf(w)・idf(w)
tf(w) ・・・ 当該テキストにおける単語 w の相対出現頻度
idf(w) ・・・ log |c| ・・・ コーパス c における文書総数
Fc(w) ・・・ c における w を含む文書の数
大学
入試
ー
ー
ー
入試
ー
ー
ー
入試
idf(大学) = log(8/2) = log(4) = 0.6020
idf(入試) = log(8/4) = log(2) = 0.3010
ー
ー
大学
ー
ー
入試
コーパス上の一部の文書に
偏って出現する単語は
目立っている
文字と単語の統計学
単語(語彙)はいくつ使われているか
Zipf の法則 = 「頻度順位×出現確率 ≒ 一定」という経験則
ジップ
the
of
and
to
a
1
2
3
4
5
×
×
×
×
×
0.06887
0.03584
0.02840
0.02574
0.02300
=
=
=
=
=
0.06887
0.07168
0.08520
0.10294
0.11500
he
10 × 0.00939 = 0.09390
I
20 × 0.00510 = 0.10200
if
50 × 0.00216 = 0.10800
down 100 × 0.00088 = 0.08800
took 200 × 0.00042 = 0.08400
finally 500 × 0.00019 = 0.09500
current 1000 × 0.00010 = 0.10000
Brown
Corpus
(100万語)
で計算
文字と単語の統計学
単語(語彙)はいくつ使われているか
Zipf の法則 = 「頻度順位×出現確率 ≒ 一定」という経験則
the
of
and
to
a
1
2
3
4
5
×
×
×
×
×
0.06887
0.03584
0.02840
0.02574
0.02300
=
=
=
=
=
0.06887
0.07168
0.08520
0.10294
0.11500
he
I
if
down
took
finally
current
10 × 0.00939 = 0.09390
20 × 0.00510 = 0.10200
50 × 0.00216 = 0.10800
100 × 0.00088 = 0.08800
200 × 0.00042 = 0.08400
500 × 0.00019 = 0.09500
1K × 0.00010 = 0.10000
log(出現確率)
ジップ
log(頻度順位)
Zipf の法則は多方面に当てはまる (らしい)
ウェブページのアクセス数/リンク数,都市の人口, 商品の売り上げ,日本人の苗字,などなど.
佐藤,鈴木,田中,高橋,渡辺,伊藤,・・・
今回のテーマ(1)
デジタルサイネージ
デジタル サイネージ
ブレードランナー(1982)
(未来のロサンゼルス)
たくさんのスクリーンに
「広告」が映し出され
その中を自家用車(浮揚)
が行き来する
なぜか「強力わかもと」
なぜか芸者さん
(歌舞伎町がモチーフ)
デジタル サイネージ とは何か
デジタル サイネージ
デジタル サイネージ とは何か
渋谷デジタル花火大会
デジタル サイネージ とは何か
Digital Signage,デジタル看板,情報技術を使った電子看板,…
Wikipedia: 表示と通信にデジタル技術を活用して
(平面)ディスプレイやプロジェクタなどによって
映像や情報を表示する広告媒体
タイプ1: 情報垂れ流し型
タイプ2: 情報端末型
タイプ3: インタラクティブ型
視聴者をセンス
(画面タッチ,
位置の推定,
性別・年齢の推定)
デジタル サイネージ とは何か
Digital Signage,デジタル看板,情報技術を使った電子看板,…
Wikipedia: 表示と通信にデジタル技術を活用して
(平面)ディスプレイやプロジェクタなどによって
映像や情報を表示する広告媒体
タイプ1: 情報垂れ流し型
タイプ2: 情報端末型
タイプ3: インタラクティブ型
視聴者をセンス
(画面タッチ,
位置の推定,
性別・年齢の推定)
デジタル サイネージ とは何か
Digital Signage,デジタル看板,情報技術を使った電子看板,…
Wikipedia: 表示と通信にデジタル技術を活用して
(平面)ディスプレイやプロジェクタなどによって
映像や情報を表示する広告媒体
タイプ1: 情報垂れ流し型
タイプ2: 情報端末型
タイプ3: インタラクティブ型
視聴者をセンス
(画面タッチ,
位置の推定,
性別・年齢の推定)
デジタル サイネージ とは何か
マスコミ広告との違い
▶ 訴求対象
不特定多数を訴求対象とするのではなく
設置場所(発信形態)によってセグメント化された
訴求対象にピンポイントで情報を提供できる.
▶ インタラクティブ性
送り手→受け手という一方向的な情報伝達だけでなく
受け手からのアクション(リアクション)を認識し
それに応じてコンテンツを選択・変更できる.
ただし一方向的なサイネージもある.
デジタル サイネージ
タイプ1: 情報垂れ流し型
テレビCMと同じ
(ただしローカル化)
見ていて楽しい・美しい
デジタル サイネージ
タイプ1: 情報垂れ流し型 ・・・ 駅の通路に連動する画面群
地下鉄駅
デジタル サイネージ
タイプ1: 情報垂れ流し型
テレビCMと同じ (ただしローカル化)
地下街・地下通路などでの活用例が多い
(視認性,動線と商業施設の繋がり,
支柱の周囲の活用)
地下街
病院の待合室
デジタル サイネージ
タイプ1: 情報垂れ流し型
テレビCMと同じ (ただしローカル化)
スキマ時間に入り込む!
(交通機関での活用例が多い)
トレイン チャンネル
バス チャンネル
ホームでの待ち時間に・・・
デジタル サイネージ
タイプ2: 情報端末型
検索端末(役所など)
パッシブに情報提供
ユーザのアクション >>> 応答
駅のコンコース
ぐるなび情報
商品検索
役所・商業施設
での情報検索
(絶滅危惧種)
デジタル サイネージ
タイプ2: 情報端末型
いつもは垂れ流し
ユーザが来たら検索
欠点:検索の様子が丸見え
ホテルのロビー
イベント情報・レストラン情報
不動産・アパマン情報
デジタル サイネージ
閉じた空間 and 少人数では
お客さんが「オン/オフ」を制御できる
サイネージは
それを見る人の
心の中に,土足で
上がり込んでいく
広告に対する選択は
視聴者の権利
デジタル サイネージ
タイプ3: インタラクティブ型
視聴者をセンス
(画面タッチ,
人の位置の推定,
性別・年齢の推定)
目的遂行型
行きたい所を
検索する
目的探索型
美味しそうな店,
面白い場所を
探索する
デジタル サイネージ (歩行者感応型) 気づきを生みだす
デジタル サイネージ (歩行者感応型) 気づきを生みだす
デジタル サイネージ (歩行者落書型)
顔認識→落書きをサイネージに表示
・・・ 携帯で撮影してもらう(広告メッセージの拡散)
デジタル サイネージ (歩行者感応型) メディアアート系
デジタル サイネージ (歩行者感応型) メディアアート系
床反力センサ
デジタル サイネージ のための技術
ヒトの振る舞いを直接センシングする
位置・速度: 床センサ
位置・動き: 赤外線(焦電センサ)
位置・向き・動作: カメラ,Kinect 等
焦電センサと応用品
トイレにあるアレです
デジタル サイネージ のための技術
焦電センサ
1個 500円!
組込みコンピュータに直結し
PC で読み取り
熱源(赤外線源)の変化を
感知する
今日のテーマ(2)
カイネマティック サイネージ
物理的な動きを伴うサイネージ 3次元? デジタル サイネージ 水を使ったメディアアート系
3次元 デジタル サイネージ というか「アート」です
Zoetrope というもの Zingy は Keepon の「弟」です
Zoetrope というもの どうやって Zoetrope を作るのか
デジタルサイネージ 次回の授業でやります
デジタルサイネージ技術を使って
どのような面白い/新しい広告ができるだろうか?
学籍番号 氏名 数行程度で自分の考えを書いてください.
図(絵)を使ってもよいです.
次回は 7月 7日
以上です
授業で使ったスライドは
h"p://www.myu.ac.jp/~xkozima/course/in-­‐itnet.html からダウンロード(PDF)できます