大規模仏教文献群に対する 確率統計的分析の試み

大規模データベースの使い方
師 茂樹(花園大学)
2004/12/04
漢籍の情報化−これからの出版文化−
1
大規模漢籍DB
 中央研究院 漢籍データベース
– 3億字(さらに増加中)
 『四庫全書』
– 7億字
 『中国基本古籍庫』
– 20億字
2004/12/04
漢籍の情報化−これからの出版文化−
2
大規模DBの問題 (1)
 仮説形成の困難さ
– 検索ができない!
 マクロな視点
– 「火事になったら勉強できないような学者なの
か」(司馬遼太郎『対談集九つの問答』朝日文芸文庫、1997)
2004/12/04
漢籍の情報化−これからの出版文化−
3
大規模DBの問題 (2)
 情報量の貧しさ
– 文字コードの貧困さ
– マークアップが必要?
 細かいマークアップは無理
– 量の問題
– 概念の問題
2004/12/04
漢籍の情報化−これからの出版文化−
4
大規模DBからの知識の獲得
 仮説形成
– 大まかな知識獲得
 検証が必要
– 先入見の相対化・対象化
– これまでにない問題意識、分析手段の喚起
 方法
– データ(テキスト)マイニング
– 視覚化
2004/12/04
漢籍の情報化−これからの出版文化−
5
確率モデルによる仮説形成
 実例
– 師茂樹「大規模仏教文献群に対する確率統計的
分析の試み」(京大人文研創立75周年記念シンポジウム、
2004/11/21、京大百周年時計臺記念館國際交流ホール)
 全玄奘訳をN-gram+クラスタ分析で分類
2004/12/04
漢籍の情報化−これからの出版文化−
6
実例(続き)
樹状図 74 変数
ウォード法
ユークリッド距離
T0124
T1612
T0515
T1615
T0592
T0717
T0251
T1601
T1603
T1034
T1570
T2138
T1624
T1586
T1614
T1590
T1609
T0648
T1580
T1560
T0840
T2030
T2031
T0680
T0714
T1628
T1630
T1499
T1501
T0289
T0367
T0450
T0691
T0390
T0436
T1071
T1094
T0918
T1360
T1162
T1363
T1395
T1365
T0220
T0411
T0310
T0476
T1530
T1571
T0676
T0765
T1600
T1578
T1540
T1554
T1555
T0689
T1545
T1558
T1562
T1563
T1544
T1585
T1536
T1537
T1579
T1602
T1605
T1606
T1539
T1542
T1594
T1597
T1598
1a
因明論書
大乗経典
菩薩戒本
密教経典
1b
1c
密教経典
大乗経論
阿毘達磨
甚希有経
阿毘達磨
対法論系
1d
1e
2a
摂大乗論
2b
2c
0
2004/12/04
50
100
150
200
250
漢籍の情報化−これからの出版文化−
結合距離
300
350
7
400
視覚化
 実例
– 師茂樹「NGSM結果のばねモデルによる視覚
化」(『漢字文献情報処理研究』5, 2004)
2004/12/04
漢籍の情報化−これからの出版文化−
8
豊かなテキストへ
 CHISEプロジェクト
2004/12/04
漢籍の情報化−これからの出版文化−
9
大規模DBの問題 (3)
 不自由なデータ
– お仕着せの検索のみ
– 自由に加工、分析ができない
2004/12/04
漢籍の情報化−これからの出版文化−
10
課題
 仮説形成技術
 「豊かなテキスト」処理技術
 自由なデータ
2004/12/04
漢籍の情報化−これからの出版文化−
11