大規模データベースの使い方 師 茂樹(花園大学) 2004/12/04 漢籍の情報化−これからの出版文化− 1 大規模漢籍DB 中央研究院 漢籍データベース – 3億字(さらに増加中) 『四庫全書』 – 7億字 『中国基本古籍庫』 – 20億字 2004/12/04 漢籍の情報化−これからの出版文化− 2 大規模DBの問題 (1) 仮説形成の困難さ – 検索ができない! マクロな視点 – 「火事になったら勉強できないような学者なの か」(司馬遼太郎『対談集九つの問答』朝日文芸文庫、1997) 2004/12/04 漢籍の情報化−これからの出版文化− 3 大規模DBの問題 (2) 情報量の貧しさ – 文字コードの貧困さ – マークアップが必要? 細かいマークアップは無理 – 量の問題 – 概念の問題 2004/12/04 漢籍の情報化−これからの出版文化− 4 大規模DBからの知識の獲得 仮説形成 – 大まかな知識獲得 検証が必要 – 先入見の相対化・対象化 – これまでにない問題意識、分析手段の喚起 方法 – データ(テキスト)マイニング – 視覚化 2004/12/04 漢籍の情報化−これからの出版文化− 5 確率モデルによる仮説形成 実例 – 師茂樹「大規模仏教文献群に対する確率統計的 分析の試み」(京大人文研創立75周年記念シンポジウム、 2004/11/21、京大百周年時計臺記念館國際交流ホール) 全玄奘訳をN-gram+クラスタ分析で分類 2004/12/04 漢籍の情報化−これからの出版文化− 6 実例(続き) 樹状図 74 変数 ウォード法 ユークリッド距離 T0124 T1612 T0515 T1615 T0592 T0717 T0251 T1601 T1603 T1034 T1570 T2138 T1624 T1586 T1614 T1590 T1609 T0648 T1580 T1560 T0840 T2030 T2031 T0680 T0714 T1628 T1630 T1499 T1501 T0289 T0367 T0450 T0691 T0390 T0436 T1071 T1094 T0918 T1360 T1162 T1363 T1395 T1365 T0220 T0411 T0310 T0476 T1530 T1571 T0676 T0765 T1600 T1578 T1540 T1554 T1555 T0689 T1545 T1558 T1562 T1563 T1544 T1585 T1536 T1537 T1579 T1602 T1605 T1606 T1539 T1542 T1594 T1597 T1598 1a 因明論書 大乗経典 菩薩戒本 密教経典 1b 1c 密教経典 大乗経論 阿毘達磨 甚希有経 阿毘達磨 対法論系 1d 1e 2a 摂大乗論 2b 2c 0 2004/12/04 50 100 150 200 250 漢籍の情報化−これからの出版文化− 結合距離 300 350 7 400 視覚化 実例 – 師茂樹「NGSM結果のばねモデルによる視覚 化」(『漢字文献情報処理研究』5, 2004) 2004/12/04 漢籍の情報化−これからの出版文化− 8 豊かなテキストへ CHISEプロジェクト 2004/12/04 漢籍の情報化−これからの出版文化− 9 大規模DBの問題 (3) 不自由なデータ – お仕着せの検索のみ – 自由に加工、分析ができない 2004/12/04 漢籍の情報化−これからの出版文化− 10 課題 仮説形成技術 「豊かなテキスト」処理技術 自由なデータ 2004/12/04 漢籍の情報化−これからの出版文化− 11
© Copyright 2025 ExpyDoc