2005年スプリングセミナー 自然言語処理

「茶器」によるコーパス管理・検索
準備編
松本裕治(まつもと ゆうじ)
浅原正幸(あさはら まさゆき)
概要
1. MySQL のインストール
2. テキストデータのインポート
3. ChaKi のインストール
A. 自分で作成したデータのインポート
1. MySQLのインストール
•
Administrator でもしくは「管理者権限を
持ったユーザー」でログオンする
1. MySQLのインストール
•
•
arch\mysql-4.0.25-win32.zip を展開す
る
展開された setup.exe を実行する
1. MySQLのインストール
– 以下のような画面が出てくる:
– [Next >]を選択
1. MySQLのインストール
– 以下のような画面が出てくる:
– [Next >]を選択
1. MySQLのインストール
– 以下のような画面が出てくる:
– インストール先を確認して[Next >]を選択
1. MySQLのインストール
–
以下のような画面が出てくる:
–
[Typical]をチェック[Next >]を選択
1. MySQLのインストール
–
以下のような画面が出てくる:
–
[Finish >]を選択
1. MySQLのインストール
–
C:\mysql\bin\winmysqladmin.exe を実行
–
ユーザネーム root とパスワード (本説明では
okage)を設定して[OK]
1. MySQLのインストール
– 右下の時計のところにでる信号のマー
クを右クリックして [show me] を選ぶ
1. MySQLのインストール
my.ini Setup タブをえらび以下のように追記
“default-character-set=sjis” を追記(3か所)
1. MySQLのインストール
my.ini Setup タブをえらび以下のように追記
“default-character-set=sjis” を追記(3か所)
[mysqld]
default-character-set=sjis
basedir=C:/mysql
datadir=C:/mysql/data
[WinMySQLadmin]
Server=C:/mysql/bin/mysqld-nt.exe
user=root
password=okage
[mysql]
default-character-set=sjis
[mysqldump]
default-character-set=sjis
1. MySQLのインストール
– [スタート]→[すべてのプログラム]→[アクセ
サリ]→[コマンドプロンプト]
> c:\mysql\bin\mysqladmin.exe -u root password
「パスワード」
2. テキストデータのインポート
– 配布したフォルダの中の \db 以下に4つの
データがある
•
•
•
•
hana
rashomon
kokoro
sanshiro
「鼻」芥川龍之介
「羅生門」芥川龍之介
「こころ」夏目漱石
「三四郎」夏目漱石
2. テキストデータのインポート
– 各フォルダの [DB (データベース)名].bat を
編集する
•
右クリックのあと[編集]を選ぶ
2. テキストデータのインポート
– パスワードを変更
•
•
–
“-pokage”を”-p(指定したパスワード)”(2,3行目)
“okage” を “(指定したパスワード)”(4行目)
MySQL のインストール先を確認
•
“c:\mysql\bin\mysql.exe” を変更(2,3行目)
2. テキストデータのインポート
– [DB 名].bat を実行する
– 以上の手続きをデータベースの数だけ行う
•
•
•
•
hana
rashomon
kokoro
sanshiro
「鼻」芥川龍之介
「羅生門」芥川龍之介
「こころ」夏目漱石
「三四郎」夏目漱石
3. ChaKi のインストール
•
•
(配られたフォルダ)\chaki を適当な場
所にコピーする
フォルダ chaki を開く
3. ChaKi のインストール
•
•
(配られたフォルダ)\chaki を適当な場
所にコピーする
フォルダ chaki を開く
3. ChaKi のインストール
•
hana.def, kokoro.def, rashomon.def,
sanshiro.def を編集する
3. ChaKi のインストール
• “password=okage” の “okage”を指定し
たパスワードに置き換える
•
•
以上で設定はおわ
りです
ChaKi.exe を実行
すると「茶器」が立ち
上がります
A. 自分で作成したデータのインポート
1. 1文1行となったテキストを準備する
2. 「茶筌」もしくは「南瓜」により解析する
•
「茶筌」で解析した場合、文節情報および係
り受け情報を用いた検索はできません
3. 解析済みテキストを (配布したフォルダ)
\sample 以下に置く
A. 自分で作成したデータのインポート
4. mkdb.sql を編集
• “sample” をDB名に
A. 自分で作成したデータのインポート
5. sample.bat を編集
• “sample.cabocha.txt” を[解析済みファイル
名]に
• “sample” をDB名に
• “okage” を設定したパスワードに
A. 自分で作成したデータのインポート
6. sample.bat を実行
A. 自分で作成したデータのインポート
7. sample.def を[DB名].def に変更し編集
• “sample” をDB名に
• “okage” を設定したパスワードに