雑誌論文における主題検索

雑誌論文における主題検索
-特に日本語データベースにおける問題点について-
(財)国際医学情報センター
情報調査開発部 開発課 竹内貴広
[email protected]
雑誌論文の特徴
 データベース上の情報量の問題
 言語的な問題
 検索システムの処理上の問題
 無作為化比較試験の例
 まとめ

雑誌論文の特徴

学術図書(単行本)


1冊を通してまとまった情報を提供
→冊子単位での情報要求が強い
雑誌論文


論文ごとにつながりがない場合が多い
→論文単位での情報要求が強い
様々な角度から利用される潜在性
例)医学分野からの利用、薬学分野からの利用
データベース上の情報量の問題

1論文に付与されるデータ量
より限られた主題のみが選択されている
(データベース上にない情報は検索できない)
タイトル
タイトル
抄録
抄録
索引語
本文
データベース
上に無い情報
言語的な問題

呼称の多様性

表記の多様性(文字種の多様性)

外来語の扱い
呼称の多様性

英語でも・・・
癌 → neoplasm, cancer, carcinoma, ...
化学放射線療法、放射線化学治療、化学療
法併用定位放射線・・・
 高脂血症、高脂質血症、脂肪血症 ・・・
 肝癌、肝臓癌、肝細胞癌、ヘパトーマ、ヘパ
トーム、HCC・・・

表記の多様性(文字種の多様性)

英語でも・・・
アメリカ:hemorrhage, イギリス:haemorrhage

漢字、カタカナ、ひらがな、アルファベット、
アラビア数字、ギリシャ数字
例) 癌 ・ ガン ・ がん
1 ・ 一 ・ I
外来語の扱い

アルファベットで表記(まだ翻訳後が確定し
ていない言葉や省略形での定着など)

翻訳された場合の表記のぶれ

カタカナ表記の場合の表記のぶれ
アルファベットで表記
人名などが入るものや固有名詞

Stevens-Johnson Syndrome
→ スティーブンズ-ジョンソン症候群
→ Stevens-Johnson症候群

Parkinson‘s Disease
→ パーキンソン病
→ Parkinson病

Helicobacter pylori
→ ヘリコバクターピロリ
→ H. pylori
アルファベットで表記
省略形での定着

acquired immunodeficiency syndrome
→ AIDS(後天性免疫不全症候群、エイズ)

methicillin-resistant Staphylococcus aureus
→ MRSA(メチシリン耐性黄色ブドウ球菌)

percutaneous transluminal coronary intervention
→ PTCA(経皮的冠動脈形成術)
アルファベットで表記
適切な翻訳語がない、またはまだ決まって
いないもの

国内では稀で、英語名のみしかない疾患など

適切な翻訳語がない場合やアルファベット表記
のまま定着
in vitro、 in vivo
functional dyspepsia(機能性消化不良)
翻訳された場合
Cibophobia
→ 拒食症、嫌食症、食物恐怖症
※ 神経性食欲不振、神経因性食思不振 ・・・
Posttraumatic Stress Disorder
→ PTSD
→ 心的外傷後ストレス(性)障害
→ 心的外傷性ストレス(性)障害
→ 外傷後ストレス(性)障害
→ 外傷性ストレス(性)障害
カタカナ表記の場合
スルフォニルウレア剤の場合
スルフォニルウレア スルフォニールウレア
スルホニルウレア
スルホニールウレア
スルフォニル・ウレア スルフォニール・ウレア
スルホニル・ウレア
スルフォニル尿素
sulfonylurea
SU (SU薬、SU剤)
スルホニール・ウレア
※ その他、sulphonylurea(スペルミス)、語尾の
「~薬」、
「~系薬~」、「~剤」、スルフォニル
ウレア系薬剤の一般名、商品名、治験番号も考
慮に入れる
PGE1の場合(1)
PGE1→PG△E1、PGE△1 の2箇所で切れる事を考慮し・・・
PG → プロスタグランジン
E1 → E1
プロスタグランディン
EI
prostaglandin
E-1
PG
E-I
E△1
E△I
PGE1の場合(2)
PGE-1, PGE△1の表記を考慮
PG-E1, PG△E1の表記を考慮
S PGE1? OR PGE!1? OR PG!E1? OR PGEI OR PGE!I OR
PG!EI OR PG (1W) (E1? OR EI OR E (1w)( 1 OR I ) OR
E-1? OR E 1? OR E-I OR E I)
さらに「PG」がプロスタグランジン、プロスタグランディン、prostaglandin
の表記の場合の式も作る必要がある。更に、PGE1製剤の場合は、PGE1
の前に「リポ」、「LIPO」を入れた場合、また製品名、治験番号も考慮する。
言語的な問題



呼称の多様性
表記の多様性(文字種の多様性)
 漢字、カタカナ、ひらがな、アルファベット、 アラ
ビア数字、ギリシャ数字
外来語の扱い
 アルファベットで表記(まだ翻訳後が確定してい
ない言葉や省略形での定着)
 翻訳された場合
 カタカナ表記の場合
検索システムの処理上の問題
タイトル、抄録部分の日本語処理方法
・ JMEDPlusの場合
→ 切り出し処理
※ タイトルのみ文字列検索が可能
・ 医中誌Webの場合
→ 文字列検索
JOISの切り出し処理

切り出し処理とは?
英語の場合:
例) The△use△of△contrast△agent△for△
magnetic△resonance ...
日本語の場合:
例)食道悪性疾患に対する食道ステントの功
罪・・・
※ 切り出し処理では分かち書き処理→切断処理→不要語除去処理を行い、索引語
を切り出している。(詳細はデータベース活用ガイド(基礎編)JMEDPlusファイル
p.32を参照)文章がどのように切り出されるかは、JSTから公開されている
“\cut” (http://jois.jst.go.jp/jois/cgi-bin/JX0S2000.cgi)で確認できる。
食道悪性疾患に対する食道ステントの功罪
↑
↑
↑ ↑↑
↑
↑
↑ ↑
切り出し処理
食道
悪性
疾患 対 食道 ステント 功罪
(食道悪性) (悪性疾患)
(食道ステント)
切り出し処理時の問題点

切り出し処理時の問題

不適切な切断
 JIS第二水準の漢字→ひらがな表記
膵 : すい
「すい管閉塞やすい炎の合併例で・・・」
→「すい管」「閉塞」「すい管閉塞」「炎」「合併」
譫妄:せん妄
「幻覚かせん妄を来した場合・・・」
→「幻覚かせん妄」「来」
嘔気:おう気
「副作用はおう気やおう吐がみられたが・・・」
→「副作用」「はおう気」「やおう吐」
吸入ステロイド:吸入(W)ステロイド
ステロイド(W)吸入
※ 吸入(W)ステロイド、ステロイド(W)吸入~では
0件になる。
L1
0 SEA 吸入(W)ステロイド?
L2
0 SEA ステロイド(W)吸入?
L3
1553 SEA 吸入ステロイド?
L4
279 SEA 吸入ステロイド?/ST
L5
244 SEA ステロイド吸入?
L6
23 SEA ステロイド吸入?/ST
※ ST=準ディスクリプタ(切り出しの処理がス
ペースのみで行われているフィールド)
依頼内容:H.pylori再除菌でファロペネムとミノマイシンを併用している
報告、雑誌「胃と腸」
L1
L2
L3
L4
ネ・・・
L5
イ・・・
L6
L7
L8
L9
L10
L11
L12
L13
L14
L15
L16
L17
4122
145
2
396
4187
29
0
0
14948
0
0
2
11
10
10
7
2
SEA 胃と腸/SO
SEA 再除菌? OR 二次除菌? OR REERADICAT? ・・・
SEA L1 AND L2
SEA FRM OR FAROM OR FAROPENEM? OR ファロペ
SEA MINO OR MINOMY? OR MINOCYC? OR ミノマ
SEA L4 AND L5
SEA L1 AND L6
SEA L2 AND L6
SEA HELICO? OR PYLORI? OR ヘリコバ? OR ピロリ?
SEA L6 AND L9
SEA L1 AND (L4 OR L5)
SEA L3 AND L9
SEA L2 AND (L4 OR L5)
SEA L13 AND L9
SEA L14 NOT L12
SEA (二次 OR 再)/TIS AND L15
SEA (FRP OR MINO OR ペネム OR ミノ)/TIS AND L16
D L12 ALL 1-2
D L17 ALL 1-2
不要語になっているため検索時に困る場合








「見落とし」と「見落し」
腸管外合併症、腸管内合併症と、腸管合併症
軽度認知障害、軽度認知機能障害
不良肉芽、予後不良
後方侵入椎体間固定術
薬物動態
産後、出産後、娩出後 (「手術後」はOK)
第8脳神経
L1
2 SEA 不良肉芽?
L2
6 SEA 不良肉芽/TIS
L3
2 SEA 不良肉芽?/ST
L4
0 SEA L1 NOT L3
L5
L6
「不良肉芽」は医中誌Web全年代で82
件ヒット(2004年9月1日更新データ)
53 SEA 軽度認知障害?
0 SEA 軽度(1W)(認知?(1W)障害? OR 認知障害? OR 認知機能障害? OR
認知機能?(1W)障害?) OR 軽度認知?(1W)(機能障害? OR 障害?)
L7
23 SEA 軽度認知機能障害?
L8
15 SEA 軽度認知機能障害/TIS
L9
23 SEA 軽度認知機能障害?/ST
L10
53 SEA 軽度認知障害?/ST
L11
135 SEA MCI AND (認知障害? OR 認知機能障害? OR 認知?(1W)(障害? OR
機能障害?)) OR MILD?(1W)COGNITIVE?(1W)IMPAIRMENT?
=> S 軽度(1W)(認知?(1W)障害? OR 認知障害? OR 認知機能障害? OR 認知機能?(1W)障害?
) OR 軽度認知?(1W)(機能障害? OR 障害?)
0 軽度
41154 認知?
解答結果が0件の場合は注意が必要
507528 障害?
30693 認知障害?
58 認知機能障害?
2228 認知機能?
507528 障害?
0 軽度(1W)(認知?(1W)障害? OR 認知障害? OR 認知機能障害? OR 認知機
能?(1W)障害?)
78 軽度認知?
43678 機能障害?
507528 障害?
0 軽度認知?(1W)(機能障害? OR 障害?)
L6
0 軽度(1W)(認知?(1W)障害? OR 認知障害? OR 認知機能障害? OR 認知機
能?(1W)障害?) OR 軽度認知?(1W)(機能障害? OR 障害?)
解答結果が0件でなくても注意が必要
=> s 娩出後
L1
0 娩出後
=> s 娩出後?
L2
2 娩出後?
=> s 娩出後?/st
L3
0 娩出後?/ST
=> s 娩出
L4
710 娩出
=> d l2 ti ab 1-2
L1
243 SEA 薬物動態
L2
243 SEA 薬物動態/ST
L3
0 SEA L1 NOT L2
L4
2005 SEA 薬物動態?
L5
334 SEA 薬物動態?/ST
L6
1802 SEA 薬物?(1W)動態?
E 薬物動態
=> E 薬物動態
E#
FREQUENCY
AT
TERM
--
---------
--
----
E1
1
薬物動学/AL
E2
1
薬物動学的/AL
E3
243
E4
1
薬物動態10件/AL
E5
1
薬物動態MTX/AL
E6
1
薬物動態から/AL
E7
1
薬物動態のパラメ-タ/AL
--> 薬物動態/AL
E8
1
薬物動態グラフィックデ-タ読み取りソフト/AL
E9
1
薬物動態グラフ読み取りVISUAL/AL
E10
1
薬物動態ゲノミクス/AL
E11
2
薬物動態システム/AL
E12
1
薬物動態システム法/AL
=> E
E13
12
薬物動態シミュレ-ション/AL
E14
1
薬物動態シミュレ-ションソフト/AL
E15
1
薬物動態シミュレ-ションプログラムPKPARA/AL
E16
2
薬物動態シュミレ-ションプログラム/AL
E17
1
薬物動態シュミレ-ションプログラムCLIN/AL
E18
16
薬物動態ゼミナ-ル/AL
E19
16
薬物動態デ-タ/AL
E20
1
薬物動態デ-タ解析/AL
E21
206
薬物動態パラメ-タ/AL
E22
45
薬物動態パラメ-タ-/AL
E23
1
薬物動態パラメ-タ-CMAX/AL
E24
4
薬物動態パラメ-タ-値/AL
E25
1
薬物動態パラメ-タ予測/AL
E26
2
薬物動態パラメ-タ値/AL
E27
1
薬物動態パラメ-タ共変量/AL
E28
3
薬物動態パラメ-タ報告値/AL
E29
1
薬物動態パラメ-タ類/AL
E30
1
薬物動態パラロ-タ報告値/AL
E31
2
薬物動態プロファイル/AL
E32
4
薬物動態プロフィ-ル/AL
E33
2
薬物動態プロフィル/AL
E34
1
薬物動態モ-メント解析/AL
=> E
E35
1
薬物動態モ-メント解析プログラム/AL
E36
2
薬物動態モデリング/AL
=> E
E37
66
薬物動態モデル/AL
E38
2
薬物動態モデル3種/AL
E39
2
薬物動態モデル4種/AL
E40
1
薬物動態モデル化/AL
E41
1
薬物動態モデル式/AL
E42
1
薬物動態モデル系/AL
E43
1
薬物動態モデル解析/AL
E44
6
薬物動態モニタリング/AL
E45
1
薬物動態モニタリング臨床/AL
E46
1
薬物動態リズム/AL
E47
2
薬物動態レベル/AL
E48
1
薬物動態中心/AL
=> E
E49
5
薬物動態予測/AL
E50
1
薬物動態予測プログラム/AL
E51
1
薬物動態予測作業/AL
E52
5
薬物動態修飾化学療法/AL
E53
102
E54
1
薬物動態全般/AL
E55
6
薬物動態分析/AL
E56
1
薬物動態別/AL
E57
5
薬物動態制御/AL
E58
3
薬物動態制御因子/AL
E59
1
薬物動態制御法/AL
E60
1
薬物動態制御遺伝子/AL
E61
1
薬物動態制御遺伝子多型診断/AL
E62
2
薬物動態力学/AL
薬物動態値/AL
=> E

℃
特集
安易
可能
過去
介在
解消
解答
解放
獲得
確実
確証
確信
急激
急増
不要語になっている言葉
強調
近辺
近傍
経緯
軽減
軽視
軽度
激減
結論
健全度
検討
現実
現存
後
後方(前方はOK)
工夫
今日的
削減
削除
昨年
残部
指定
時期
主体
主要
証拠
上端
場所
常
状態
新旧
新種
新鮮
制限
前
全体
全部
多施設
多量
対照
中止
追加
停滞
動態
背後
背面
微弱
必須
不快
不自然
不良
部分的
補充
本格的
密接
密着
無視
明白
由来
容易
・・・など、他多数
検索システムの処理上の問題

医中誌Webの文字列検索

文字列検索とは?
検索語として指定した文字列がデータ中にあれば、全てヒットする。
(部分一致検索、全文検索などとも言う。)
例)検索語:「見落とし」
「超音波とマンモグラフィでは指摘できる癌が異なっており,超音
波とマンモグラフィの併用が見落としのない乳がん検診と考えら
れた.しかし,超音波乳がん検診の検査時間は約5分であり・・・」
※「見落とし/AL」は医中誌Web全年代(2004年9月1日更新データ)で、
578件ヒットする。
検索システムの処理上の問題

医中誌Webの文字列検索

文字列検索の問題点
1. 近接演算ができない
文字列検索では文章を1文字ずつ追っていき、単語の
切り出しを行っていない。そのため単語同士の距離をは
かる近接演算子(nW、nA など)は使用できない。
検索システムの処理上の問題

医中誌Webの文字列検索

文字列検索の問題点
2. 不要なものも拾ってくる可能性がある
文字の並びだけで判断するため、前後に不要な語句がつ
いている別の意味の言葉も拾ってしまう。
例1) Hodgkinリンパ腫/ALで検索した場合「非Hodgkinリンパ腫」
もヒットする。
例2)「AIDS」などの省略語の検索の場合、「MAIDSマウス膵病変
における・・・」「NSAIDs腸炎・・・」
例)Hodgkinリンパ腫 と 非Hodgkinリンパ腫
医中誌Web(文字列検索)の場合
「Hodgkinリンパ腫/AL」での検索は「非Hodgkinリンパ
腫」もヒットしてしまう。
Hodgkinリンパ腫
両方含むもの
非Hodgkinリンパ腫
「Hodgkinリンパ腫」の集合から「非Hodgkinリンパ
腫」集合を除くと両方含むものも除かれてしまう。
Hodgkinリンパ腫
両方含むもの
非Hodgkinリンパ腫
日本語処理方法からみる、JMEDPlusと
医中誌Webの特徴

JMEDPlusの特徴
切り出し処理
→ 切り出し語の確認が必要
→ 近接演算子が使用できる
→ タイトルのみ文字列検索が可能

医中誌Web
文字列検索
→ 前後に不要な文字が付いた言葉も拾ってしまう(省略形
の検索に向かない)
→ 近接演算ができない
→ 副標目がある
無作為化比較試験の例
-数々の問題点を多く含む顕著な例として-
概念自体の問題
 著者側の問題
 索引側の問題
 表記の問題

概念自体の問題

概念自体が複雑である、または一般
に周知されていない
RCTの概念
前向き試験(PROSPECTIVEであること)
 ヒトに介入している群間臨床試験
 比較している対照が同じ条件である
 無作為割付である(無作為抽出ではダメ)
 無作為化の方法(封筒法、くじ引き、コイン投
げなどの方法はRCTではない。)

著者側の問題

著者はRCTを正しく理解しているの
か?
 EBMが盛んになる前の論文では、果たして
著者は現在と同じ概念で「RCT」を使用し
ていたか?
 現在もランダム化の方法について記載が
ない論文もある。(無作為に・・・と述
べても、実際どのような方法で無作為化
を行っているかはわからない。)
索引側の問題
索引者はきちんとRCTを理解している
か?
 各データベースは、RCTに対する判断
基準を確立しているのか?

参考文献の紹介
根本 恵他:国内の無作為化比較試験論文に対する効果的な
検索手法の検討. 薬学図書館 47(3), 275-283, 2002
表記の問題

フリータームでの検索
無作為化比較試験
無作為化~
「無作為化」を表す言葉が
ランダム化~
多様である
ランダマイ(ズド)~
ランドマイ(ズド)~
無作為割付~
二重盲検~
三重盲験~
・・・など
参考文献の紹介
宇山久美子:日本の3大データベースの特徴と検索時の問題点-特にEB
Mの観点から-. ほるぴたるらいぶらりあん, 24(3), 203-213, 1999
JMEDPlus、医中誌Webにおける無作為化比較試験
JMEDPlus


1999年より統制語に「無作為化比較試験」が追加される。
2001年レコードに対し、記事区分に「比較臨床試験(CCT)」「無作為化比
較試験(RCT)」が追加される。
医中誌Web

1999-2000年
遡って原文献を調査、「メタアナリシス」「ランダム化
比較試験」「比較臨床試験」を研究デザインとして付与

2001-2002年
JHES(日本ハンドサーチ・エレクトロニックサーチ研究
会)のデータと医中誌独自の索引により「メタアナリシ
ス」「ランダム化比較試験」「比較臨床試験」を付与

2003年~
医中誌独自により「メタアナリシス」「ランダム化比較
試験」「比較臨床試験」「比較研究」を付与
※ 原著に対してのみ付与。学会抄録には付与されていない。
JMEDPlusの記事区分「無作為化比較試験(RCT)」の内容検討
FILE 'JMEDPLUS' ENTERED AT 19:13:29 ON 27 AUG 2004
COPYRIGHT (C) 2004 Japan Science and Technology (JST)
FILE COVERS 1981.4 TO 26 Aug 2004 (20040826/UP)
FILE 'JMEDPLUS' ENTERED AT 19:13:29 ON 27 AUG 2004
L1
496 SEA RCT/DT AND PY=2003
L2
347 SEA L1 NOT D2/DT
L3
346 SEA L2 AND AB/FA
D L3 ALL 1-10
まとめ
検索者側から見た問題点
① データベース上のデータが原文の全情報を網
羅していない
② データにしたときの入力ミス、索引ミス
③ データベースのシステム的(機械的)な限界
④ 原文の表記の多様性
⑤ 著者の使用している言葉の概念が、DB作成側、
あるいは検索者と異なっている場合