PowerPoint 프레젠테이션

00000
科技文献检索与利用
Character
00000
第二部分:信息检索技术
Character
及中文全文库(CNKI、维普)
信息咨询部(情报所):费盛华
E-mail:[email protected]
Phone:021-65982423
课程安排

为什么还要进行数据库检索?
----搜索引擎检索与数据库检索的区别(布尔逻辑算符、字段)

专业搜索达人基础技能
----截词符、位置算符
 “达人”评价标准
----查全率、查准率及其影响因素
 从最常用的中文全文库开始练习
---- 《中国期刊全文数据库》(CNKI)
《中文科技期刊数据库》(维普)
2
搜索引擎检索与数据库检索的区别
1.搜索引擎:
 定义:搜索引擎(Search Engines)是一个对互联网上的信息资源进行
搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查
询三部分。
搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网
上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。
 检索优点:任何内容,检索简单
 检索缺点:检全率高,检准率低,结果数量大,学术文献量少且无法获
取全文(免费文献除外)
3
百度的资源及检索
4
的资源及检索
5
搜索引擎检索与数据库检索的区别
2.数据库:
 定义:数据库是存储在一起的相关数据的集合,这些数据是结构化
的,无有 害的或不必要的冗余,并为多种应用服务;数据的存储
独立于使用它的程序;对数据库插入新数据,修改和检索原有数据
均能按一种公用的和可控制的方式进行。( J.Martin)
 检索:布尔逻辑检索
字段检索
 检索优点:检准率高、具有针对性、学校资源提供大量的学术文献
(可获取全文、文摘等)、检索方法多种
 检索缺点:每个数据库相对独立、只能检索数据库限定的内容、检
索相对复杂
6
搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
1)布尔逻辑检索(Bool Logical Operators)
用布尔逻辑算符将检索词、短语或代码进行逻辑组配,
指定文献的命中条件和组配次序,凡符合逻辑组配所规定
条件的为命中文献,否则为非命中文献。
7
搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
①逻辑“与”
是检索词之间的相交关系运算。运算符号为“AND”或
“ * ”。检索式为: A AND B 或 A * B
B
A
(交集)
8
搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
②逻辑“或”(和)
是检索词之间的并列关系,用运算符号“OR”或“+”。表示
两个检索项任一项出现在一条记录中。
检索式为:A OR B 或 A + B
A
B
(并集)
9
搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
③逻辑“非”
用于在某一记录集合中排队含有某一概念的记录。运算符
号用“NOT”或“-”表示。
检索式为: A NOT B
或
A – B
B
A
(排除)
10
搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
11
搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
实例
 污水处理装置自动化控制方面的文献研究
 高层建筑结构抗震分析与设计
 公共关系在WTO中的应用
12
搜索引擎检索与数据库检索的区别2--字段检索
字段是文献著录的基本单元,反映文献的外部特征和内容特征
的每一个项目。
【中文题名】 XML语言及其应用
【英文题名】XML LANGUAGE AND ITS APPLICATION
【作
者】黄婉秋;黄筱霞;贾旭光
【作者单位】北京工商大学,计算机学院,北京,100037;北京工商大学,计算机学
院,北京,100037;北方交通大学,计算机学院,北京,100044;
【刊
名】北京工商大学学报(自然科学版)
【英文刊名】JOURNAL OF BEIJING TECHNOLOGY AND BUSINESS UNIVERSITY
(NATURAL SCIENCE EDITION)
【年 卷 期】2002 Vol.20 No.3
【关 键 词】XML; HTML; Web页面语言; 置标语言
【摘
要】简要阐述了XML语言的概念及特点,对它的语言结构进行了详细的分
析,包括DTD、XSL、 XLL三部分.并将XML和HTML进行了比较,同时也对它和数据库
之间的关系进行了描述.最后论述了XML的 发展与前景.
13
字段
14
搜索引擎检索与数据库检索的区别2--字段检索
 基本索引字段: 在数据库中把描述文章主题性质,反映文章
内容的字段称为基本索引字段。文献的标题(TI)、文摘(
AB)、主题词(DE)及关键词(KY)等属于基本索引字段
。
 辅助索引字段: 描述与主题内容无关的字段,叫做辅助索引
字段。作者(AU)、文献出处(SO)、出版年代(PY)、
语种(LA)等属于辅助索引字段,与基本索引字段配合使
用,起限定检索范围的作用。
15
检索技巧进阶之--截词检索(Truncation)
截词检索技术在计算机检索系统中的应用非常普遍,
在西文单词中经常会遇到词的不同变化,为了不漏检,可采用
截词的方法处理检索词。截词就是利用计算机检索系统提供的
截词符,保留检索词中的相同部分,允许检索词可有一定范围
内的变化,以提高文献的查全率。
16
检索技巧进阶之--截词检索(Truncation)
截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符
号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。
这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。
按 截 词 位 置 分: 有前截断、后截断、中截断;
按截词的字符数量分:有限制截断、无限截断。
表示截词的截断符号,各检索系统有不同的规定,没有统一标准。
常用的截词符有:?和*
17
1. 后截断
后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符
数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。

非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干
相同的所有词。
例: 同根词,如comput* 表示允许其后可带有任何字符且数量不限,相当
于查找compute、 computed、 computes、 computing、 computer、 computers、
computerize、computerized、computation、 computations、 computational、
computationally 等词。
例:年代,如199?(90年代)
例:作者,如用Eric* 可检出所有姓Eric的作者。
注意:不宜将词截得过短,否则容易造成误检。

限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字符数。
例:fib?? 相当于查找 fiber 或 fibre ……
educat?? 相当于Educator,educated……
18
2. 中截断 (通配符或屏蔽)
是把截断符号置于一个检索词的中间,对词中间出现变化的字符数
加以限定。一般中截断仅允许有限截断。
例:organi?ation, 可检索到包含organization和organisation的记录。
wom?n , 可检索到包含woman和women的记录
一个?代表零个或任意个字符。
例: colo?r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。
一个? 和数字,其中的数字代表可替换的字符数。
例:colo?1r, 只能检索到包含colour的记录。
19
检索技巧进阶之--位置算符
利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,
会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提
供文中自由词检索功能,也称全文检索功能 (Full text searching)。
所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检
索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进
一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND
逻辑组配产生的词义含糊或误检。
为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。
全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点:
• 规定的位置算符不同;
• 位置算符的职能和使用范围不同。
下面介绍几种数据库经常使用的位置运算符:
20
检索技巧进阶之--位置算符
1.W - With
 W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。
所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。
例: intelligent (W) robot?
 Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许
在连接的两个词之间最多插入n个单元词。
例: intelligent w1 robot*
2. N - Near
 N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入
任何其他单词或字母。但词序可以颠倒。
例: intelligent NEAR robot*
 Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。
例: intelligent N1 robot*
3. Adj - adjacency
邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其
他的词或字母。相当于短语检索。
例: intelligent adj robot*
21
构造检索提问式示例:
课题:数字化图书馆的文献检索服务
检索概念分析:
document retrieval
并列概念 document delivery
document delivery system
同义词
digital library
virtual library
electronic library
检索提问式:
(document W retrieval or document W delivery or document W delivery W
system*) and (digital W librar* or electronic W librar* or virtual W librar*)
22
检索效果评价
23
 查全率(R)=
检出相关文献量
文献库中相关文献总量
 查准率(P)=
检出相关文献量
检出文献总量
影响因素分析
 (1)影响查全率的种种因素
如:检索词是否扩大到穷尽,是否已用了所有可能的同义词和
准同义词或不同的拼法;是否合理运用了逻辑“或”;是否对课题检索
策略作了必要的扩大。
 (2)影响查准率的因素
如:是否尽量选用了专指度较高的检索词;是否采用了逻辑“与”
和逻辑“非”算符来优化检索;是否对检索课题作了范围的有效限制等
等。
24
造成漏检或误检的原因
1)课题分析不透;“学科归属”不清。
2)“语言”不通。
3)主题概念不是大了,就是小了。
4)“同义词库”不全
5)核心词太多
6)选择的检索工具专业性不够。E-journal or se
arch engine?
25
1)课题分析不透;“学科归属”不清。
 对课题的真正含义和学科归属不清楚,会造成最大的失误。
 如查找有关“玻璃钢”制造工艺方面的资料:
如果从字面含义着手,以为它属玻璃工业或金属材料的
范畴,而事实上,玻璃钢既不属硅酸盐工业里的玻璃类
,也不属金属材料里的钢铁制品,而是合成树脂与塑料
工业里的增强、填充塑料制品。
 如果没有认真分析课题的真正含义和学科归属,就匆匆着手检
索,往往会欲速不达,或多走弯路,甚至导致失败。
26
2)“语言”不通。
 基于计算机的文献检索的特点与其说是人机对话,不如说是
标引人员与检索人员的对话,只有标引人员与检索人员所表
达的“语言”一致,才能顺利实现文献检索。
 往往检索工具使用的是标引语言,而检索者使用的多数是自
由词,未经规范化,这样在表达方式上有差异,造成了检索
障碍。如:
 自由词:维生素 C (vitamin C);标引词 :抗坏血酸 (ACID,A
SCORBIC)
 自由词:艾滋病 (AIDS); 标引词:ACQUIRED IMMUNODE
FICIENCY
SYNDROME(后天免疫缺陷综合症);又如“
沙示”(SARs), 禽流感(Bird flu)…….
27
3)主题概念不是大了,就是小了。
 检索者不知道如何正确定位课题的主题概念,往往会不是大
了,就是小了,初学者更容易把概念偏大。
 主题概念的范畴太大造成大量没用的文献被误检,太小造成
重要的的文献被漏检。
 如“石油工业的废水处理”,若用“废水处理”作为主题概念,
就会太大,在《中国期刊网》中有1400多篇,如果我们知道
石油工业主要排放的是毒性较大的含酚废水,那么主题概念
定位在“含酚废水处理”就比较恰当了,此时查出的文献大概
有20~30篇。
28
4)“同义词库”不全
 往往同一件事情或事物,不同作者喜欢用不同的词来表达,这
就造成了庞大的同义词库,如果偏偏你头脑中的“同义词库”不
是那么全,造成漏见就不足为怪了。例:
 艾滋病——艾滋病、爱滋病
 碳纤维——碳纤维、炭纤维
 聚四氟乙烯——PTFE,polytetrafluoroethylene, Teflon
 设备——apparatus,equipment,device……
 汽车——car,automobile,vehicle……
29
5)核心词太多
 对于由A、B、C、D、E多个主题组合的多主题
概念课题,如果将所有主题混在一起同时组配
,会造成“零结果”现象。
 因为,只要A、B、C、D、E其中之一的检索结
果为零,则经过布尔逻辑“和”的运算,检索结
果=A*B*C*D*E =0 。
30
6)选择的检索工具专业性不够
 E-journals:
中文:中国期刊网、万方数据库系统、维普。。。。。。
英文:Elsevier……
 Search engine:
北大天网,百度,
GooGle, Yahoo! Openfind, …….
31
练习
案例一:氧化铝碳纳米管
 同义词
 常用词
 缩写词
检索式:氧化铝*(碳纳米管+碳管+纳米纤维)
案例二:耐高温粘接剂研究
检索式:高温*(粘接剂+胶粘剂+粘合剂+粘结
剂+黏合剂+胶黏剂+粘固剂+胶结剂)
32
练习
案例一:京九铁路卫运河特大桥
从结构上分析,该桥是斜拉式预应力混凝土连
续桁架桥,所以检索式为:
预应力混凝土*斜拉*桁架*连续梁
 隐含概念
案例二:唐山综合防灾研究
唐山: 城市
由于唐山是一个城市,该项目实际为“城市综
合防灾的研究”
灾害: 地震、洪水、火灾
所采用的研究手段是决策支持系统和专家系统
研究: 决策支持系统、专家系统
33
中国期刊网(CNKI)简介
中国知识基础设施工程
CNKI:China National Knowledge Infrastructure
是采用现代信息技术,建设适合于我国的可以进行
知识整合、生产、网络化传播扩散和互动式交流合
作的一种社会化知识基础设施的信息化工程。
该工程由清华大学发起,同方知网技术产业集团承担建设,被
国家科技部确定为“国家级重点新产品重中之重”项目。CNKI
工程于1995年正式成立,历经十多年,已经建成了“ CNKI 数字
图书馆”,涵盖了我国自然科学、人文与社会科学、工程技术、
期刊、博硕士论文、报纸、图书、会议论文等公共知识信息资源
。CNKI用户遍及全国和欧美、东南亚、澳洲等各个国家和地区,
实现了我国知识信息资源在互联网条件下的社会化共享与国际化
传播。目前,CNKI系列数据库已经被海内外17000多个高校、科
研、医院、企业、政府、中小学等各类机构所采用。
34

《中国学术期刊网络出版总库》收录了国内出版的6642种学术期刊,其中核心期刊、重要评价性
数据库来源期刊2460种,期刊种数完整率不低于99%;其他期刊4182种,期刊种数完整率不低于90
%。文献收录期数完整率不低于99.9%,文献篇数收录完整率不低于99.9%。是目前世界上最大的连
续动态更新的中国期刊全文数据库。

《中国博士学位论文全文数据库》收录了全国420家博士培养单位的博士学位论文,是目前国内相
关资源最完备、高质量、连续动态更新的中国博士学位论文全文数据库。

《中国优秀硕士论文全文数据库》收录了全国652家硕士培养单位的优秀硕士学位论文。是目前国
内相关资源最完备、高质量、连续动态更新的中国优秀硕士学位论文全文数据库。

《中国重要会议论文全文数据库》收录我国2000年以来国家二级以上学会、协会、科研院所、政
府举办的重要学术会议、高校重要学术会议、在国内召开的国际会议上发表的文献的论文集。

《中国重要报纸全文数据库》收录2000年以来国内公开发行的700多种重要报报纸刊载的学术性、
资料性文献,是连续动态更新的数据库。

《中国年鉴全文数据库》收录了国内中央、地方、行业和企业等各类年鉴的全文文献。是目前国
内最大的连续更新的动态年鉴资源全文数据库。内容覆盖基本国情、地理历史、政治军事外交、
法律、经济、科学技术、教育、文化体育事业、医疗卫生、社会生活、人物、统计资料、文件标
准与法律法规等各个领域。

《中国工具书网络出版总库》目前收录了近200家出版社的语言词典、专科辞典、百科全书、图鉴
(谱)年表共2000多种,以及作者直接向本网投稿的辞书约20种,词条近千万,图书70万张,向
人们提供精准、权威、可信的知识搜索服务。
35
36
37
中国学术期刊网使用方法
 CNKI检索功能
• 初级检索
• 高级检索
• 专业检索
• 跨库检索
• 单库检索
 数据库导航
• 期刊导航
• 基金导航
• 会议导航
• 报纸导航
 CNKI搜索引擎
简单易操作的检索工具,可方便地查找CNKI系列资源。
38
中国学期刊全文数据库为例
 初级检索
 问题1:
查找2005年-2008年发表在期刊《交通运输
工程学报》上的有关运输系统方面的文献.
39
选择检索项(主题),输入检索词,限定检索时间
选择检索的学科
范围:默认全选
40
初次检索结
果
41
限定期刊名,进行二次
检索
最终检索结果,可点击任何一条查看
详细信息,也可选择其中几条存盘
42
存盘方式的选择,自定义格式
可以选择自己需要的内容
43
下载全文:安装浏
览器
引文反映一篇
文章的未来发
展,及文章的
质量
44
相关文献功能条:可进行
相关研究内容跟踪
中国期刊全文库:高级检索
 高级检索:高级检索是一种比初级检索要复杂一些的检索方式。
但也可以进行简单检索。
 高级检索的功能有:
多项双词逻辑组合检索
多项是指可选择多个检索项;
双词频控制
双词是指一个检索项中可输入两个检索词(在两个输入框中输
入),每个检索项中的两个词之间可进行五种组合:并且、或
者、不包含、同句、同段, 每个检索项中的两个检索词可分
别使用词频、最近词、扩展词;
逻辑是指每一检索项之间可使用逻辑与、逻辑或、逻辑非进行
项间组合。
45
46
高级检索举例
 问题1:查找1999年以来在《图书馆杂志》上发
表的,有关机构库(机构知识库)的文章。
 问题2:查找王金荣发表在《地球科学进展》杂
志的有关“地壳早期演化”方面的文章。
47
48
中国期刊全文库——专业检索
 专业检索:
 多个检索项的检索表达式可使用“AND”、“OR”、“NOT”逻辑运算符进
行组合,逻辑关系符号前后要空一个字节;
三种逻辑运算符的优先级相同;
如要改变组合的顺序,请使用英文半角圆括号“()”将条件括起;
所有符号和英文字母(包括下表所示操作符),都必须使用英文半角字符;
字符计算:按真实字符(不按字节)计算字符数,即一个全角字符、一个
半角字符均算一个字符。
49
专业检索举例
 问题1:
假设一名结构工程的学生,想了解同济大学结
构研究方面李杰教授的研究成果,帮助课题论文的完
成,如何查找?
检索式:作者=李杰 and 机构=同济大学 and 主题=结构
 问题2
以嵌入式系统ARM平台为基础,设计了基于ARM
平台的InterBus现场总线、EPA实时以太网标准和
ZigBee无线通信系统。
检索式:主题=ARM and (主题=Interbus or 主题=EPA or 主题=ZigBee)
 在CNKI中利用专业检索
50
51
输入检索式
年代、输出、
排序等限制
检索结果
52
53
中国学术期刊网的其他功能
 1.跨库检索:就是在同一检索动作下同时检索几
个库。特点:各个库有共同的字段,比如:题名、
作者、摘要等。方便、快捷。
 2.导航:根据对资源的不同标准进行分类,逐步
推进的方式查找文献。适合对某一特定类型的资
源浏览。
 3.个性化工具:个性化定制等。
54
跨库检索
选择检索方
式
选择要检索的
数据库
55
各个库的检索
结果
56
导航
 问题:
如何查找本专业领域内的核心期刊?了解它们
的栏目设置和收录文章的内容和领域?
使用CNKI的期刊导航功能
57
导航
58
学科分
类
59
60
个性化服务:定制推送
61
总结:检索过程
 分析检索课题,找出可作为检索入口的关键词
 分析检索策略
 确定数据库和检索方式
 进入检索
62
 从上面几节内容可以发现:跨库检索与单库检索,初级检索,高级检索
和专业检索的关系如图
特例
跨库检索
初
级
检
索

63
高
级
检
索
单库检索
专
业
检
索
跨库检索与单库检索在检索项等内容的具体选项中有所不同.
维普
数据库介绍
 《中文科技期刊数据库》(全文版)是重庆维普资讯有限公司开发研制的
中文电子期刊数据库,收录了我国1989-1999年出版自然科学、工程技
术、农业科学、医药卫生、经济管理、教育科学和图书情报等学科8000
余种期刊的660余万篇文章。
 海量数据:包含了1989年至今的8000余种期刊刊载的2000余万篇文献
,并以每年180万篇的速度递增。
 覆盖范围:涵盖社会科学、自然科学、工程技术、农业、医药卫生、经
济、教育和图书情报等学科的8000余种中文期刊数据资源。
64
65
中文科技期刊数库的使用
 分类检索
 刊名检索
 初级检索、高级检索
66
67
68
中文科技期刊数库的使用
 分类浏览
 刊名检索
 初级检索、高级检索
69
70
按刊名、ISSN检索
按刊名首字母浏览
按学科分类浏览
71
中文科技期刊数库的使用
 分类浏览
 刊名检索
 快速检索、初级(传统)检索、高级检索
72
时间选择
检
索
项
选
择
73
输入检索词
时间选择
选择学科范围
74
高等教育
75
76
利用布尔逻辑、截词等技术编辑检索式
77
中文科技期刊数据库的特点
1.包括科技、科普方面的期刊
2.偏重于理工农医等科技期刊,社科类文献不全
3.回溯年代较长(89年至今),期刊总数多(8000多种)
4.存在缺期、缺刊情况
78
检索练习
 案例:唐山综合防灾研究

主要概念:
城市、地震、洪水、火灾、决策支持系统、专家系统

数据库检索结果:
在中国知网期刊库中检索(1980-2010),采用主题字段
检索式1:唐山*综合防灾*研究,命中9条
检索式2:城市*(地震+洪水+火灾+ 防灾)*(决策支持系统+专家系
统),命中61条
79
Tips:英文检索词怎样搜集?


使用工具书(各类科技词典)、网络、数据库;
收集中文文献中的英文关键词写法;
CNKI翻译助手http://dict.cnki.net/


80
试查相关英文数据库,扩展、变更检索词。
英文数据库的控制词表