00000 科技文献检索与利用 Character 00000 第二部分:信息检索技术 Character 及中文全文库(CNKI、维普) 信息咨询部(情报所):费盛华 E-mail:[email protected] Phone:021-65982423 课程安排 为什么还要进行数据库检索? ----搜索引擎检索与数据库检索的区别(布尔逻辑算符、字段) 专业搜索达人基础技能 ----截词符、位置算符 “达人”评价标准 ----查全率、查准率及其影响因素 从最常用的中文全文库开始练习 ---- 《中国期刊全文数据库》(CNKI) 《中文科技期刊数据库》(维普) 2 搜索引擎检索与数据库检索的区别 1.搜索引擎: 定义:搜索引擎(Search Engines)是一个对互联网上的信息资源进行 搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查 询三部分。 搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网 上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 检索优点:任何内容,检索简单 检索缺点:检全率高,检准率低,结果数量大,学术文献量少且无法获 取全文(免费文献除外) 3 百度的资源及检索 4 的资源及检索 5 搜索引擎检索与数据库检索的区别 2.数据库: 定义:数据库是存储在一起的相关数据的集合,这些数据是结构化 的,无有 害的或不必要的冗余,并为多种应用服务;数据的存储 独立于使用它的程序;对数据库插入新数据,修改和检索原有数据 均能按一种公用的和可控制的方式进行。( J.Martin) 检索:布尔逻辑检索 字段检索 检索优点:检准率高、具有针对性、学校资源提供大量的学术文献 (可获取全文、文摘等)、检索方法多种 检索缺点:每个数据库相对独立、只能检索数据库限定的内容、检 索相对复杂 6 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 1)布尔逻辑检索(Bool Logical Operators) 用布尔逻辑算符将检索词、短语或代码进行逻辑组配, 指定文献的命中条件和组配次序,凡符合逻辑组配所规定 条件的为命中文献,否则为非命中文献。 7 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 ①逻辑“与” 是检索词之间的相交关系运算。运算符号为“AND”或 “ * ”。检索式为: A AND B 或 A * B B A (交集) 8 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 ②逻辑“或”(和) 是检索词之间的并列关系,用运算符号“OR”或“+”。表示 两个检索项任一项出现在一条记录中。 检索式为:A OR B 或 A + B A B (并集) 9 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 ③逻辑“非” 用于在某一记录集合中排队含有某一概念的记录。运算符 号用“NOT”或“-”表示。 检索式为: A NOT B 或 A – B B A (排除) 10 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 11 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 实例 污水处理装置自动化控制方面的文献研究 高层建筑结构抗震分析与设计 公共关系在WTO中的应用 12 搜索引擎检索与数据库检索的区别2--字段检索 字段是文献著录的基本单元,反映文献的外部特征和内容特征 的每一个项目。 【中文题名】 XML语言及其应用 【英文题名】XML LANGUAGE AND ITS APPLICATION 【作 者】黄婉秋;黄筱霞;贾旭光 【作者单位】北京工商大学,计算机学院,北京,100037;北京工商大学,计算机学 院,北京,100037;北方交通大学,计算机学院,北京,100044; 【刊 名】北京工商大学学报(自然科学版) 【英文刊名】JOURNAL OF BEIJING TECHNOLOGY AND BUSINESS UNIVERSITY (NATURAL SCIENCE EDITION) 【年 卷 期】2002 Vol.20 No.3 【关 键 词】XML; HTML; Web页面语言; 置标语言 【摘 要】简要阐述了XML语言的概念及特点,对它的语言结构进行了详细的分 析,包括DTD、XSL、 XLL三部分.并将XML和HTML进行了比较,同时也对它和数据库 之间的关系进行了描述.最后论述了XML的 发展与前景. 13 字段 14 搜索引擎检索与数据库检索的区别2--字段检索 基本索引字段: 在数据库中把描述文章主题性质,反映文章 内容的字段称为基本索引字段。文献的标题(TI)、文摘( AB)、主题词(DE)及关键词(KY)等属于基本索引字段 。 辅助索引字段: 描述与主题内容无关的字段,叫做辅助索引 字段。作者(AU)、文献出处(SO)、出版年代(PY)、 语种(LA)等属于辅助索引字段,与基本索引字段配合使 用,起限定检索范围的作用。 15 检索技巧进阶之--截词检索(Truncation) 截词检索技术在计算机检索系统中的应用非常普遍, 在西文单词中经常会遇到词的不同变化,为了不漏检,可采用 截词的方法处理检索词。截词就是利用计算机检索系统提供的 截词符,保留检索词中的相同部分,允许检索词可有一定范围 内的变化,以提高文献的查全率。 16 检索技巧进阶之--截词检索(Truncation) 截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符 号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。 这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。 按 截 词 位 置 分: 有前截断、后截断、中截断; 按截词的字符数量分:有限制截断、无限截断。 表示截词的截断符号,各检索系统有不同的规定,没有统一标准。 常用的截词符有:?和* 17 1. 后截断 后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符 数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。 非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干 相同的所有词。 例: 同根词,如comput* 表示允许其后可带有任何字符且数量不限,相当 于查找compute、 computed、 computes、 computing、 computer、 computers、 computerize、computerized、computation、 computations、 computational、 computationally 等词。 例:年代,如199?(90年代) 例:作者,如用Eric* 可检出所有姓Eric的作者。 注意:不宜将词截得过短,否则容易造成误检。 限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字符数。 例:fib?? 相当于查找 fiber 或 fibre …… educat?? 相当于Educator,educated…… 18 2. 中截断 (通配符或屏蔽) 是把截断符号置于一个检索词的中间,对词中间出现变化的字符数 加以限定。一般中截断仅允许有限截断。 例:organi?ation, 可检索到包含organization和organisation的记录。 wom?n , 可检索到包含woman和women的记录 一个?代表零个或任意个字符。 例: colo?r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。 一个? 和数字,其中的数字代表可替换的字符数。 例:colo?1r, 只能检索到包含colour的记录。 19 检索技巧进阶之--位置算符 利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系, 会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提 供文中自由词检索功能,也称全文检索功能 (Full text searching)。 所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检 索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进 一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND 逻辑组配产生的词义含糊或误检。 为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: • 规定的位置算符不同; • 位置算符的职能和使用范围不同。 下面介绍几种数据库经常使用的位置运算符: 20 检索技巧进阶之--位置算符 1.W - With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。 所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。 例: intelligent (W) robot? Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许 在连接的两个词之间最多插入n个单元词。 例: intelligent w1 robot* 2. N - Near N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入 任何其他单词或字母。但词序可以颠倒。 例: intelligent NEAR robot* Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。 例: intelligent N1 robot* 3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其 他的词或字母。相当于短语检索。 例: intelligent adj robot* 21 构造检索提问式示例: 课题:数字化图书馆的文献检索服务 检索概念分析: document retrieval 并列概念 document delivery document delivery system 同义词 digital library virtual library electronic library 检索提问式: (document W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*) 22 检索效果评价 23 查全率(R)= 检出相关文献量 文献库中相关文献总量 查准率(P)= 检出相关文献量 检出文献总量 影响因素分析 (1)影响查全率的种种因素 如:检索词是否扩大到穷尽,是否已用了所有可能的同义词和 准同义词或不同的拼法;是否合理运用了逻辑“或”;是否对课题检索 策略作了必要的扩大。 (2)影响查准率的因素 如:是否尽量选用了专指度较高的检索词;是否采用了逻辑“与” 和逻辑“非”算符来优化检索;是否对检索课题作了范围的有效限制等 等。 24 造成漏检或误检的原因 1)课题分析不透;“学科归属”不清。 2)“语言”不通。 3)主题概念不是大了,就是小了。 4)“同义词库”不全 5)核心词太多 6)选择的检索工具专业性不够。E-journal or se arch engine? 25 1)课题分析不透;“学科归属”不清。 对课题的真正含义和学科归属不清楚,会造成最大的失误。 如查找有关“玻璃钢”制造工艺方面的资料: 如果从字面含义着手,以为它属玻璃工业或金属材料的 范畴,而事实上,玻璃钢既不属硅酸盐工业里的玻璃类 ,也不属金属材料里的钢铁制品,而是合成树脂与塑料 工业里的增强、填充塑料制品。 如果没有认真分析课题的真正含义和学科归属,就匆匆着手检 索,往往会欲速不达,或多走弯路,甚至导致失败。 26 2)“语言”不通。 基于计算机的文献检索的特点与其说是人机对话,不如说是 标引人员与检索人员的对话,只有标引人员与检索人员所表 达的“语言”一致,才能顺利实现文献检索。 往往检索工具使用的是标引语言,而检索者使用的多数是自 由词,未经规范化,这样在表达方式上有差异,造成了检索 障碍。如: 自由词:维生素 C (vitamin C);标引词 :抗坏血酸 (ACID,A SCORBIC) 自由词:艾滋病 (AIDS); 标引词:ACQUIRED IMMUNODE FICIENCY SYNDROME(后天免疫缺陷综合症);又如“ 沙示”(SARs), 禽流感(Bird flu)……. 27 3)主题概念不是大了,就是小了。 检索者不知道如何正确定位课题的主题概念,往往会不是大 了,就是小了,初学者更容易把概念偏大。 主题概念的范畴太大造成大量没用的文献被误检,太小造成 重要的的文献被漏检。 如“石油工业的废水处理”,若用“废水处理”作为主题概念, 就会太大,在《中国期刊网》中有1400多篇,如果我们知道 石油工业主要排放的是毒性较大的含酚废水,那么主题概念 定位在“含酚废水处理”就比较恰当了,此时查出的文献大概 有20~30篇。 28 4)“同义词库”不全 往往同一件事情或事物,不同作者喜欢用不同的词来表达,这 就造成了庞大的同义词库,如果偏偏你头脑中的“同义词库”不 是那么全,造成漏见就不足为怪了。例: 艾滋病——艾滋病、爱滋病 碳纤维——碳纤维、炭纤维 聚四氟乙烯——PTFE,polytetrafluoroethylene, Teflon 设备——apparatus,equipment,device…… 汽车——car,automobile,vehicle…… 29 5)核心词太多 对于由A、B、C、D、E多个主题组合的多主题 概念课题,如果将所有主题混在一起同时组配 ,会造成“零结果”现象。 因为,只要A、B、C、D、E其中之一的检索结 果为零,则经过布尔逻辑“和”的运算,检索结 果=A*B*C*D*E =0 。 30 6)选择的检索工具专业性不够 E-journals: 中文:中国期刊网、万方数据库系统、维普。。。。。。 英文:Elsevier…… Search engine: 北大天网,百度, GooGle, Yahoo! Openfind, ……. 31 练习 案例一:氧化铝碳纳米管 同义词 常用词 缩写词 检索式:氧化铝*(碳纳米管+碳管+纳米纤维) 案例二:耐高温粘接剂研究 检索式:高温*(粘接剂+胶粘剂+粘合剂+粘结 剂+黏合剂+胶黏剂+粘固剂+胶结剂) 32 练习 案例一:京九铁路卫运河特大桥 从结构上分析,该桥是斜拉式预应力混凝土连 续桁架桥,所以检索式为: 预应力混凝土*斜拉*桁架*连续梁 隐含概念 案例二:唐山综合防灾研究 唐山: 城市 由于唐山是一个城市,该项目实际为“城市综 合防灾的研究” 灾害: 地震、洪水、火灾 所采用的研究手段是决策支持系统和专家系统 研究: 决策支持系统、专家系统 33 中国期刊网(CNKI)简介 中国知识基础设施工程 CNKI:China National Knowledge Infrastructure 是采用现代信息技术,建设适合于我国的可以进行 知识整合、生产、网络化传播扩散和互动式交流合 作的一种社会化知识基础设施的信息化工程。 该工程由清华大学发起,同方知网技术产业集团承担建设,被 国家科技部确定为“国家级重点新产品重中之重”项目。CNKI 工程于1995年正式成立,历经十多年,已经建成了“ CNKI 数字 图书馆”,涵盖了我国自然科学、人文与社会科学、工程技术、 期刊、博硕士论文、报纸、图书、会议论文等公共知识信息资源 。CNKI用户遍及全国和欧美、东南亚、澳洲等各个国家和地区, 实现了我国知识信息资源在互联网条件下的社会化共享与国际化 传播。目前,CNKI系列数据库已经被海内外17000多个高校、科 研、医院、企业、政府、中小学等各类机构所采用。 34 《中国学术期刊网络出版总库》收录了国内出版的6642种学术期刊,其中核心期刊、重要评价性 数据库来源期刊2460种,期刊种数完整率不低于99%;其他期刊4182种,期刊种数完整率不低于90 %。文献收录期数完整率不低于99.9%,文献篇数收录完整率不低于99.9%。是目前世界上最大的连 续动态更新的中国期刊全文数据库。 《中国博士学位论文全文数据库》收录了全国420家博士培养单位的博士学位论文,是目前国内相 关资源最完备、高质量、连续动态更新的中国博士学位论文全文数据库。 《中国优秀硕士论文全文数据库》收录了全国652家硕士培养单位的优秀硕士学位论文。是目前国 内相关资源最完备、高质量、连续动态更新的中国优秀硕士学位论文全文数据库。 《中国重要会议论文全文数据库》收录我国2000年以来国家二级以上学会、协会、科研院所、政 府举办的重要学术会议、高校重要学术会议、在国内召开的国际会议上发表的文献的论文集。 《中国重要报纸全文数据库》收录2000年以来国内公开发行的700多种重要报报纸刊载的学术性、 资料性文献,是连续动态更新的数据库。 《中国年鉴全文数据库》收录了国内中央、地方、行业和企业等各类年鉴的全文文献。是目前国 内最大的连续更新的动态年鉴资源全文数据库。内容覆盖基本国情、地理历史、政治军事外交、 法律、经济、科学技术、教育、文化体育事业、医疗卫生、社会生活、人物、统计资料、文件标 准与法律法规等各个领域。 《中国工具书网络出版总库》目前收录了近200家出版社的语言词典、专科辞典、百科全书、图鉴 (谱)年表共2000多种,以及作者直接向本网投稿的辞书约20种,词条近千万,图书70万张,向 人们提供精准、权威、可信的知识搜索服务。 35 36 37 中国学术期刊网使用方法 CNKI检索功能 • 初级检索 • 高级检索 • 专业检索 • 跨库检索 • 单库检索 数据库导航 • 期刊导航 • 基金导航 • 会议导航 • 报纸导航 CNKI搜索引擎 简单易操作的检索工具,可方便地查找CNKI系列资源。 38 中国学期刊全文数据库为例 初级检索 问题1: 查找2005年-2008年发表在期刊《交通运输 工程学报》上的有关运输系统方面的文献. 39 选择检索项(主题),输入检索词,限定检索时间 选择检索的学科 范围:默认全选 40 初次检索结 果 41 限定期刊名,进行二次 检索 最终检索结果,可点击任何一条查看 详细信息,也可选择其中几条存盘 42 存盘方式的选择,自定义格式 可以选择自己需要的内容 43 下载全文:安装浏 览器 引文反映一篇 文章的未来发 展,及文章的 质量 44 相关文献功能条:可进行 相关研究内容跟踪 中国期刊全文库:高级检索 高级检索:高级检索是一种比初级检索要复杂一些的检索方式。 但也可以进行简单检索。 高级检索的功能有: 多项双词逻辑组合检索 多项是指可选择多个检索项; 双词频控制 双词是指一个检索项中可输入两个检索词(在两个输入框中输 入),每个检索项中的两个词之间可进行五种组合:并且、或 者、不包含、同句、同段, 每个检索项中的两个检索词可分 别使用词频、最近词、扩展词; 逻辑是指每一检索项之间可使用逻辑与、逻辑或、逻辑非进行 项间组合。 45 46 高级检索举例 问题1:查找1999年以来在《图书馆杂志》上发 表的,有关机构库(机构知识库)的文章。 问题2:查找王金荣发表在《地球科学进展》杂 志的有关“地壳早期演化”方面的文章。 47 48 中国期刊全文库——专业检索 专业检索: 多个检索项的检索表达式可使用“AND”、“OR”、“NOT”逻辑运算符进 行组合,逻辑关系符号前后要空一个字节; 三种逻辑运算符的优先级相同; 如要改变组合的顺序,请使用英文半角圆括号“()”将条件括起; 所有符号和英文字母(包括下表所示操作符),都必须使用英文半角字符; 字符计算:按真实字符(不按字节)计算字符数,即一个全角字符、一个 半角字符均算一个字符。 49 专业检索举例 问题1: 假设一名结构工程的学生,想了解同济大学结 构研究方面李杰教授的研究成果,帮助课题论文的完 成,如何查找? 检索式:作者=李杰 and 机构=同济大学 and 主题=结构 问题2 以嵌入式系统ARM平台为基础,设计了基于ARM 平台的InterBus现场总线、EPA实时以太网标准和 ZigBee无线通信系统。 检索式:主题=ARM and (主题=Interbus or 主题=EPA or 主题=ZigBee) 在CNKI中利用专业检索 50 51 输入检索式 年代、输出、 排序等限制 检索结果 52 53 中国学术期刊网的其他功能 1.跨库检索:就是在同一检索动作下同时检索几 个库。特点:各个库有共同的字段,比如:题名、 作者、摘要等。方便、快捷。 2.导航:根据对资源的不同标准进行分类,逐步 推进的方式查找文献。适合对某一特定类型的资 源浏览。 3.个性化工具:个性化定制等。 54 跨库检索 选择检索方 式 选择要检索的 数据库 55 各个库的检索 结果 56 导航 问题: 如何查找本专业领域内的核心期刊?了解它们 的栏目设置和收录文章的内容和领域? 使用CNKI的期刊导航功能 57 导航 58 学科分 类 59 60 个性化服务:定制推送 61 总结:检索过程 分析检索课题,找出可作为检索入口的关键词 分析检索策略 确定数据库和检索方式 进入检索 62 从上面几节内容可以发现:跨库检索与单库检索,初级检索,高级检索 和专业检索的关系如图 特例 跨库检索 初 级 检 索 63 高 级 检 索 单库检索 专 业 检 索 跨库检索与单库检索在检索项等内容的具体选项中有所不同. 维普 数据库介绍 《中文科技期刊数据库》(全文版)是重庆维普资讯有限公司开发研制的 中文电子期刊数据库,收录了我国1989-1999年出版自然科学、工程技 术、农业科学、医药卫生、经济管理、教育科学和图书情报等学科8000 余种期刊的660余万篇文章。 海量数据:包含了1989年至今的8000余种期刊刊载的2000余万篇文献 ,并以每年180万篇的速度递增。 覆盖范围:涵盖社会科学、自然科学、工程技术、农业、医药卫生、经 济、教育和图书情报等学科的8000余种中文期刊数据资源。 64 65 中文科技期刊数库的使用 分类检索 刊名检索 初级检索、高级检索 66 67 68 中文科技期刊数库的使用 分类浏览 刊名检索 初级检索、高级检索 69 70 按刊名、ISSN检索 按刊名首字母浏览 按学科分类浏览 71 中文科技期刊数库的使用 分类浏览 刊名检索 快速检索、初级(传统)检索、高级检索 72 时间选择 检 索 项 选 择 73 输入检索词 时间选择 选择学科范围 74 高等教育 75 76 利用布尔逻辑、截词等技术编辑检索式 77 中文科技期刊数据库的特点 1.包括科技、科普方面的期刊 2.偏重于理工农医等科技期刊,社科类文献不全 3.回溯年代较长(89年至今),期刊总数多(8000多种) 4.存在缺期、缺刊情况 78 检索练习 案例:唐山综合防灾研究 主要概念: 城市、地震、洪水、火灾、决策支持系统、专家系统 数据库检索结果: 在中国知网期刊库中检索(1980-2010),采用主题字段 检索式1:唐山*综合防灾*研究,命中9条 检索式2:城市*(地震+洪水+火灾+ 防灾)*(决策支持系统+专家系 统),命中61条 79 Tips:英文检索词怎样搜集? 使用工具书(各类科技词典)、网络、数据库; 收集中文文献中的英文关键词写法; CNKI翻译助手http://dict.cnki.net/ 80 试查相关英文数据库,扩展、变更检索词。 英文数据库的控制词表
© Copyright 2025 ExpyDoc