数字信息资源 及其检索概述 北京大学图书馆 张春红 E-mail:[email protected] 第一部分 数字信息资源的概念与类型 数字信息资源概述:定义 数字信息资源: 狭义上也称为电子资源,指一切以数字形式 生产和发行的信息资源。所谓数字形式,是 以能被计算机识别的、不同序列的“0”和 “1”构成的形式。数字资源中的信息,包 括文字、图片、声音、动态图像等,都是以 数字代码方式存储在磁带、磁盘、光盘等介 质上,通过计算机输出设备和网络传送出去, 最终显示在用户的计算机终端上。 数字信息资源概述:特点 存储介质和传播形式发生变化 以多媒体作为内容特征 信息资源类型多种多样 多层次的信息服务功能 更新速度快、时效率性强 具备检索系统,使用方便快捷 不受时间、地域限制,可随时随地存 取 数字信息资源概述:产生与发展 最早形式:数据库 产生标志:1961年美国化学文摘社(CAS)开始发 行《化学题录》(Chemical Title)机读磁带 发展: 六十年代初,以《化学题录》和《医学索引》 (美国国家医学图书馆)的出现为标志,至1965 年已有大约20个数据库可供使用 1975年,已达到近300个数据库 七十年代莫到八十年代末,数量已达到3600多个 进入九十年代,网络和信息处理技术的发展,使 得基于互联网开发的数字资源及其检索系统有了 突飞猛进的增长。 数字信息资源概述:产生与发展(续) 数据库数量增长情况 1975年 1999年 增长倍数 数据库 301 11,681 39 数据库生产者 200 3,674 18 数据库代理商 105 2,454 23 数据记录条数 5,200万 128.6亿 242 数字信息资源概述:产生与发展(续) 数据库类型分布 多媒体数据库 图像数据库 3% 12% 其它 3% 数值数据库 12% 文字型数据库 70% 数字信息资源概述:产生与发展(续) 数据库内容分布 人文/社会科学/ 交叉学科 14% 商业 30% 医学/生命科学 10% 法律 11% 新闻/综合 18% 科学/技术 /工程 17% 数字信息资源概述:产生与发展(续) 信息存取与检索 数据库:网络数据库比例越来越大,人们为数 据库检索支付费用的比例不断增加,数据库检 索人次飞速增长… 电子期刊:出版周期短,可以检索和重复下载 全文,图像与文本结合,包含有多媒体及其它 类型动态信息,具备超链接功能,可以向用户 主动提供期刊目次报道服务… 电子图书:可以逐页阅读,并能够快速检索书 中的信息 … 电子报纸:网上阅读… 其他网络学术资源:飞速发展… 数字信息资源概述:产生与发展(续) 电子资源现状(以北大图书馆为例)—— 数据库: 370余种410多个,其中外文160种187个; 覆盖北大所有重点学科 电子期刊: 中文9000余种20000余份(纸质期刊4000余种) 西文14000余种20000余份(纸质期刊3000余种)全世界总 量大于24000种 除覆盖北大所有重点学科外,更在工程、能源、医学、农 业等学科弥补传统资源的不足 电子图书: 中文18万余册,覆盖所有学科,以教学参考资料为主;另 中文电子古籍:近4000部 总量近100万 西文电子图书:6000余册 总量约10万 电子报纸:中文近300种,外文500余种 数字信息资源概述:类型 按性质和功能: 一次文献:全文数据库、电子期刊、电子图书报纸.. 二次文献:文摘/索引数据库、书目数据库、搜索引擎.. 三次文献:元搜索引擎 按生产途径和发布范围: 见数字信息资源结构图 按载体: 光盘:CA光盘版,SCI光盘版… 网络数据库:CA网络版SciFinder,WOS… 按学科: 数字信息资源概述:类型(续) 参考数据库 全文数据库 事实数据库 电子图书 电子期刊 电子报纸 搜索引擎/分类指南 网络学术资源学科导航 FTP资源 其他:网站、BBS、新闻组等 数字信息资源概述:类型(续) 参考数据库(Reference database) 概念: 参考数据库是指包含各种数据、信息或 知识的原始来源和属性的数据库。它报 道文献信息的存在,揭示文献信息的内 容。 参考数据库信息源: 期刊、报告、会议论文、专利文献、学 位论文、技术标准、图书、政府出版物、 报纸、各种数字资料等。 数字信息资源概述:类型(续) 参考数据类型-按数据库内容划分 书目数据库 如图书馆的馆藏机读目录。 文摘数据库 如 INSPEC, Chemical Biological Abstracts等。 Abstracts, 索引数据库 如Science Citation Index, Engineering Index等。 数字信息资源概述:类型(续) 参考数据库的结构 构成:参考数据库的基本组成单位为记录,而 记录是由字段组成。 记录(record):作为一个单位来处理的数据集合, 在参考数据库中,一条记录通常指一篇特定文 献。 字段(field):构成记录的单元,用来描述记录的 某一属性。如一般记录中包含下列字段:题目、 作者、出处、关键词、主题词、文摘、题目、 出版社、专利号、报告号、访问号等。 数字信息资源概述:类型(续) 参考数据库的特点 综合性:数据量大,文献类型齐全,索引系统 完备,语种多,出版连续性强。 出版物类型:出版历史悠久,大多数数据库具 有对应的印刷出版物。 数据库结构:结构简单,数据规范性好,记录 格式固定。 使用:参考数据库的使用一般是开放性的,可 以购买、租用,也可联机检索。 标引:多数数据库具有规范的主题标引词。 文件格式:多采用文本文件格式。 数字信息资源概述:类型(续) 参考数据库的用途 主要用途是搜集文献线索,快速和全面 的获取某个主题、学科、领域的文献信 息。 用于制定个性化的用户服务,如最新目 次报道、定题服务、回溯服务等。 用于各类统计和评估,如统计期刊、个 人或机构的发文量、文章被转载或被引 用情况,评估期刊影响力等。 数字信息资源概述:类型(续) 全文数据库 英文为full-text database,即收录有原始文 献全文的数据库,以期刊论文、会议论 文、政府出版物、研究报告、法律条文 和案例、商业信息等为主。如美国的 LEXIS-NEXIS数据库、学术期刊图书馆 (ProQuest Academic Research Library) 及《中国人民大学书报资料中心复印报 刊资料全文数据库》等。 数字信息资源概述:类型(续) 事实数据库 英文为factual database,指包含大量数据、事 实,直接提供原始资料的数据库,又分为数值 数据库(numeric database)、指南数据库 (directory database)、术语数据库 (terminological database)等,相当于印刷型 文献中的字典、辞典、手册、年鉴、百科全书、 组织机构指南、人名录、公式与数表、图册 (集)等。数值数据库,指专门以数值方式表 示数据,如统计数据库、化学反应数据库等; 指南数据库,如公司名录、产品目录等;术语 数据库,即专门存储名词术语信息、词语信息 等的数据库,如电子版百科全书、网络词典等。 数字信息资源概述:类型(续) 电子期刊 英文为electronic journals或简称ejournal,包括: 与纸本期刊并行的电子期刊,如著名的《科 学》(Science)、《自然》(Nature)、 Elsevier/Wiley/Springer/Kluwer等出版商 的电子期刊、中国电子期刊杂志社的期刊等; 纯电子期刊,如《数字图书馆杂志》(DLib Magazine) 数字信息资源概述:类型(续) 电子图书 英文为electronic books,最初的电子 图书主要以百科全书、字典词典等工具 书为主,但近年来发展迅速,已涉及到 了很多学科领域,文学作品、学术专著 所占比例越来越大,电子图书正在逐步 发展成为比较主要的数字信息资源 如国外的NetLibrary、Ebrary;国内的 超星数字图书馆、书生之家电子图书、 方正Apabi数字图书馆等 数字信息资源概述:类型(续) 电子报纸 英文为electronic newspaper,目前网 上已有数千种报纸供用户使用。同电子 期刊一样,电子报纸同样也有印刷型报 纸的电子版和纯电子报纸两种类型 电子报纸全文检索系统如人民日报等; 全文数据库中的电子报纸如ABI、lexis、 中国资讯行全文数据库等;还有网上免 费的电子报纸(印刷型报纸的电子版); 纯电子报纸如《圣何塞信使报》 数字信息资源概述:类型(续) 搜索引擎/分类指南 英文为search engine,是目前利用互联网开放信 息的常用工具,也可以称得上是互联网开放信息的 索引目录。搜索引擎主要是使用一种计算机自动搜 索软件,在互联网上检索,将检索到的网页编入数 据库中,并进行一定程度的自动标引,用户使用时 输入检索词,搜索引擎将其与数据库中的信息匹配, 然后产生检索结果。例如常用的Yahoo、Hotbot、 Alta Vista、Excite、Google、天网、悠游等。分 类指南是将搜索到的网页按主题内容组织成等级结 构(主题树),用户按照这个目录逐层深入,直到 找到所需文献。通常搜索引擎与分类指南是结合在 一起的,例如Yahoo、新浪、悠游等 数字信息资源概述:类型(续) 网络学术资源学科分类导航 将互联网上的开放信息加以甄别、筛选 和科学整理,按学科组织起来,构成完 整的学科导航系统,为教学、科研、技 术人员提供各类学术信息。与搜索引擎/ 分类指南不同的是,网络学术资源的学 科导航库通常是由图书馆单独或联合建 设的。例如CSDL的学科信息门户 http://www.csdl.org.cn 数字信息资源概述:类型(续) FTP资源 FTP含义是File Transfer Protocol,意为文件 传送协议,是互联网上最早应用的协议之一, 它可以使用户远程登录到远端计算机上,把其 中的文件传回到自己的计算机上,或把自己计 算机上的文件上传到远端计算机系统上。所谓 FTP资源,是指互联网上的开放FTP站点,这些 站点允许用户登录上去,从中下载各类数据、 资料、软件等。 可以利用FTP搜索引擎查找FTP资源,例如北大 天网文件引擎http://e.pku.edu.cn 第二部分 数字信息资源的检索 数字信息资源检索:检索系统 检索系统 检索系统构成 检索系统评价 联机数据库检索 光盘数据库检索 网络数据库检索 检索语言 相关的网络基础知识 数字信息资源检索:检索系统(续) 检索系统构成——物理构成 硬件(hardware):也可以说是硬件环境,是和计 算机检索有关的各种硬件设备的总称,如大型计算 机主机(服务器)、存储器(硬盘或光盘)、网络 (广域网、局域网、存储区域网)、输入输出设备 (键盘、打印机、鼠标等)、计算机终端或个人计 算机(PC)等。 软件(software):与计算机检索相关的数据库系 统软件及相关应用软件。包括:信息采集、存储、 信息标引加工、建库、词表管理、用户检索界面、 提问处理、网络发布、数据库管理等模块。随着网 络和计算机技术的发展,软件的开发平台、程序语 言的持续升级,用户功能需求的增加,这一部分的 具体结构也在不断发生变化。 数字信息资源检索:检索系统(续) 检索系统构成——物理构成(续) 数据库(database):数据库是指按一定方式、 以数字形式存储、可通过计算机存取、相互关 联的数据集合。数据库的特点是:重复数据少; 可以共享数据资源,以最优的方式为一个或多 个应用服务;数据具有独立性,其存放独立于 应用程序之外。由于数据库中的信息都经过了 详细、精心的选择和加工,主题化,有序,能 够提供多种检索途径,因此相对互联网上无组 织和大量无用的信息来说,检索结果准确,时 间少,价值高。从发展的角度看,以网络为中 心的分布式数据库系统是今后的发展趋势。 数字信息资源检索:检索系统(续) 检索系统构成——功能划分 信息采集模块(collection):本模块的任务是连续、 快速地采集各类信息,为数据库提供充足的数据来 源。 信息存储模块(repositories):存储介质包括磁带、 磁盘、光盘。从根本上讲,存储方式决定了应用方 式,存储方案决定了整个系统的的扩展性和灵活性。 标引著录模块(description):即对信息的内容和 特征进行分析,然后给予一定数量的标识,作为信 息组织、存储与检索的基础。例如信息的名称、创 作者、主题、分类、出版/生产时间、出版/生产者、 关键词等,都可以作为信息的描述性标识。 数字信息资源检索:检索系统(续) 检索系统构成——功能划分(续) 规范模块(authorities):指对信息特征和用户 提问的语言形式做出规定,如主题词表、人名 规范、地名规范、时代名称规范等,目的在于, 一是使用户的检索更具准确性;二是逐步形成 一个知识网络,通过相关信息的提供,使用户 的检索更为完整。 内容发布模块(publish):将数据库内容传递 到网络上,让用户以常规手段(如通过浏览器) 查询浏览。 数字信息资源检索:检索系统(续) 检索系统构成——功能划分(续) 检索模块(access):也就是狭义理解的检索系统,即 将用户的需求进行分析,并和数据库中的信息匹配 运算,再反馈给用户所需的检索结果。 检索界面:即人-机接口; 检索功能:如简单检索、复杂检索、浏览、图象检 索等; 检索途径:如题名、作者、主题、文摘等检索入口; 检索技术:如布尔逻辑、组配检索、截词符、词根 检索、位置算符等; 检索结果:打印、存盘、结果格式、二次检索; 提问处理:也可称匹配运算,即处理和运算用户的 检索式。 数字信息资源检索:检索系统(续) 检索系统构成——功能划分(续) 服务模块(services):这是在传统检索系统基础上发 展起来的新功能,如最新目次报道服务、文献传递 服务,虚拟咨询服务等。 管理模块(administration):主要指管理客户端,即 对用户和用户行为进行管理和调查分析。主要包括 三个部分,一是对用户的管理;二是运用数学和统 计学方法,对用户行为的各种相关信息进行累积、 加工、分析,生成各种状态报告,提供给数据库生 产者、系统开发者和用户,以便对数据库及其系统 进行修改、完善,使其不断得到提高;三是监控系 统使用情况,如观察用户有无违反版权规定、恶意 下载(abuse)现象,并对违法用户进行相应处罚。 数字信息资源检索:检索系统(续) 检索系统评价-主要评价指标 检索功能:指系统提供给用户的各种检索途径和检 索入口。 检索技术:即系统是否允许用户使用各种检索技巧, 以便更准确和快速地找到自己所需信息。 检索结果:即用户是否得到了内容全面、下载和使 用均比较方便的检索结果,例如显示格式包含的内 容是否全面;检索结果数量较多时是否允许在翻页 的同时标记记录;是否提供存盘、打印、email发送 等多种下载功能;检索结果是否与其它资源之间存 在链接,为用户提供查找到其它资源的捷径等。 用户服务:主要是指在检索功能之外,系统还为用 户提供了哪些服务。 数字信息资源检索:联机检索 联机检索(online retrieval)是指用户 利用计算机终端设备,通过通信线路 或网络,在联机检索中心的数据库中 进行检索并获得信息的过程。 通讯网络 联机检索中心 通讯卫星 检索终端 M M 多路复用器 中央计算机 外设 数字信息资源检索:光盘检索 联机光盘检索是指把单用户系统发展成 多用户的局域网系统,通过网络(如校 园网)连接多个用户终端,用服务器管 理多组光盘数据库及其检索系统 客户端 局域网 光盘服务器 客户端 端 系统软件 光盘驱动器 局域网 客户端 数据库 数字信息资源检索:网络数据库检索 网络数据库(web-database)检索是指用 户在自己的客户端上,通过互联网和浏览 器界面对数据库进行检索,是基于互联网 的分布式特点开发和应用的 数字信息资源检索:检索语言 检索语言的概念与作用 检索语言(information retrieval language),是信 息存储与检索过程中用于描述信息特征和表达用户信 息提问的一种专门语言。所谓检索的运算匹配就是通 过检索语言的匹配来实现的。检索语言是人与检索系 统对话的基础。 信息 存储 信息 检索 信息 内容 信息 需求 主题 分析 主题 分析 主题 概念 主题 概念 标引 标引 情 报 检 索 语 言 标 识 输出 检索系统 标 识 检索 结果 检索语言作用示例—— 已知3篇文献的篇名,在对信息存储的过程中,对这三 篇文献内容分别进行了分析,并使用检索语言对其进行 标引,标引结果为: 文 献 1 : 篇 名 ( title):A model of multimedia information retrieval 主 题 ( subject):information retrieval,multimedia computer applications 文 献 2 : 篇 名 ( title):The Information retrieval in chemistry WWW server 主题(subject):chemistry,educational materials 文献3:篇名(title):ERIC resources 主题(subject):Educational materials 标引后这三篇文献分别被存储进数据库。 信息检索过程:检索语言及标识匹配。 检索语言作用:对文献的外部特征和内容进行多层次描 述,提供多种检索途径,以方便用户从不同角度检索。 数字信息资源检索:检索语言(续) 检索语言类型——人工语言 人工语言:人工语言(artificial language) 是根据信息检索的需要而由人工创制的, 采用规范词(controlled term),用来专 指或网罗相应的概念,可以将同义词、 近义词、相关词、多义词及缩略词规范 在一起,由人工控制,包括 分类检索语言(分类号) 主题检索语言:标题词、单元词、叙词 代码检索语言 数字信息资源检索:检索语言(续) 检索语言类型——人工语言(续) 分类检索语言:按照学科范畴及知识之间的关 系列出类目,并用数字、字母符号对类目进行 标识的一种语言体系,也称分类法。使用这种 检索语言建立的信息检索系统可以反映知识的 从属、派生、重合、交叉、并列等关系,用户 因此可以鸟瞰全貌、触类旁通,系统地掌握和 利用一个学科或专业范围的知识和信息。目前 常用的分类法有《中国图书馆图书分类法》 (简称《中图法》)、《美国国会图书馆分类 法》、《杜威分类法》、《国际专利分类表》 等。 数字信息资源检索:检索语言(续) 检索语言类型——人工语言(续) 主题检索语言:由主题词汇构成,即将自然语言 中的名词术语经过规范化后直接作为信息标识,按 字母顺序排列标识,通过参照系统揭示主题概念之 间的关系,也称主题法。主题语言表达的概念比较 准确,具有较好的灵活性和专指性,不同的检索系 统、不同的专业领域可以有各自的主题词表。 标题词语言(subject heading):是一种先组式 的规范词语言,即在检索前已经将概念之间的关 系组配好。具有较好的通用性、直接性和专指性, 灵活性较差。常用的标题词表有《美国国会标题 词表》(Library of Congress Subject)、《医学 主题词表》(Medical Subject Headings)。 数字信息资源检索:检索语言(续) 检索语言类型——人工语言(续) 主题检索语言(续): 单元词(元词法,uniterm):是一种最基 本的、不能再分的单位词语,亦称元词,从 文献内容中抽出,再经规范,能表达一个独 立的概念。例如“信息检索”是一个词组, “信息”和“检索”才是单元词。 叙词(叙词法,descriptor):是计算机检索 中使用较多的一种语言,可以用复合词来表 达主题概念,在检索时可由多个叙词形成任 意合乎逻辑的组配,形成多种组合方式。由 叙词组成的词表叫叙词表(thesaurus)。 数字信息资源检索:检索语言(续) 检索语言类型——人工语言(续) 代码检索语言 就事物的某一方面特征,用某种代码系统来 加以标引和排列,目前主要应用于化学领域。 例如,化合物的分子式索引系统,环状化合 物的环系索引系统等。 此外,如DII专利代码索引,BP的concept code list… 数字信息资源检索:检索语言(续) 检索语言类型——自然语言 自然语言(natural language)检索用词是从信息内 容本身抽取的,主要依赖于计算机自动抽词技术完 成,辅以人工自由标引(非依据词表的标引方法), 是非规范词(uncontrolled term)。自然语言标识包 括—— 关键词(keyword):直接从信息资源名称、正文或文摘 中抽出的代表信息主要内容的重要语词。 题名:信息资源的名称,如论文篇名、图书书名、网站名 称等。 全文:从资源的全部内容中自动抽取、查找,是目前网上 各类搜索引擎使用的最多的方法。 引文:将文献所引用的参考文献的作者、篇名、来源出版 物抽取出来进行标引。 此外还有责任者(作者)、摘要等。 数字信息资源检索:检索语言(续) 检索语言类型——人工语言和自然语言的关系 成熟的检索系统中,两种语言并用 主题词和关键词 人工语言和自然语言正在不断融合,形成一种新的 知识体系——NKOS(Networked knowledge organization systems / schemes / services)。它融合 了叙词表、标题词表、语义网络、分类体系的功能, 得到了普遍关注,并开始在各类数据库、搜索引擎 以及知识管理方面应用,例如Yahoo、Google的主 题分类指南,以及许多企业门户网站的分类索引服 务即是NKOS体系应用的雏形。 数字信息资源检索:相关基础知识 关于网络 互联网:Internet(现在译为因特网),是世界上最 大的计算机互联通信网络,最早起源于美国国防部的 计算机网络ARPAnet。它本身不是一种具体的物理网 络,而是一种虚拟的计算机网络。互联网络实际上是 把全世界各个地方已有的各种网络,如计算机网络、 数据通信网以及公用电话交换网等通过TCP/IP协议相 互联结,组成一个跨越国界的庞大的综合网络 广域网(Wide Area Network – WAN):分布距离大 于50公里,可以覆盖多个单位或多个国家,如我国的 Chinanet、CERnet等。 局域网(Local Area Network – LAN):分布距离在 10公里范围内,通常为某个单位专用,如北京大学校 园网等。具有结构简单、投资少、数据传输速度快、 可靠性好、保密性强等特点。 数字信息资源检索:相关基础知识 关于网络技术与结构 服务器server 网卡SCSI 路由器router:路由器是一种连接多个网 络或网段的网络设备,它能将不同网络 或网段之间的数据信息进行“翻译”, 以使它们能够相互“读”懂对方的数据, 从而构成一个更大的网络 网关gateway:网关实质上是一个网络通 向其他网络的IP地址。 数字信息资源检索:相关基础知识 关于网络传输 TCP/IP协议 客户端/服务器client/server 域名(domain name)与主机(host) IP地址与IP范围 ISP:Internet Service Provider ICP:Internet Content Provider 调制解调器(modem) 数字信息资源检索:相关基础知识 关于网络资源的应用与检索 万维网WWW 浏览器:Netscape或Internet Explorer FTP:File Transfer Protocol 超文本文件HTML file 超文本传输协议http 统一资源定位器URL 主页homepage 电子邮件email 新闻组newsgroup(usenet) 搜索引擎search engine 第三部分 数字信息资源的 检索方法和检索技术 数字信息资源检索方法/技术 检索方法(详见第四讲) 课题分析 选择信息源 构造检索策略 调整检索策略 检索结果评价 数字信息资源检索方法/技术(续) 检索功能 浏览:由系统提供一个树状结构的概念 等级知识体系,用户可以沿着这颗“树” 进入不同的分支,到达叶子节点,并在 节点看到检索结果列表。 索引:提供一个线性的表单,可以将任 何一个标引字段中的概念按字母顺序线 性排列起来,不分等级。例如:人名索 引、出版物索引、地名索引、主题索引、 机构索引等。 数字信息资源检索方法/技术(续) 中文科技期刊库的浏览 中文科技期刊全文数据库提供了 《中刊库》学科导航和刊名导航, 以便用户进行不同角度的浏览需 求。分类导航按照《中国图书资 料分类法》的标准,逐层进行分 类限制。如用户选中选中某类目, 则检索结果包括此类目下的全部 数据库。例如“图书情报”是一 级类目,“图书馆学、图书馆事 业”是二级类目,而“读者工作” 为三级类目。左图标识是书本, 表示该类目还有下位类,而 标 识是页面,表示该类目是终端类 目。 数字信息资源检索方法/技术(续) 实例:ProQuest系统的索引体系 ProQuest系统提供了四种索引:主题(subjects)、公司(companies)、人名 (people)和地名(locations),分别取自于主题词、公司名称、个人名称和地理 名称四个标引字段。选择任一索引后,输入任意想要查找的词汇甚至若干字母,系统 会按右截断的方式显示在这之后的所有词汇,供用户查看。也可以直接点击检索界面 上方的26个字母,按字母顺序翻看。索引工具最适于用户查找拼法相近的一组词汇, 记不住拼写时也可以使用这种方法。 数字信息资源检索方法/技术(续) 检索功能(续): 简单检索:为用户提供一个简单的检索界 面,页面上通常只有一个检索框。 复杂检索/高级检索:为专业用户、资深用 户提供的比较复杂的检索界面,可以构建 比较细致的检索式,帮助用户进行精确检 索。 专家检索:构建专业的检索策略进行检索 二次检索:在检索结果内进一步检索,使 检索结果更精练、准确。 数字信息资源检索方法/技术(续) 实例:Kluwer简单检索和复杂检索界面 简单检索提供一个检索条件输入框和 选择检索字段的下拉框。检索字段包 括全面、篇名、作者、文摘和刊名5个 检索入口。同时,可以通过限制出版 日期、限制文献种类,可以把检索结 果限制在一定范围内,从而达到快速 查准的目的。 复杂检索提供多个检索条件输入框,可 以输入一个检索条件进行简单检索或输 入多个检索条件实现多个检索字段的组 合检索。检索字段比简单检索增加了 ISSN、关键词和作者单位。与简单检索 最大不同的是,复杂检索可以提供提供 的逻辑算符(AND.OR.NOT)进行组配 检索。 数字信息资源检索方法/技术(续) 检索功能(续) 自然语言检索:检索系统在检索界面上提供的 自然语言检索,指的是用户可以直接输入一句 话,就象对人谈话一样。例如: hurricanes in the Atlantic and Pacific (大西洋和太平 洋的飓风) How does El Nino affect weather?(厄尔尼诺现象 是怎么影响气候的?) 到目前为止,限于计算机智能检索技术的发展, 尚没有检索系统能够提供很好的自然语言检索 功能,因此这方面的功能尚不具备查全查准的 实用效果。 数字信息资源检索方法/技术(续) 检索技术 布尔逻辑检索 位置算符检索 截词检索与词根检索 字段检索 全文检索 其他检索技术:嵌套、限制、大小写敏感、 禁用词 数字信息资源检索方法/技术(续) 检索技术-布尔逻辑检索: 运用布尔逻辑算符(Boolean operators)对检索词进行逻辑 组配,表达两个概念之间的逻 辑关系。 逻辑“与”(and):检索时,命中信息同时含有两个概念,专指性 强; 逻辑“或”(or):检索时,命中信息包含所有关于逻辑A或逻辑B 或同时有A和B的,检索范围比and扩大。 逻辑“非”(not):命中信息只包括逻辑A,不包括逻辑B或同时有 A和B的,排除了不需要的检索词。 逻辑“异或”(xor):命中信息包含逻辑A,也包含逻辑B,但不包 含同时含有A和B的信息。 数字信息资源检索方法/技术(续) 检索技术-布尔逻辑检索(续) 在不同的检索系统里,布尔逻辑的运算次序是不同的,因此 会导致检索结果的不同。通常运算次序有这样几种形式: 一是按算符出现的顺序,如果是and、or、not,就按and、 or、not的顺序运算;如果是or、not、and,就按or、not、 and的顺序运算; 二是默认and优先运算,其次是or、not; 三是默认or优先运算,然后是and、not。一般来讲,检 索系统的“帮助”文件中都会有这类说明,只要注意查 看即可。 在中文数据库里,布尔逻辑运算符有时用and、or、not下拉 菜单形式表示,供用户选择;有时用“*”号表示逻辑“与”, 用“+”表示逻辑“或”,用“-”表示逻辑“非”。 数字信息资源检索方法/技术(续) 检索技术-位置算符(position)检索: 即运用位置算符(position operators) 表示两个检索词间的位置邻近关系,又 叫邻接检索(proximity)。这种检索技 术通常只出现在西文数据库中,在全文 检索中应用较多。如果说布尔逻辑算符 是表示两个概念之间的逻辑关系的话, 位置算符表示的是两个概念在信息中的 实际物理位置关系 。 数字信息资源检索方法/技术(续) 检索技术-位置算符检索(续) With(field): same field or same sequence Near: same sentence Pre (precede): library pre science library science, library with science, ... w/n (Within): library w/n science library science, science library, … Field: same field Same: same paragraph 数字信息资源检索方法/技术(续) 检索技术-位置算符检索(续) 常用的位置算符 算符 功能 表达式 检索结果 W, W/N 两词相邻,按 Education with 输入时顺序排 (W)school, 或 列 within Education (也有数据库 with school 允许顺序颠倒) Education school Education schools (school of education schools of education) nW 同上,两词中 Education 间 允 许 插 入 n (1W) school 个词 Education school Education schools Education and music school School of continued education Pre 两词相邻,按 Education 输入顺序排列 Pre school Education school Education schools 数字信息资源检索方法/技术(续) 检索技术-位置算符检索(续) 常用的位置算符(续) 算符 N, adj 功能 表达式 检索结果 near, 两 词 相 邻 , Education (N) Education school 顺 序 可 以 颠 school, 或 Education schools 倒 Education near School of education school nN 同 上 , 两 词 Education (1N) 中 间 可 以 插 school 入n个词 F 两个词同在 一个标引字 段中 Same 两个词同在 Education Same 同时出现在一个段落中 school 一个段落 (paragraph) 中 Education (F) school Education school School of education Education and music school 例如同时出现在题名或文摘字段中 数字信息资源检索方法/技术(续) 检索技术-位置算符检索(续) 不是每一个检索系统都使用上述位置算 符,不同的系统使用的位置算符不同, 不同的算符在不同的系统中有时可能含 义不同。例如“W”算符,在Dialog检索 系统表示两词相邻,输入顺序不变;在 ProQuest系统中,“W”算符表示输入的 两个词相邻,但顺序可变,如顺序要求 不变,则使用“Pre”算符。用户可以查阅 help帮助文档说明。 数字信息资源检索方法/技术(续) 检索技术-截词检索 截词检索: 用截词符号“?”、“*”或“$”加在检索 词的前后或中间,以检索一组概念相关或同 一词根的词。这种检索方式可以扩大检索范 围,提高查全率,主要用于西文数据库检索。 中文数据库通常不使用这种技术。 截词检索类型 截词方式根据截词的位置不同,分为前截断、 后截断、中截断;根据截断的数量不同,分 为有限截断和无限截断。 数字信息资源检索方法/技术(续) 检索技术-截词检索(续) 后截断:是前方一致检索,又称右截断,截词符放 在被截词的右边,是最常用的截词检索技术。后截 断主要用于下列检索:词的单复数检索,如company 与companies;年代检索,如199?(九十年代); 词根检索,如socio*,可以检索sociobiology, socioecology,sociology等20多个词汇。 前截断:截词符放在被截词的左边,可与后截断一 同使用。例如输入*magnetic,可检electromagnetic、electromagnetic、thermo-magnetic等。 目前这种检索技术应用已经极少。 中截断:把截词符放在词的中间。如organi?ation, 可检索organisation、organization。这种方式查 找英美不同拼法的概念最有效。 数字信息资源检索方法/技术(续) 检索技术-截词检索(续) 举例—— 符号:*,?,$ 后截断:librar* library, libraries, librarian,… 前截断:*magnetic magnetic, electromagnetic, electromagnetic, thermomagnetic, … 中截断:organi?ation organization, organisation 数字信息资源检索方法/技术(续) 检索技术-截词检索(续) 截词类型:根据截断的数量不同,分为 有限截断和无限截断。 无限截断:不限制被截断的字符数量,例如 输入educat?,可以检索educator, educators,educated,educating, education,educational,等等。 有限截断:限制被截断的字符数量,例如输 入educat**,表示被截断的字符只有两个, 可以检索educator,educated两个词。 数字信息资源检索方法/技术(续) 检索技术-词根检索 有些检索系统不支持使用截词符的截词 检索技术,系统默认的是词根检索,即 输入一个词,系统会自动检索出同一词 根的一组词,例如输入gene,可以检索 出gene,genic,genome等。这是一种 智能检索方式,但要求系统内必须预先 配置词根表。 IEE/IEEE全文数据库默认词根检索 有些数据库需要加入词根运算符如“$” 才进行词根检索
© Copyright 2024 ExpyDoc