如何查找资料

数字信息资源
及其检索概述
北京大学图书馆 张春红
E-mail:[email protected]
第一部分
数字信息资源的概念与类型
数字信息资源概述:定义
数字信息资源:
狭义上也称为电子资源,指一切以数字形式
生产和发行的信息资源。所谓数字形式,是
以能被计算机识别的、不同序列的“0”和
“1”构成的形式。数字资源中的信息,包
括文字、图片、声音、动态图像等,都是以
数字代码方式存储在磁带、磁盘、光盘等介
质上,通过计算机输出设备和网络传送出去,
最终显示在用户的计算机终端上。
数字信息资源概述:特点
存储介质和传播形式发生变化
以多媒体作为内容特征
信息资源类型多种多样
多层次的信息服务功能
更新速度快、时效率性强
具备检索系统,使用方便快捷
不受时间、地域限制,可随时随地存
取
数字信息资源概述:产生与发展
最早形式:数据库
产生标志:1961年美国化学文摘社(CAS)开始发
行《化学题录》(Chemical Title)机读磁带
发展:
六十年代初,以《化学题录》和《医学索引》
(美国国家医学图书馆)的出现为标志,至1965
年已有大约20个数据库可供使用
1975年,已达到近300个数据库
七十年代莫到八十年代末,数量已达到3600多个
进入九十年代,网络和信息处理技术的发展,使
得基于互联网开发的数字资源及其检索系统有了
突飞猛进的增长。
数字信息资源概述:产生与发展(续)
数据库数量增长情况
1975年
1999年
增长倍数
数据库
301
11,681
39
数据库生产者
200
3,674
18
数据库代理商
105
2,454
23
数据记录条数
5,200万
128.6亿
242
数字信息资源概述:产生与发展(续)
数据库类型分布
多媒体数据库
图像数据库
3%
12%
其它
3%
数值数据库
12%
文字型数据库
70%
数字信息资源概述:产生与发展(续)
数据库内容分布
人文/社会科学/
交叉学科
14%
商业
30%
医学/生命科学
10%
法律
11%
新闻/综合
18%
科学/技术
/工程
17%
数字信息资源概述:产生与发展(续)
信息存取与检索
数据库:网络数据库比例越来越大,人们为数
据库检索支付费用的比例不断增加,数据库检
索人次飞速增长…
电子期刊:出版周期短,可以检索和重复下载
全文,图像与文本结合,包含有多媒体及其它
类型动态信息,具备超链接功能,可以向用户
主动提供期刊目次报道服务…
电子图书:可以逐页阅读,并能够快速检索书
中的信息 …
电子报纸:网上阅读…
其他网络学术资源:飞速发展…
数字信息资源概述:产生与发展(续)
电子资源现状(以北大图书馆为例)——
数据库:
370余种410多个,其中外文160种187个;
覆盖北大所有重点学科
电子期刊:
中文9000余种20000余份(纸质期刊4000余种)
西文14000余种20000余份(纸质期刊3000余种)全世界总
量大于24000种
除覆盖北大所有重点学科外,更在工程、能源、医学、农
业等学科弥补传统资源的不足
电子图书:
中文18万余册,覆盖所有学科,以教学参考资料为主;另
中文电子古籍:近4000部 总量近100万
西文电子图书:6000余册 总量约10万
电子报纸:中文近300种,外文500余种
数字信息资源概述:类型
按性质和功能:
一次文献:全文数据库、电子期刊、电子图书报纸..
二次文献:文摘/索引数据库、书目数据库、搜索引擎..
三次文献:元搜索引擎
按生产途径和发布范围:
见数字信息资源结构图
按载体:
光盘:CA光盘版,SCI光盘版…
网络数据库:CA网络版SciFinder,WOS…
按学科:
数字信息资源概述:类型(续)
参考数据库
全文数据库
事实数据库
电子图书
电子期刊
电子报纸
搜索引擎/分类指南
网络学术资源学科导航
FTP资源
其他:网站、BBS、新闻组等
数字信息资源概述:类型(续)
参考数据库(Reference database)
概念:
参考数据库是指包含各种数据、信息或
知识的原始来源和属性的数据库。它报
道文献信息的存在,揭示文献信息的内
容。
参考数据库信息源:
期刊、报告、会议论文、专利文献、学
位论文、技术标准、图书、政府出版物、
报纸、各种数字资料等。
数字信息资源概述:类型(续)
参考数据类型-按数据库内容划分
书目数据库
如图书馆的馆藏机读目录。
文摘数据库
如 INSPEC,
Chemical
Biological Abstracts等。
Abstracts,
索引数据库
如Science Citation Index, Engineering Index等。
数字信息资源概述:类型(续)
参考数据库的结构
构成:参考数据库的基本组成单位为记录,而
记录是由字段组成。
记录(record):作为一个单位来处理的数据集合,
在参考数据库中,一条记录通常指一篇特定文
献。
字段(field):构成记录的单元,用来描述记录的
某一属性。如一般记录中包含下列字段:题目、
作者、出处、关键词、主题词、文摘、题目、
出版社、专利号、报告号、访问号等。
数字信息资源概述:类型(续)
参考数据库的特点
综合性:数据量大,文献类型齐全,索引系统
完备,语种多,出版连续性强。
出版物类型:出版历史悠久,大多数数据库具
有对应的印刷出版物。
数据库结构:结构简单,数据规范性好,记录
格式固定。
使用:参考数据库的使用一般是开放性的,可
以购买、租用,也可联机检索。
标引:多数数据库具有规范的主题标引词。
文件格式:多采用文本文件格式。
数字信息资源概述:类型(续)
参考数据库的用途
主要用途是搜集文献线索,快速和全面
的获取某个主题、学科、领域的文献信
息。
用于制定个性化的用户服务,如最新目
次报道、定题服务、回溯服务等。
用于各类统计和评估,如统计期刊、个
人或机构的发文量、文章被转载或被引
用情况,评估期刊影响力等。
数字信息资源概述:类型(续)
全文数据库
英文为full-text database,即收录有原始文
献全文的数据库,以期刊论文、会议论
文、政府出版物、研究报告、法律条文
和案例、商业信息等为主。如美国的
LEXIS-NEXIS数据库、学术期刊图书馆
(ProQuest Academic Research Library)
及《中国人民大学书报资料中心复印报
刊资料全文数据库》等。
数字信息资源概述:类型(续)
事实数据库
英文为factual database,指包含大量数据、事
实,直接提供原始资料的数据库,又分为数值
数据库(numeric database)、指南数据库
(directory database)、术语数据库
(terminological database)等,相当于印刷型
文献中的字典、辞典、手册、年鉴、百科全书、
组织机构指南、人名录、公式与数表、图册
(集)等。数值数据库,指专门以数值方式表
示数据,如统计数据库、化学反应数据库等;
指南数据库,如公司名录、产品目录等;术语
数据库,即专门存储名词术语信息、词语信息
等的数据库,如电子版百科全书、网络词典等。
数字信息资源概述:类型(续)
电子期刊
英文为electronic journals或简称ejournal,包括:
与纸本期刊并行的电子期刊,如著名的《科
学》(Science)、《自然》(Nature)、
Elsevier/Wiley/Springer/Kluwer等出版商
的电子期刊、中国电子期刊杂志社的期刊等;
纯电子期刊,如《数字图书馆杂志》(DLib Magazine)
数字信息资源概述:类型(续)
电子图书
英文为electronic books,最初的电子
图书主要以百科全书、字典词典等工具
书为主,但近年来发展迅速,已涉及到
了很多学科领域,文学作品、学术专著
所占比例越来越大,电子图书正在逐步
发展成为比较主要的数字信息资源
如国外的NetLibrary、Ebrary;国内的
超星数字图书馆、书生之家电子图书、
方正Apabi数字图书馆等
数字信息资源概述:类型(续)
电子报纸
英文为electronic newspaper,目前网
上已有数千种报纸供用户使用。同电子
期刊一样,电子报纸同样也有印刷型报
纸的电子版和纯电子报纸两种类型
电子报纸全文检索系统如人民日报等;
全文数据库中的电子报纸如ABI、lexis、
中国资讯行全文数据库等;还有网上免
费的电子报纸(印刷型报纸的电子版);
纯电子报纸如《圣何塞信使报》
数字信息资源概述:类型(续)
搜索引擎/分类指南
英文为search engine,是目前利用互联网开放信
息的常用工具,也可以称得上是互联网开放信息的
索引目录。搜索引擎主要是使用一种计算机自动搜
索软件,在互联网上检索,将检索到的网页编入数
据库中,并进行一定程度的自动标引,用户使用时
输入检索词,搜索引擎将其与数据库中的信息匹配,
然后产生检索结果。例如常用的Yahoo、Hotbot、
Alta Vista、Excite、Google、天网、悠游等。分
类指南是将搜索到的网页按主题内容组织成等级结
构(主题树),用户按照这个目录逐层深入,直到
找到所需文献。通常搜索引擎与分类指南是结合在
一起的,例如Yahoo、新浪、悠游等
数字信息资源概述:类型(续)
网络学术资源学科分类导航
将互联网上的开放信息加以甄别、筛选
和科学整理,按学科组织起来,构成完
整的学科导航系统,为教学、科研、技
术人员提供各类学术信息。与搜索引擎/
分类指南不同的是,网络学术资源的学
科导航库通常是由图书馆单独或联合建
设的。例如CSDL的学科信息门户
http://www.csdl.org.cn
数字信息资源概述:类型(续)
FTP资源
FTP含义是File Transfer Protocol,意为文件
传送协议,是互联网上最早应用的协议之一,
它可以使用户远程登录到远端计算机上,把其
中的文件传回到自己的计算机上,或把自己计
算机上的文件上传到远端计算机系统上。所谓
FTP资源,是指互联网上的开放FTP站点,这些
站点允许用户登录上去,从中下载各类数据、
资料、软件等。
可以利用FTP搜索引擎查找FTP资源,例如北大
天网文件引擎http://e.pku.edu.cn
第二部分
数字信息资源的检索
数字信息资源检索:检索系统
检索系统
检索系统构成
检索系统评价
联机数据库检索
光盘数据库检索
网络数据库检索
检索语言
相关的网络基础知识
数字信息资源检索:检索系统(续)
检索系统构成——物理构成
硬件(hardware):也可以说是硬件环境,是和计
算机检索有关的各种硬件设备的总称,如大型计算
机主机(服务器)、存储器(硬盘或光盘)、网络
(广域网、局域网、存储区域网)、输入输出设备
(键盘、打印机、鼠标等)、计算机终端或个人计
算机(PC)等。
软件(software):与计算机检索相关的数据库系
统软件及相关应用软件。包括:信息采集、存储、
信息标引加工、建库、词表管理、用户检索界面、
提问处理、网络发布、数据库管理等模块。随着网
络和计算机技术的发展,软件的开发平台、程序语
言的持续升级,用户功能需求的增加,这一部分的
具体结构也在不断发生变化。
数字信息资源检索:检索系统(续)
检索系统构成——物理构成(续)
数据库(database):数据库是指按一定方式、
以数字形式存储、可通过计算机存取、相互关
联的数据集合。数据库的特点是:重复数据少;
可以共享数据资源,以最优的方式为一个或多
个应用服务;数据具有独立性,其存放独立于
应用程序之外。由于数据库中的信息都经过了
详细、精心的选择和加工,主题化,有序,能
够提供多种检索途径,因此相对互联网上无组
织和大量无用的信息来说,检索结果准确,时
间少,价值高。从发展的角度看,以网络为中
心的分布式数据库系统是今后的发展趋势。
数字信息资源检索:检索系统(续)
检索系统构成——功能划分
信息采集模块(collection):本模块的任务是连续、
快速地采集各类信息,为数据库提供充足的数据来
源。
信息存储模块(repositories):存储介质包括磁带、
磁盘、光盘。从根本上讲,存储方式决定了应用方
式,存储方案决定了整个系统的的扩展性和灵活性。
标引著录模块(description):即对信息的内容和
特征进行分析,然后给予一定数量的标识,作为信
息组织、存储与检索的基础。例如信息的名称、创
作者、主题、分类、出版/生产时间、出版/生产者、
关键词等,都可以作为信息的描述性标识。
数字信息资源检索:检索系统(续)
检索系统构成——功能划分(续)
规范模块(authorities):指对信息特征和用户
提问的语言形式做出规定,如主题词表、人名
规范、地名规范、时代名称规范等,目的在于,
一是使用户的检索更具准确性;二是逐步形成
一个知识网络,通过相关信息的提供,使用户
的检索更为完整。
内容发布模块(publish):将数据库内容传递
到网络上,让用户以常规手段(如通过浏览器)
查询浏览。
数字信息资源检索:检索系统(续)
检索系统构成——功能划分(续)
检索模块(access):也就是狭义理解的检索系统,即
将用户的需求进行分析,并和数据库中的信息匹配
运算,再反馈给用户所需的检索结果。
检索界面:即人-机接口;
检索功能:如简单检索、复杂检索、浏览、图象检
索等;
检索途径:如题名、作者、主题、文摘等检索入口;
检索技术:如布尔逻辑、组配检索、截词符、词根
检索、位置算符等;
检索结果:打印、存盘、结果格式、二次检索;
提问处理:也可称匹配运算,即处理和运算用户的
检索式。
数字信息资源检索:检索系统(续)
检索系统构成——功能划分(续)
服务模块(services):这是在传统检索系统基础上发
展起来的新功能,如最新目次报道服务、文献传递
服务,虚拟咨询服务等。
管理模块(administration):主要指管理客户端,即
对用户和用户行为进行管理和调查分析。主要包括
三个部分,一是对用户的管理;二是运用数学和统
计学方法,对用户行为的各种相关信息进行累积、
加工、分析,生成各种状态报告,提供给数据库生
产者、系统开发者和用户,以便对数据库及其系统
进行修改、完善,使其不断得到提高;三是监控系
统使用情况,如观察用户有无违反版权规定、恶意
下载(abuse)现象,并对违法用户进行相应处罚。
数字信息资源检索:检索系统(续)
检索系统评价-主要评价指标
检索功能:指系统提供给用户的各种检索途径和检
索入口。
检索技术:即系统是否允许用户使用各种检索技巧,
以便更准确和快速地找到自己所需信息。
检索结果:即用户是否得到了内容全面、下载和使
用均比较方便的检索结果,例如显示格式包含的内
容是否全面;检索结果数量较多时是否允许在翻页
的同时标记记录;是否提供存盘、打印、email发送
等多种下载功能;检索结果是否与其它资源之间存
在链接,为用户提供查找到其它资源的捷径等。
用户服务:主要是指在检索功能之外,系统还为用
户提供了哪些服务。
数字信息资源检索:联机检索
联机检索(online retrieval)是指用户
利用计算机终端设备,通过通信线路
或网络,在联机检索中心的数据库中
进行检索并获得信息的过程。
通讯网络
联机检索中心
通讯卫星
检索终端
M
M
多路复用器
中央计算机
外设
数字信息资源检索:光盘检索
联机光盘检索是指把单用户系统发展成
多用户的局域网系统,通过网络(如校
园网)连接多个用户终端,用服务器管
理多组光盘数据库及其检索系统
客户端
局域网
光盘服务器
客户端
端
系统软件
光盘驱动器
局域网
客户端
数据库
数字信息资源检索:网络数据库检索
网络数据库(web-database)检索是指用
户在自己的客户端上,通过互联网和浏览
器界面对数据库进行检索,是基于互联网
的分布式特点开发和应用的
数字信息资源检索:检索语言
检索语言的概念与作用
检索语言(information retrieval language),是信
息存储与检索过程中用于描述信息特征和表达用户信
息提问的一种专门语言。所谓检索的运算匹配就是通
过检索语言的匹配来实现的。检索语言是人与检索系
统对话的基础。
信息
存储
信息
检索
信息
内容
信息
需求
主题
分析
主题
分析
主题
概念
主题
概念
标引
标引
情
报
检
索
语
言
标
识
输出
检索系统
标
识
检索
结果
检索语言作用示例——
已知3篇文献的篇名,在对信息存储的过程中,对这三
篇文献内容分别进行了分析,并使用检索语言对其进行
标引,标引结果为:
文 献 1 : 篇 名 ( title):A model of multimedia
information retrieval
主 题 ( subject):information retrieval,multimedia
computer applications
文 献 2 : 篇 名 ( title):The Information retrieval in
chemistry WWW server
主题(subject):chemistry,educational materials
文献3:篇名(title):ERIC resources
主题(subject):Educational materials
标引后这三篇文献分别被存储进数据库。
信息检索过程:检索语言及标识匹配。
检索语言作用:对文献的外部特征和内容进行多层次描
述,提供多种检索途径,以方便用户从不同角度检索。
数字信息资源检索:检索语言(续)
检索语言类型——人工语言
人工语言:人工语言(artificial language)
是根据信息检索的需要而由人工创制的,
采用规范词(controlled term),用来专
指或网罗相应的概念,可以将同义词、
近义词、相关词、多义词及缩略词规范
在一起,由人工控制,包括
分类检索语言(分类号)
主题检索语言:标题词、单元词、叙词
代码检索语言
数字信息资源检索:检索语言(续)
检索语言类型——人工语言(续)
分类检索语言:按照学科范畴及知识之间的关
系列出类目,并用数字、字母符号对类目进行
标识的一种语言体系,也称分类法。使用这种
检索语言建立的信息检索系统可以反映知识的
从属、派生、重合、交叉、并列等关系,用户
因此可以鸟瞰全貌、触类旁通,系统地掌握和
利用一个学科或专业范围的知识和信息。目前
常用的分类法有《中国图书馆图书分类法》
(简称《中图法》)、《美国国会图书馆分类
法》、《杜威分类法》、《国际专利分类表》
等。
数字信息资源检索:检索语言(续)
检索语言类型——人工语言(续)
主题检索语言:由主题词汇构成,即将自然语言
中的名词术语经过规范化后直接作为信息标识,按
字母顺序排列标识,通过参照系统揭示主题概念之
间的关系,也称主题法。主题语言表达的概念比较
准确,具有较好的灵活性和专指性,不同的检索系
统、不同的专业领域可以有各自的主题词表。
标题词语言(subject heading):是一种先组式
的规范词语言,即在检索前已经将概念之间的关
系组配好。具有较好的通用性、直接性和专指性,
灵活性较差。常用的标题词表有《美国国会标题
词表》(Library of Congress Subject)、《医学
主题词表》(Medical Subject Headings)。
数字信息资源检索:检索语言(续)
检索语言类型——人工语言(续)
主题检索语言(续):
单元词(元词法,uniterm):是一种最基
本的、不能再分的单位词语,亦称元词,从
文献内容中抽出,再经规范,能表达一个独
立的概念。例如“信息检索”是一个词组,
“信息”和“检索”才是单元词。
叙词(叙词法,descriptor):是计算机检索
中使用较多的一种语言,可以用复合词来表
达主题概念,在检索时可由多个叙词形成任
意合乎逻辑的组配,形成多种组合方式。由
叙词组成的词表叫叙词表(thesaurus)。
数字信息资源检索:检索语言(续)
检索语言类型——人工语言(续)
代码检索语言
就事物的某一方面特征,用某种代码系统来
加以标引和排列,目前主要应用于化学领域。
例如,化合物的分子式索引系统,环状化合
物的环系索引系统等。
此外,如DII专利代码索引,BP的concept
code list…
数字信息资源检索:检索语言(续)
检索语言类型——自然语言
自然语言(natural language)检索用词是从信息内
容本身抽取的,主要依赖于计算机自动抽词技术完
成,辅以人工自由标引(非依据词表的标引方法),
是非规范词(uncontrolled term)。自然语言标识包
括——
关键词(keyword):直接从信息资源名称、正文或文摘
中抽出的代表信息主要内容的重要语词。
题名:信息资源的名称,如论文篇名、图书书名、网站名
称等。
全文:从资源的全部内容中自动抽取、查找,是目前网上
各类搜索引擎使用的最多的方法。
引文:将文献所引用的参考文献的作者、篇名、来源出版
物抽取出来进行标引。
此外还有责任者(作者)、摘要等。
数字信息资源检索:检索语言(续)
检索语言类型——人工语言和自然语言的关系
成熟的检索系统中,两种语言并用
主题词和关键词
人工语言和自然语言正在不断融合,形成一种新的
知识体系——NKOS(Networked knowledge
organization systems / schemes / services)。它融合
了叙词表、标题词表、语义网络、分类体系的功能,
得到了普遍关注,并开始在各类数据库、搜索引擎
以及知识管理方面应用,例如Yahoo、Google的主
题分类指南,以及许多企业门户网站的分类索引服
务即是NKOS体系应用的雏形。
数字信息资源检索:相关基础知识
关于网络
互联网:Internet(现在译为因特网),是世界上最
大的计算机互联通信网络,最早起源于美国国防部的
计算机网络ARPAnet。它本身不是一种具体的物理网
络,而是一种虚拟的计算机网络。互联网络实际上是
把全世界各个地方已有的各种网络,如计算机网络、
数据通信网以及公用电话交换网等通过TCP/IP协议相
互联结,组成一个跨越国界的庞大的综合网络
广域网(Wide Area Network – WAN):分布距离大
于50公里,可以覆盖多个单位或多个国家,如我国的
Chinanet、CERnet等。
局域网(Local Area Network – LAN):分布距离在
10公里范围内,通常为某个单位专用,如北京大学校
园网等。具有结构简单、投资少、数据传输速度快、
可靠性好、保密性强等特点。
数字信息资源检索:相关基础知识
关于网络技术与结构
服务器server
网卡SCSI
路由器router:路由器是一种连接多个网
络或网段的网络设备,它能将不同网络
或网段之间的数据信息进行“翻译”,
以使它们能够相互“读”懂对方的数据,
从而构成一个更大的网络
网关gateway:网关实质上是一个网络通
向其他网络的IP地址。
数字信息资源检索:相关基础知识
关于网络传输
TCP/IP协议
客户端/服务器client/server
域名(domain name)与主机(host)
IP地址与IP范围
ISP:Internet Service Provider
ICP:Internet Content Provider
调制解调器(modem)
数字信息资源检索:相关基础知识
关于网络资源的应用与检索
万维网WWW
浏览器:Netscape或Internet Explorer
FTP:File Transfer Protocol
超文本文件HTML file
超文本传输协议http
统一资源定位器URL
主页homepage
电子邮件email
新闻组newsgroup(usenet)
搜索引擎search engine
第三部分
数字信息资源的
检索方法和检索技术
数字信息资源检索方法/技术
检索方法(详见第四讲)
课题分析
选择信息源
构造检索策略
调整检索策略
检索结果评价
数字信息资源检索方法/技术(续)
检索功能
浏览:由系统提供一个树状结构的概念
等级知识体系,用户可以沿着这颗“树”
进入不同的分支,到达叶子节点,并在
节点看到检索结果列表。
索引:提供一个线性的表单,可以将任
何一个标引字段中的概念按字母顺序线
性排列起来,不分等级。例如:人名索
引、出版物索引、地名索引、主题索引、
机构索引等。
数字信息资源检索方法/技术(续)
中文科技期刊库的浏览
中文科技期刊全文数据库提供了
《中刊库》学科导航和刊名导航,
以便用户进行不同角度的浏览需
求。分类导航按照《中国图书资
料分类法》的标准,逐层进行分
类限制。如用户选中选中某类目,
则检索结果包括此类目下的全部
数据库。例如“图书情报”是一
级类目,“图书馆学、图书馆事
业”是二级类目,而“读者工作”
为三级类目。左图标识是书本,
表示该类目还有下位类,而 标
识是页面,表示该类目是终端类
目。
数字信息资源检索方法/技术(续)
实例:ProQuest系统的索引体系
ProQuest系统提供了四种索引:主题(subjects)、公司(companies)、人名
(people)和地名(locations),分别取自于主题词、公司名称、个人名称和地理
名称四个标引字段。选择任一索引后,输入任意想要查找的词汇甚至若干字母,系统
会按右截断的方式显示在这之后的所有词汇,供用户查看。也可以直接点击检索界面
上方的26个字母,按字母顺序翻看。索引工具最适于用户查找拼法相近的一组词汇,
记不住拼写时也可以使用这种方法。
数字信息资源检索方法/技术(续)
检索功能(续):
简单检索:为用户提供一个简单的检索界
面,页面上通常只有一个检索框。
复杂检索/高级检索:为专业用户、资深用
户提供的比较复杂的检索界面,可以构建
比较细致的检索式,帮助用户进行精确检
索。
专家检索:构建专业的检索策略进行检索
二次检索:在检索结果内进一步检索,使
检索结果更精练、准确。
数字信息资源检索方法/技术(续)
实例:Kluwer简单检索和复杂检索界面
简单检索提供一个检索条件输入框和
选择检索字段的下拉框。检索字段包
括全面、篇名、作者、文摘和刊名5个
检索入口。同时,可以通过限制出版
日期、限制文献种类,可以把检索结
果限制在一定范围内,从而达到快速
查准的目的。
复杂检索提供多个检索条件输入框,可
以输入一个检索条件进行简单检索或输
入多个检索条件实现多个检索字段的组
合检索。检索字段比简单检索增加了
ISSN、关键词和作者单位。与简单检索
最大不同的是,复杂检索可以提供提供
的逻辑算符(AND.OR.NOT)进行组配
检索。
数字信息资源检索方法/技术(续)
检索功能(续)
自然语言检索:检索系统在检索界面上提供的
自然语言检索,指的是用户可以直接输入一句
话,就象对人谈话一样。例如:
hurricanes in the Atlantic and Pacific (大西洋和太平
洋的飓风)
How does El Nino affect weather?(厄尔尼诺现象
是怎么影响气候的?)
到目前为止,限于计算机智能检索技术的发展,
尚没有检索系统能够提供很好的自然语言检索
功能,因此这方面的功能尚不具备查全查准的
实用效果。
数字信息资源检索方法/技术(续)
检索技术
布尔逻辑检索
位置算符检索
截词检索与词根检索
字段检索
全文检索
其他检索技术:嵌套、限制、大小写敏感、
禁用词
数字信息资源检索方法/技术(续)
检索技术-布尔逻辑检索:
运用布尔逻辑算符(Boolean
operators)对检索词进行逻辑
组配,表达两个概念之间的逻
辑关系。
逻辑“与”(and):检索时,命中信息同时含有两个概念,专指性
强;
逻辑“或”(or):检索时,命中信息包含所有关于逻辑A或逻辑B
或同时有A和B的,检索范围比and扩大。
逻辑“非”(not):命中信息只包括逻辑A,不包括逻辑B或同时有
A和B的,排除了不需要的检索词。
逻辑“异或”(xor):命中信息包含逻辑A,也包含逻辑B,但不包
含同时含有A和B的信息。
数字信息资源检索方法/技术(续)
检索技术-布尔逻辑检索(续)
在不同的检索系统里,布尔逻辑的运算次序是不同的,因此
会导致检索结果的不同。通常运算次序有这样几种形式:
一是按算符出现的顺序,如果是and、or、not,就按and、
or、not的顺序运算;如果是or、not、and,就按or、not、
and的顺序运算;
二是默认and优先运算,其次是or、not;
三是默认or优先运算,然后是and、not。一般来讲,检
索系统的“帮助”文件中都会有这类说明,只要注意查
看即可。
在中文数据库里,布尔逻辑运算符有时用and、or、not下拉
菜单形式表示,供用户选择;有时用“*”号表示逻辑“与”,
用“+”表示逻辑“或”,用“-”表示逻辑“非”。
数字信息资源检索方法/技术(续)
检索技术-位置算符(position)检索:
即运用位置算符(position operators)
表示两个检索词间的位置邻近关系,又
叫邻接检索(proximity)。这种检索技
术通常只出现在西文数据库中,在全文
检索中应用较多。如果说布尔逻辑算符
是表示两个概念之间的逻辑关系的话,
位置算符表示的是两个概念在信息中的
实际物理位置关系 。
数字信息资源检索方法/技术(续)
检索技术-位置算符检索(续)
With(field): same field or same
sequence
Near: same sentence
Pre (precede): library pre science 
library science, library with science, ...
w/n (Within): library w/n science 
library science, science library, …
Field: same field
Same: same paragraph
数字信息资源检索方法/技术(续)
检索技术-位置算符检索(续)
常用的位置算符
算符
功能
表达式
检索结果
W, W/N 两词相邻,按 Education
with
输入时顺序排 (W)school, 或
列
within
Education
(也有数据库 with school
允许顺序颠倒)
Education school
Education schools
(school of education
schools of education)
nW
同上,两词中 Education
间 允 许 插 入 n (1W) school
个词
Education school
Education schools
Education and music school
School of continued
education
Pre
两词相邻,按 Education
输入顺序排列 Pre school
Education school
Education schools
数字信息资源检索方法/技术(续)
检索技术-位置算符检索(续)
常用的位置算符(续)
算符
N,
adj
功能
表达式
检索结果
near, 两 词 相 邻 , Education (N) Education school
顺 序 可 以 颠 school, 或
Education schools
倒
Education near School of education
school
nN
同 上 , 两 词 Education (1N)
中 间 可 以 插 school
入n个词
F
两个词同在
一个标引字
段中
Same
两个词同在 Education Same 同时出现在一个段落中
school
一个段落
(paragraph)
中
Education (F)
school
Education school
School of education
Education and music school
例如同时出现在题名或文摘字段中
数字信息资源检索方法/技术(续)
检索技术-位置算符检索(续)
不是每一个检索系统都使用上述位置算
符,不同的系统使用的位置算符不同,
不同的算符在不同的系统中有时可能含
义不同。例如“W”算符,在Dialog检索
系统表示两词相邻,输入顺序不变;在
ProQuest系统中,“W”算符表示输入的
两个词相邻,但顺序可变,如顺序要求
不变,则使用“Pre”算符。用户可以查阅
help帮助文档说明。
数字信息资源检索方法/技术(续)
检索技术-截词检索
截词检索:
用截词符号“?”、“*”或“$”加在检索
词的前后或中间,以检索一组概念相关或同
一词根的词。这种检索方式可以扩大检索范
围,提高查全率,主要用于西文数据库检索。
中文数据库通常不使用这种技术。
截词检索类型
截词方式根据截词的位置不同,分为前截断、
后截断、中截断;根据截断的数量不同,分
为有限截断和无限截断。
数字信息资源检索方法/技术(续)
检索技术-截词检索(续)
后截断:是前方一致检索,又称右截断,截词符放
在被截词的右边,是最常用的截词检索技术。后截
断主要用于下列检索:词的单复数检索,如company
与companies;年代检索,如199?(九十年代);
词根检索,如socio*,可以检索sociobiology,
socioecology,sociology等20多个词汇。
前截断:截词符放在被截词的左边,可与后截断一
同使用。例如输入*magnetic,可检electromagnetic、electromagnetic、thermo-magnetic等。
目前这种检索技术应用已经极少。
中截断:把截词符放在词的中间。如organi?ation,
可检索organisation、organization。这种方式查
找英美不同拼法的概念最有效。
数字信息资源检索方法/技术(续)
检索技术-截词检索(续)
举例——
符号:*,?,$
后截断:librar*  library, libraries,
librarian,…
前截断:*magnetic  magnetic, electromagnetic, electromagnetic, thermomagnetic, …
中截断:organi?ation  organization,
organisation
数字信息资源检索方法/技术(续)
检索技术-截词检索(续)
截词类型:根据截断的数量不同,分为
有限截断和无限截断。
无限截断:不限制被截断的字符数量,例如
输入educat?,可以检索educator,
educators,educated,educating,
education,educational,等等。
有限截断:限制被截断的字符数量,例如输
入educat**,表示被截断的字符只有两个,
可以检索educator,educated两个词。
数字信息资源检索方法/技术(续)
检索技术-词根检索
有些检索系统不支持使用截词符的截词
检索技术,系统默认的是词根检索,即
输入一个词,系统会自动检索出同一词
根的一组词,例如输入gene,可以检索
出gene,genic,genome等。这是一种
智能检索方式,但要求系统内必须预先
配置词根表。
IEE/IEEE全文数据库默认词根检索
有些数据库需要加入词根运算符如“$”
才进行词根检索