如何查找资料

数字信息资源
及其检索概述
北京大学图书馆张春红
E-mail:[email protected]
第一部分
数字信息资源的概念与类型
数字信息资源概述：定义
数字信息资源：
狭义上也称为电子资源，指一切以数字形式
生产和发行的信息资源。所谓数字形式，是
以能被计算机识别的、不同序列的“0”和
“1”构成的形式。数字资源中的信息，包
括文字、图片、声音、动态图像等，都是以
数字代码方式存储在磁带、磁盘、光盘等介
质上，通过计算机输出设备和网络传送出去，
最终显示在用户的计算机终端上。
数字信息资源概述：特点
存储介质和传播形式发生变化
以多媒体作为内容特征
信息资源类型多种多样
多层次的信息服务功能
更新速度快、时效率性强
具备检索系统，使用方便快捷
不受时间、地域限制，可随时随地存
取
数字信息资源概述：产生与发展
最早形式：数据库
产生标志：1961年美国化学文摘社（CAS）开始发
行《化学题录》（Chemical Title）机读磁带
发展：
六十年代初，以《化学题录》和《医学索引》
（美国国家医学图书馆）的出现为标志，至1965
年已有大约20个数据库可供使用
1975年，已达到近300个数据库
七十年代莫到八十年代末，数量已达到3600多个
进入九十年代，网络和信息处理技术的发展，使
得基于互联网开发的数字资源及其检索系统有了
突飞猛进的增长。
数字信息资源概述：产生与发展（续）
数据库数量增长情况
1975年
1999年
增长倍数
数据库
301
11,681
39
数据库生产者
200
3,674
18
数据库代理商
105
2,454
23
数据记录条数
5,200万
128.6亿
242
数字信息资源概述：产生与发展（续）
数据库类型分布
多媒体数据库
图像数据库
3%
12%
其它
3%
数值数据库
12%
文字型数据库
70%
数字信息资源概述：产生与发展（续）
数据库内容分布
人文/社会科学/
交叉学科
14%
商业
30%
医学/生命科学
10%
法律
11%
新闻/综合
18%
科学/技术
/工程
17%
数字信息资源概述：产生与发展（续）
信息存取与检索
数据库：网络数据库比例越来越大，人们为数
据库检索支付费用的比例不断增加，数据库检
索人次飞速增长…
电子期刊：出版周期短，可以检索和重复下载
全文，图像与文本结合，包含有多媒体及其它
类型动态信息，具备超链接功能，可以向用户
主动提供期刊目次报道服务…
电子图书：可以逐页阅读，并能够快速检索书
中的信息 …
电子报纸：网上阅读…
其他网络学术资源：飞速发展…
数字信息资源概述：产生与发展（续）
电子资源现状（以北大图书馆为例）——
数据库：
370余种410多个，其中外文160种187个；
覆盖北大所有重点学科
电子期刊：
中文9000余种20000余份（纸质期刊4000余种）
西文14000余种20000余份（纸质期刊3000余种）全世界总
量大于24000种
除覆盖北大所有重点学科外，更在工程、能源、医学、农
业等学科弥补传统资源的不足
电子图书：
中文18万余册，覆盖所有学科，以教学参考资料为主；另
中文电子古籍：近4000部总量近100万
西文电子图书：6000余册总量约10万
电子报纸：中文近300种，外文500余种
数字信息资源概述：类型
按性质和功能：
一次文献：全文数据库、电子期刊、电子图书报纸..
二次文献：文摘/索引数据库、书目数据库、搜索引擎..
三次文献：元搜索引擎
按生产途径和发布范围：
见数字信息资源结构图
按载体：
光盘：CA光盘版,SCI光盘版…
网络数据库：CA网络版SciFinder，WOS…
按学科：
数字信息资源概述：类型（续）
参考数据库
全文数据库
事实数据库
电子图书
电子期刊
电子报纸
搜索引擎/分类指南
网络学术资源学科导航
FTP资源
其他：网站、BBS、新闻组等
数字信息资源概述：类型（续）
参考数据库（Reference database）
概念：
参考数据库是指包含各种数据、信息或
知识的原始来源和属性的数据库。它报
道文献信息的存在，揭示文献信息的内
容。
参考数据库信息源：
期刊、报告、会议论文、专利文献、学
位论文、技术标准、图书、政府出版物、
报纸、各种数字资料等。
数字信息资源概述：类型（续）
参考数据类型－按数据库内容划分
书目数据库
如图书馆的馆藏机读目录。
文摘数据库
如 INSPEC,
Chemical
Biological Abstracts等。
Abstracts,
索引数据库
如Science Citation Index, Engineering Index等。
数字信息资源概述：类型（续）
参考数据库的结构
构成：参考数据库的基本组成单位为记录，而
记录是由字段组成。
记录(record)：作为一个单位来处理的数据集合，
在参考数据库中，一条记录通常指一篇特定文
献。
字段(field)：构成记录的单元，用来描述记录的
某一属性。如一般记录中包含下列字段：题目、
作者、出处、关键词、主题词、文摘、题目、
出版社、专利号、报告号、访问号等。
数字信息资源概述：类型（续）
参考数据库的特点
综合性：数据量大，文献类型齐全，索引系统
完备，语种多，出版连续性强。
出版物类型：出版历史悠久，大多数数据库具
有对应的印刷出版物。
数据库结构：结构简单，数据规范性好，记录
格式固定。
使用：参考数据库的使用一般是开放性的，可
以购买、租用，也可联机检索。
标引：多数数据库具有规范的主题标引词。
文件格式:多采用文本文件格式。
数字信息资源概述：类型（续）
参考数据库的用途
主要用途是搜集文献线索，快速和全面
的获取某个主题、学科、领域的文献信
息。
用于制定个性化的用户服务，如最新目
次报道、定题服务、回溯服务等。
用于各类统计和评估，如统计期刊、个
人或机构的发文量、文章被转载或被引
用情况，评估期刊影响力等。
数字信息资源概述：类型（续）
全文数据库
英文为full-text database，即收录有原始文
献全文的数据库，以期刊论文、会议论
文、政府出版物、研究报告、法律条文
和案例、商业信息等为主。如美国的
LEXIS-NEXIS数据库、学术期刊图书馆
（ProQuest Academic Research Library）
及《中国人民大学书报资料中心复印报
刊资料全文数据库》等。
数字信息资源概述：类型（续）
事实数据库
英文为factual database，指包含大量数据、事
实，直接提供原始资料的数据库，又分为数值
数据库（numeric database）、指南数据库
（directory database）、术语数据库
（terminological database）等，相当于印刷型
文献中的字典、辞典、手册、年鉴、百科全书、
组织机构指南、人名录、公式与数表、图册
（集）等。数值数据库，指专门以数值方式表
示数据，如统计数据库、化学反应数据库等；
指南数据库，如公司名录、产品目录等；术语
数据库，即专门存储名词术语信息、词语信息
等的数据库，如电子版百科全书、网络词典等。
数字信息资源概述：类型（续）
电子期刊
英文为electronic journals或简称ejournal，包括：
与纸本期刊并行的电子期刊，如著名的《科
学》（Science）、《自然》（Nature）、
Elsevier/Wiley/Springer/Kluwer等出版商
的电子期刊、中国电子期刊杂志社的期刊等；
纯电子期刊，如《数字图书馆杂志》（DLib Magazine）
数字信息资源概述：类型（续）
电子图书
英文为electronic books，最初的电子
图书主要以百科全书、字典词典等工具
书为主，但近年来发展迅速，已涉及到
了很多学科领域，文学作品、学术专著
所占比例越来越大，电子图书正在逐步
发展成为比较主要的数字信息资源
如国外的NetLibrary、Ebrary；国内的
超星数字图书馆、书生之家电子图书、
方正Apabi数字图书馆等
数字信息资源概述：类型（续）
电子报纸
英文为electronic newspaper，目前网
上已有数千种报纸供用户使用。同电子
期刊一样，电子报纸同样也有印刷型报
纸的电子版和纯电子报纸两种类型
电子报纸全文检索系统如人民日报等；
全文数据库中的电子报纸如ABI、lexis、
中国资讯行全文数据库等；还有网上免
费的电子报纸（印刷型报纸的电子版）；
纯电子报纸如《圣何塞信使报》
数字信息资源概述：类型（续）
搜索引擎/分类指南
英文为search engine，是目前利用互联网开放信
息的常用工具，也可以称得上是互联网开放信息的
索引目录。搜索引擎主要是使用一种计算机自动搜
索软件，在互联网上检索，将检索到的网页编入数
据库中，并进行一定程度的自动标引，用户使用时
输入检索词，搜索引擎将其与数据库中的信息匹配，
然后产生检索结果。例如常用的Yahoo、Hotbot、
Alta Vista、Excite、Google、天网、悠游等。分
类指南是将搜索到的网页按主题内容组织成等级结
构（主题树），用户按照这个目录逐层深入，直到
找到所需文献。通常搜索引擎与分类指南是结合在
一起的，例如Yahoo、新浪、悠游等
数字信息资源概述：类型（续）
网络学术资源学科分类导航
将互联网上的开放信息加以甄别、筛选
和科学整理，按学科组织起来，构成完
整的学科导航系统，为教学、科研、技
术人员提供各类学术信息。与搜索引擎/
分类指南不同的是，网络学术资源的学
科导航库通常是由图书馆单独或联合建
设的。例如CSDL的学科信息门户
http://www.csdl.org.cn
数字信息资源概述：类型（续）
FTP资源
FTP含义是File Transfer Protocol，意为文件
传送协议，是互联网上最早应用的协议之一，
它可以使用户远程登录到远端计算机上，把其
中的文件传回到自己的计算机上，或把自己计
算机上的文件上传到远端计算机系统上。所谓
FTP资源，是指互联网上的开放FTP站点，这些
站点允许用户登录上去，从中下载各类数据、
资料、软件等。
可以利用FTP搜索引擎查找FTP资源，例如北大
天网文件引擎http://e.pku.edu.cn
第二部分
数字信息资源的检索
数字信息资源检索：检索系统
检索系统
检索系统构成
检索系统评价
联机数据库检索
光盘数据库检索
网络数据库检索
检索语言
相关的网络基础知识
数字信息资源检索：检索系统（续）
检索系统构成——物理构成
硬件（hardware）：也可以说是硬件环境，是和计
算机检索有关的各种硬件设备的总称，如大型计算
机主机（服务器）、存储器（硬盘或光盘）、网络
（广域网、局域网、存储区域网）、输入输出设备
（键盘、打印机、鼠标等）、计算机终端或个人计
算机（PC）等。
软件（software）：与计算机检索相关的数据库系
统软件及相关应用软件。包括：信息采集、存储、
信息标引加工、建库、词表管理、用户检索界面、
提问处理、网络发布、数据库管理等模块。随着网
络和计算机技术的发展，软件的开发平台、程序语
言的持续升级，用户功能需求的增加，这一部分的
具体结构也在不断发生变化。
数字信息资源检索：检索系统（续）
检索系统构成——物理构成（续）
数据库（database）：数据库是指按一定方式、
以数字形式存储、可通过计算机存取、相互关
联的数据集合。数据库的特点是：重复数据少；
可以共享数据资源，以最优的方式为一个或多
个应用服务；数据具有独立性，其存放独立于
应用程序之外。由于数据库中的信息都经过了
详细、精心的选择和加工，主题化，有序，能
够提供多种检索途径，因此相对互联网上无组
织和大量无用的信息来说，检索结果准确，时
间少，价值高。从发展的角度看，以网络为中
心的分布式数据库系统是今后的发展趋势。
数字信息资源检索：检索系统（续）
检索系统构成——功能划分
信息采集模块（collection）：本模块的任务是连续、
快速地采集各类信息，为数据库提供充足的数据来
源。
信息存储模块（repositories）：存储介质包括磁带、
磁盘、光盘。从根本上讲，存储方式决定了应用方
式，存储方案决定了整个系统的的扩展性和灵活性。
标引著录模块（description）：即对信息的内容和
特征进行分析，然后给予一定数量的标识，作为信
息组织、存储与检索的基础。例如信息的名称、创
作者、主题、分类、出版/生产时间、出版/生产者、
关键词等，都可以作为信息的描述性标识。
数字信息资源检索：检索系统（续）
检索系统构成——功能划分（续）
规范模块（authorities）：指对信息特征和用户
提问的语言形式做出规定，如主题词表、人名
规范、地名规范、时代名称规范等，目的在于，
一是使用户的检索更具准确性；二是逐步形成
一个知识网络，通过相关信息的提供，使用户
的检索更为完整。
内容发布模块（publish）：将数据库内容传递
到网络上，让用户以常规手段（如通过浏览器）
查询浏览。
数字信息资源检索：检索系统（续）
检索系统构成——功能划分（续）
检索模块(access)：也就是狭义理解的检索系统，即
将用户的需求进行分析，并和数据库中的信息匹配
运算，再反馈给用户所需的检索结果。
检索界面：即人-机接口；
检索功能：如简单检索、复杂检索、浏览、图象检
索等；
检索途径：如题名、作者、主题、文摘等检索入口；
检索技术：如布尔逻辑、组配检索、截词符、词根
检索、位置算符等；
检索结果：打印、存盘、结果格式、二次检索；
提问处理：也可称匹配运算，即处理和运算用户的
检索式。
数字信息资源检索：检索系统（续）
检索系统构成——功能划分（续）
服务模块(services)：这是在传统检索系统基础上发
展起来的新功能,如最新目次报道服务、文献传递
服务，虚拟咨询服务等。
管理模块(administration)：主要指管理客户端，即
对用户和用户行为进行管理和调查分析。主要包括
三个部分，一是对用户的管理；二是运用数学和统
计学方法，对用户行为的各种相关信息进行累积、
加工、分析，生成各种状态报告，提供给数据库生
产者、系统开发者和用户，以便对数据库及其系统
进行修改、完善，使其不断得到提高；三是监控系
统使用情况，如观察用户有无违反版权规定、恶意
下载（abuse）现象，并对违法用户进行相应处罚。
数字信息资源检索：检索系统（续）
检索系统评价－主要评价指标
检索功能：指系统提供给用户的各种检索途径和检
索入口。
检索技术：即系统是否允许用户使用各种检索技巧，
以便更准确和快速地找到自己所需信息。
检索结果：即用户是否得到了内容全面、下载和使
用均比较方便的检索结果，例如显示格式包含的内
容是否全面；检索结果数量较多时是否允许在翻页
的同时标记记录；是否提供存盘、打印、email发送
等多种下载功能；检索结果是否与其它资源之间存
在链接，为用户提供查找到其它资源的捷径等。
用户服务：主要是指在检索功能之外，系统还为用
户提供了哪些服务。
数字信息资源检索：联机检索
联机检索（online retrieval）是指用户
利用计算机终端设备，通过通信线路
或网络，在联机检索中心的数据库中
进行检索并获得信息的过程。
通讯网络
联机检索中心
通讯卫星
检索终端
M
M
多路复用器
中央计算机
外设
数字信息资源检索：光盘检索
联机光盘检索是指把单用户系统发展成
多用户的局域网系统，通过网络（如校
园网）连接多个用户终端，用服务器管
理多组光盘数据库及其检索系统
客户端
局域网
光盘服务器
客户端
端
系统软件
光盘驱动器
局域网
客户端
数据库
数字信息资源检索：网络数据库检索
网络数据库（web-database）检索是指用
户在自己的客户端上，通过互联网和浏览
器界面对数据库进行检索，是基于互联网
的分布式特点开发和应用的
数字信息资源检索：检索语言
检索语言的概念与作用
检索语言（information retrieval language），是信
息存储与检索过程中用于描述信息特征和表达用户信
息提问的一种专门语言。所谓检索的运算匹配就是通
过检索语言的匹配来实现的。检索语言是人与检索系
统对话的基础。
信息
存储
信息
检索
信息
内容
信息
需求
主题
分析
主题
分析
主题
概念
主题
概念
标引
标引
情
报
检
索
语
言
标
识
输出
检索系统
标
识
检索
结果
检索语言作用示例——
已知3篇文献的篇名，在对信息存储的过程中，对这三
篇文献内容分别进行了分析，并使用检索语言对其进行
标引，标引结果为：
文献 1 ：篇名（ title）：A model of multimedia
information retrieval
主题（ subject）：information retrieval，multimedia
computer applications
文献 2 ：篇名（ title）：The Information retrieval in
chemistry WWW server
主题（subject）：chemistry，educational materials
文献3：篇名（title）：ERIC resources
主题（subject）：Educational materials
标引后这三篇文献分别被存储进数据库。
信息检索过程：检索语言及标识匹配。
检索语言作用：对文献的外部特征和内容进行多层次描
述，提供多种检索途径，以方便用户从不同角度检索。
数字信息资源检索：检索语言（续）
检索语言类型——人工语言
人工语言：人工语言（artificial language）
是根据信息检索的需要而由人工创制的，
采用规范词（controlled term），用来专
指或网罗相应的概念，可以将同义词、
近义词、相关词、多义词及缩略词规范
在一起，由人工控制，包括
分类检索语言（分类号）
主题检索语言：标题词、单元词、叙词
代码检索语言
数字信息资源检索：检索语言（续）
检索语言类型——人工语言（续）
分类检索语言：按照学科范畴及知识之间的关
系列出类目，并用数字、字母符号对类目进行
标识的一种语言体系，也称分类法。使用这种
检索语言建立的信息检索系统可以反映知识的
从属、派生、重合、交叉、并列等关系，用户
因此可以鸟瞰全貌、触类旁通，系统地掌握和
利用一个学科或专业范围的知识和信息。目前
常用的分类法有《中国图书馆图书分类法》
（简称《中图法》）、《美国国会图书馆分类
法》、《杜威分类法》、《国际专利分类表》
等。
数字信息资源检索：检索语言（续）
检索语言类型——人工语言（续）
主题检索语言：由主题词汇构成，即将自然语言
中的名词术语经过规范化后直接作为信息标识，按
字母顺序排列标识，通过参照系统揭示主题概念之
间的关系，也称主题法。主题语言表达的概念比较
准确，具有较好的灵活性和专指性，不同的检索系
统、不同的专业领域可以有各自的主题词表。
标题词语言（subject heading）：是一种先组式
的规范词语言，即在检索前已经将概念之间的关
系组配好。具有较好的通用性、直接性和专指性，
灵活性较差。常用的标题词表有《美国国会标题
词表》（Library of Congress Subject）、《医学
主题词表》（Medical Subject Headings）。
数字信息资源检索：检索语言（续）
检索语言类型——人工语言（续）
主题检索语言（续）：
单元词（元词法，uniterm）：是一种最基
本的、不能再分的单位词语，亦称元词，从
文献内容中抽出，再经规范，能表达一个独
立的概念。例如“信息检索”是一个词组，
“信息”和“检索”才是单元词。
叙词（叙词法，descriptor）：是计算机检索
中使用较多的一种语言，可以用复合词来表
达主题概念，在检索时可由多个叙词形成任
意合乎逻辑的组配，形成多种组合方式。由
叙词组成的词表叫叙词表（thesaurus）。
数字信息资源检索：检索语言（续）
检索语言类型——人工语言（续）
代码检索语言
就事物的某一方面特征，用某种代码系统来
加以标引和排列，目前主要应用于化学领域。
例如，化合物的分子式索引系统，环状化合
物的环系索引系统等。
此外，如DII专利代码索引，BP的concept
code list…
数字信息资源检索：检索语言（续）
检索语言类型——自然语言
自然语言（natural language）检索用词是从信息内
容本身抽取的，主要依赖于计算机自动抽词技术完
成，辅以人工自由标引（非依据词表的标引方法），
是非规范词（uncontrolled term）。自然语言标识包
括——
关键词（keyword）：直接从信息资源名称、正文或文摘
中抽出的代表信息主要内容的重要语词。
题名：信息资源的名称，如论文篇名、图书书名、网站名
称等。
全文：从资源的全部内容中自动抽取、查找，是目前网上
各类搜索引擎使用的最多的方法。
引文：将文献所引用的参考文献的作者、篇名、来源出版
物抽取出来进行标引。
此外还有责任者（作者）、摘要等。
数字信息资源检索：检索语言（续）
检索语言类型——人工语言和自然语言的关系
成熟的检索系统中，两种语言并用
主题词和关键词
人工语言和自然语言正在不断融合，形成一种新的
知识体系——NKOS（Networked knowledge
organization systems / schemes / services）。它融合
了叙词表、标题词表、语义网络、分类体系的功能，
得到了普遍关注，并开始在各类数据库、搜索引擎
以及知识管理方面应用，例如Yahoo、Google的主
题分类指南，以及许多企业门户网站的分类索引服
务即是NKOS体系应用的雏形。
数字信息资源检索：相关基础知识
关于网络
互联网：Internet（现在译为因特网），是世界上最
大的计算机互联通信网络，最早起源于美国国防部的
计算机网络ARPAnet。它本身不是一种具体的物理网
络，而是一种虚拟的计算机网络。互联网络实际上是
把全世界各个地方已有的各种网络，如计算机网络、
数据通信网以及公用电话交换网等通过TCP/IP协议相
互联结，组成一个跨越国界的庞大的综合网络
广域网（Wide Area Network – WAN）：分布距离大
于50公里，可以覆盖多个单位或多个国家，如我国的
Chinanet、CERnet等。
局域网（Local Area Network – LAN）：分布距离在
10公里范围内，通常为某个单位专用，如北京大学校
园网等。具有结构简单、投资少、数据传输速度快、
可靠性好、保密性强等特点。
数字信息资源检索：相关基础知识
关于网络技术与结构
服务器server
网卡SCSI
路由器router：路由器是一种连接多个网
络或网段的网络设备，它能将不同网络
或网段之间的数据信息进行“翻译”，
以使它们能够相互“读”懂对方的数据，
从而构成一个更大的网络
网关gateway：网关实质上是一个网络通
向其他网络的IP地址。
数字信息资源检索：相关基础知识
关于网络传输
TCP/IP协议
客户端/服务器client/server
域名（domain name）与主机（host）
IP地址与IP范围
ISP：Internet Service Provider
ICP：Internet Content Provider
调制解调器（modem）
数字信息资源检索：相关基础知识
关于网络资源的应用与检索
万维网WWW
浏览器：Netscape或Internet Explorer
FTP：File Transfer Protocol
超文本文件HTML file
超文本传输协议http
统一资源定位器URL
主页homepage
电子邮件email
新闻组newsgroup（usenet）
搜索引擎search engine
第三部分
数字信息资源的
检索方法和检索技术
数字信息资源检索方法/技术
检索方法（详见第四讲）
课题分析
选择信息源
构造检索策略
调整检索策略
检索结果评价
数字信息资源检索方法/技术（续）
检索功能
浏览：由系统提供一个树状结构的概念
等级知识体系，用户可以沿着这颗“树”
进入不同的分支，到达叶子节点，并在
节点看到检索结果列表。
索引：提供一个线性的表单，可以将任
何一个标引字段中的概念按字母顺序线
性排列起来，不分等级。例如：人名索
引、出版物索引、地名索引、主题索引、
机构索引等。
数字信息资源检索方法/技术（续）
中文科技期刊库的浏览
中文科技期刊全文数据库提供了
《中刊库》学科导航和刊名导航，
以便用户进行不同角度的浏览需
求。分类导航按照《中国图书资
料分类法》的标准，逐层进行分
类限制。如用户选中选中某类目，
则检索结果包括此类目下的全部
数据库。例如“图书情报”是一
级类目，“图书馆学、图书馆事
业”是二级类目，而“读者工作”
为三级类目。左图标识是书本，
表示该类目还有下位类，而标
识是页面，表示该类目是终端类
目。
数字信息资源检索方法/技术（续）
实例：ProQuest系统的索引体系
ProQuest系统提供了四种索引：主题（subjects）、公司（companies）、人名
（people）和地名（locations），分别取自于主题词、公司名称、个人名称和地理
名称四个标引字段。选择任一索引后，输入任意想要查找的词汇甚至若干字母，系统
会按右截断的方式显示在这之后的所有词汇，供用户查看。也可以直接点击检索界面
上方的26个字母，按字母顺序翻看。索引工具最适于用户查找拼法相近的一组词汇，
记不住拼写时也可以使用这种方法。
数字信息资源检索方法/技术（续）
检索功能（续）：
简单检索：为用户提供一个简单的检索界
面，页面上通常只有一个检索框。
复杂检索/高级检索：为专业用户、资深用
户提供的比较复杂的检索界面，可以构建
比较细致的检索式，帮助用户进行精确检
索。
专家检索：构建专业的检索策略进行检索
二次检索：在检索结果内进一步检索，使
检索结果更精练、准确。
数字信息资源检索方法/技术（续）
实例：Kluwer简单检索和复杂检索界面
简单检索提供一个检索条件输入框和
选择检索字段的下拉框。检索字段包
括全面、篇名、作者、文摘和刊名5个
检索入口。同时，可以通过限制出版
日期、限制文献种类，可以把检索结
果限制在一定范围内，从而达到快速
查准的目的。
复杂检索提供多个检索条件输入框，可
以输入一个检索条件进行简单检索或输
入多个检索条件实现多个检索字段的组
合检索。检索字段比简单检索增加了
ISSN、关键词和作者单位。与简单检索
最大不同的是，复杂检索可以提供提供
的逻辑算符（AND.OR.NOT）进行组配
检索。
数字信息资源检索方法/技术（续）
检索功能（续）
自然语言检索：检索系统在检索界面上提供的
自然语言检索，指的是用户可以直接输入一句
话，就象对人谈话一样。例如：
hurricanes in the Atlantic and Pacific (大西洋和太平
洋的飓风)
How does El Nino affect weather？（厄尔尼诺现象
是怎么影响气候的？）
到目前为止，限于计算机智能检索技术的发展，
尚没有检索系统能够提供很好的自然语言检索
功能，因此这方面的功能尚不具备查全查准的
实用效果。
数字信息资源检索方法/技术（续）
检索技术
布尔逻辑检索
位置算符检索
截词检索与词根检索
字段检索
全文检索
其他检索技术：嵌套、限制、大小写敏感、
禁用词
数字信息资源检索方法/技术（续）
检索技术－布尔逻辑检索：
运用布尔逻辑算符（Boolean
operators）对检索词进行逻辑
组配，表达两个概念之间的逻
辑关系。
逻辑“与”（and）：检索时，命中信息同时含有两个概念，专指性
强；
逻辑“或”（or）：检索时，命中信息包含所有关于逻辑A或逻辑B
或同时有A和B的，检索范围比and扩大。
逻辑“非”（not）：命中信息只包括逻辑A，不包括逻辑B或同时有
A和B的，排除了不需要的检索词。
逻辑“异或”（xor）：命中信息包含逻辑A，也包含逻辑B，但不包
含同时含有A和B的信息。
数字信息资源检索方法/技术（续）
检索技术－布尔逻辑检索（续）
在不同的检索系统里，布尔逻辑的运算次序是不同的，因此
会导致检索结果的不同。通常运算次序有这样几种形式：
一是按算符出现的顺序，如果是and、or、not，就按and、
or、not的顺序运算；如果是or、not、and，就按or、not、
and的顺序运算；
二是默认and优先运算，其次是or、not；
三是默认or优先运算，然后是and、not。一般来讲，检
索系统的“帮助”文件中都会有这类说明，只要注意查
看即可。
在中文数据库里，布尔逻辑运算符有时用and、or、not下拉
菜单形式表示，供用户选择；有时用“*”号表示逻辑“与”，
用“+”表示逻辑“或”，用“-”表示逻辑“非”。
数字信息资源检索方法/技术（续）
检索技术－位置算符(position)检索：
即运用位置算符（position operators）
表示两个检索词间的位置邻近关系，又
叫邻接检索（proximity）。这种检索技
术通常只出现在西文数据库中，在全文
检索中应用较多。如果说布尔逻辑算符
是表示两个概念之间的逻辑关系的话，
位置算符表示的是两个概念在信息中的
实际物理位置关系。
数字信息资源检索方法/技术（续）
检索技术－位置算符检索（续）
With(field): same field or same
sequence
Near: same sentence
Pre (precede): library pre science 
library science, library with science, ...
w/n (Within): library w/n science 
library science, science library, …
Field: same field
Same: same paragraph
数字信息资源检索方法/技术（续）
检索技术－位置算符检索（续）
常用的位置算符
算符
功能
表达式
检索结果
W, W/N 两词相邻，按 Education
with
输入时顺序排 (W)school, 或
列
within
Education
（也有数据库 with school
允许顺序颠倒）
Education school
Education schools
（school of education
schools of education）
nW
同上，两词中 Education
间允许插入 n (1W) school
个词
Education school
Education schools
Education and music school
School of continued
education
Pre
两词相邻，按 Education
输入顺序排列 Pre school
Education school
Education schools
数字信息资源检索方法/技术（续）
检索技术－位置算符检索（续）
常用的位置算符（续）
算符
N,
adj
功能
表达式
检索结果
near, 两词相邻， Education (N) Education school
顺序可以颠 school, 或
Education schools
倒
Education near School of education
school
nN
同上，两词 Education (1N)
中间可以插 school
入n个词
F
两个词同在
一个标引字
段中
Same
两个词同在 Education Same 同时出现在一个段落中
school
一个段落
（paragraph）
中
Education (F)
school
Education school
School of education
Education and music school
例如同时出现在题名或文摘字段中
数字信息资源检索方法/技术（续）
检索技术－位置算符检索（续）
不是每一个检索系统都使用上述位置算
符，不同的系统使用的位置算符不同，
不同的算符在不同的系统中有时可能含
义不同。例如“W”算符，在Dialog检索
系统表示两词相邻，输入顺序不变；在
ProQuest系统中，“W”算符表示输入的
两个词相邻，但顺序可变，如顺序要求
不变，则使用“Pre”算符。用户可以查阅
help帮助文档说明。
数字信息资源检索方法/技术（续）
检索技术－截词检索
截词检索：
用截词符号“？”、“*”或“$”加在检索
词的前后或中间，以检索一组概念相关或同
一词根的词。这种检索方式可以扩大检索范
围，提高查全率，主要用于西文数据库检索。
中文数据库通常不使用这种技术。
截词检索类型
截词方式根据截词的位置不同，分为前截断、
后截断、中截断；根据截断的数量不同，分
为有限截断和无限截断。
数字信息资源检索方法/技术（续）
检索技术－截词检索（续）
后截断：是前方一致检索，又称右截断，截词符放
在被截词的右边，是最常用的截词检索技术。后截
断主要用于下列检索：词的单复数检索，如company
与companies；年代检索，如199？（九十年代）；
词根检索，如socio*，可以检索sociobiology，
socioecology，sociology等20多个词汇。
前截断：截词符放在被截词的左边，可与后截断一
同使用。例如输入*magnetic，可检electromagnetic、electromagnetic、thermo-magnetic等。
目前这种检索技术应用已经极少。
中截断：把截词符放在词的中间。如organi?ation，
可检索organisation、organization。这种方式查
找英美不同拼法的概念最有效。
数字信息资源检索方法/技术（续）
检索技术－截词检索（续）
举例——
符号：*，？，$
后截断：librar*  library, libraries,
librarian,…
前截断：*magnetic  magnetic, electromagnetic, electromagnetic, thermomagnetic, …
中截断：organi?ation  organization,
organisation
数字信息资源检索方法/技术（续）
检索技术－截词检索（续）
截词类型：根据截断的数量不同，分为
有限截断和无限截断。
无限截断：不限制被截断的字符数量，例如
输入educat?，可以检索educator，
educators，educated，educating，
education，educational，等等。
有限截断：限制被截断的字符数量，例如输
入educat**，表示被截断的字符只有两个，
可以检索educator，educated两个词。
数字信息资源检索方法/技术（续）
检索技术－词根检索
有些检索系统不支持使用截词符的截词
检索技术，系统默认的是词根检索，即
输入一个词，系统会自动检索出同一词
根的一组词，例如输入gene，可以检索
出gene，genic，genome等。这是一种
智能检索方式，但要求系统内必须预先
配置词根表。
IEE/IEEE全文数据库默认词根检索
有些数据库需要加入词根运算符如“$”
才进行词根检索

Download Report