网络信息检索与利用 (专题讲座)

●网络信息
资源基础
知识
●德州学院
图书馆电
子资源的利
用
导
言
导 言
一、文献检索是一门既古老又年轻的学科
约4000年前,人类就开始有目的地组织信
息,一个典型的例子就是图书中的目录。
随后,逐渐出现索引的概念,即从一些词
和概念指向相关信息或者文档的指针。
到了1948年,C. N. Mooers在其MIT的硕士
论文中第一次创造了“Information Retrieval”
这个术语。
文献检索是一门既古老又年轻的学科
•
信息检索发端于19世纪前期,主要以手工
检索方式为主,其发展速度较为缓慢,检索效
率普遍不高。到20世纪50年代,1951年世界上
出现了最早的计算机系统,这可称得上是信息
检索发展史上的一个里程碑。随着计算机技术
的不断进步,进入 20世纪90年代,网络技术
开始进入社会生活各个领域,计算机检索也逐
步由脱机检索、联机检索发展到如今Internet
环境下网络检索。
导言
二、网络信息检索是文献检索面对的新课题
网络检索以其低廉的费用、迅速的存取等多种
功能对传统的检索造成了强力的冲击,与此同时,
一些新的理论、新的课题也应运而生,加速了现代
情报学和信息学的发展。
网络信息检索是指对利用Internet信息发布技术,
通过Internet发布的信息进行的检索,主要利用搜索
引擎、网络机器人和门户站点等来完成。随着
Internet的迅速发展,网上信息以爆炸性的速度不断
丰富和扩展,其信息数量之大、类型之多,已经给
人们的工作、学习和生活方式带来了巨大影响。
网络信息检索是文献检索面对的新课题
•
为了充分发挥网络信息的重要作用,并
能迅速在上百万个网站中快速有效地查找到
想要得到的信息,必须对网络检索的特性进
行研究分析,并掌握网络信息资源的特点、
基本方法和检索技巧与检索工具等重要内容。
网络信息资源的分布主要以网站为单位,数
以千计的网站在Internet上形成了犬牙交错的
信息资源库。
网络信息检索是文献检索面对的新课题
•
因特网的发展,逐渐改变了信息资源原有的属性,将文
献信息数字化、应用环境网络化、技术手段多媒体化;运用
情报学的理论与方法组织无序的网络信息,为用户服务;研
究中文数据库的组织与检索技术将是我国情报学界必须重视
的问题。
•
网络信息资源开发利用是我国信息化建设的核心内容。
在我国信息基础设施建设已初具规模的今天,网络信息资源
建设显得极为重要与迫切。这需要情报工作者认真研究解决。
此课题包括以下方面的内容:①网络信息组织;②网络信息
检索策略;③基于内容检索探讨等
第一章
网络信息资
源
基础知识
本章内容
•第一节
•第二节
•第三节
•第四节
巧
•第五节
因特网基础
网络信息资源
搜索引擎
搜索引擎使用技
搜索典型案例
第一节
因特网
基础
一、因特网概述
•
因特网是英文Internet的中文译名,也有人译作互
联网或国际互联网。1997年7月18日,全国科学名词审定
委员会正式确定Internet译为因特网。因特网是当今世
界上最大最流行的计算机网络,从资源角度看,它是一
个集各部门、各领域的各种信息资源为一体的供网上用
户共享的信息资源库。
•
因特网现在已成为全球最大的数字化信息资源集散
地,是人类的巨大财富。它包含的信息资源几乎包括了
人类的全部活动。它包括商业、通信业、教育、科研、
娱乐、政府部门、图书出版、工业生产、航空航天、建
筑学、生物学、化学、物理、计算机、数学、地球科学、
天文学、海洋学、医学、语言、文化、文学艺术、法律、
政治与经济学、宗教、体育等许多方面。
二、我国因特网发展概况
因特网在我国的发展,大致经历了两个阶段:
1. 1987年至1993年为第一阶段。
•
1987年9月20日,钱天白教授通过意大利公用分组
网ITAPAC设在北京的PAD机,经由意大利ITAPAC和
德国DATEX―P分组网,发出我国第一封电子邮件
“越过长城,通向世界”,揭开了中国人使用
Internet的序幕。实现了和德国卡尔斯鲁厄大学的连
接,通讯速率最初为300bps .
进入90年代后,我国也开始投入巨资进行国内的计
算机网络建设以及与Internet的连接
我国因特网发展概况
2.1994年至今为第二阶段。
1994年,我国建成第一个跨园区的光纤互联计
算机网络——北京中关村地区教育与科研示范网络
(NCFC),该网络把清华大学、北京大学的校园网,
以及中科院在中关村地区的众多研究所通过光纤连
成一体。它通过美国Sprint公司连入Internet的64K
国际专线开通从中科院网络中心到美国的国际线路。
Internet组织把NCFC国际线路开通的时间,即
1994年5月定义为中国加入Internet的时间
三、目前我国已建成的大型互联网络
由邮电部管理的中国公用计算机网(CHINANET)
由教育部管理的中国教育与科研网(CERNET)
由中国科学院管理的中国科技网(CSTNET)
由信息产业部管理的中国金桥网(CHINAGBN)
上述大型互联网络都是经国务院批准、与Internet相连的
国家级互联网络,国内其他网络作为接入单位与上述互联网
络之一相连,通过它们实现与Internet的连接。
1997年6月,中国科学院在中国科学院计算机网络信息中
心组建了中国互联网络信息中心(China Internet Network
Information Center, CNNIC),行使中国国家互联网络信
息中心的职责。
四、常用Internet 术语解析
• IP地址:为了在网络环境下实现计算机之间的通信,
网络中的每台计算机都必须有一个地址。Internet
中的计算机均称为主机,其所拥有的地址称为IP地
址。IP地址的长度为32位,分为4段,每段8位。用
十位制数字表示,每段数字范围为1~254,段与段
之间用句点隔开。例如:202.103.229.38。IP地址
有两部分组成,一部分为网络地址,一部分为主机
地址,上例中202.103.229是网络号,38是主机号
常用Internet 术语解析
• 域名:在网络中,IP地址作为主机的一种数字
型标识是最有效的,但不便于记忆。于是人们
又提出一种字符型标识,这就是域名。域名所
使用的合法字符包括字母、数字和字符,总长
度不得超过255个字符。域名的结构为:主机
号.机构名.网络名.最高层域名
如北京大学校园网上的一台计算机域名为:
Ibmstone.pku.edu.cn,其中edu.cn表示中国
教育科研网,pku表示北京大学,ibmstone表
示主机名。
常用Internet 术语解析
• 主页(Home Page) : 直观地讲,是指登
录某一WWW服务器首先看到的页面。确
切地说,主页是用一种超文本标记语言
(描述性语言)将信息组织好,再经过相
应的解释器或浏览器翻译出的包括文字、
图像、声音、动画等多种信息组织方式。
常用Internet 术语解析
• 超文本标记语言:(Hyper Text Mark-up
Language称简HTML)该语言是WWW的描述
语言,其目的是使存放在不同计算机中的文
本或图形等文件联系在一起,形成有机整体。
只要用鼠标在某一文档中点取一个图标或其
他标记,Internet就会马上转到与此相关的内容
上去,而这些信息可能存放在其他文档或另
外的计算机上。
常用Internet 术语解析
• 统一资源定位器(Uniform Resource Location简称URL):
是指统一资源定位器(Uniform Resource Locator),
用于指明资料在互联网络上的取得方式与位置。其格
式为:通讯协议://服务器地址[:通讯端口>/路径/文
件名.
例如: http://211.64.34.63/gpjs/jiansuoFrameset.htm
含义是浏览器采用http协议,从211.64.34.63的图书馆
Web服务器的gpjs子目录下去寻找jiansuoFrameset.htm
这个文件(图书馆光盘资源共享管理系统)
五、因特网的信息服务功能
• 1.远程登录(Telnet)服务
• 2.电子邮件(E-mail)服务
• 3.文件传输(FTP)服务
• 4.网络新闻服务(Usenet)
• 5.网上信息的浏览和查询服务
1.远程登录(Telnet)服务
远程登录:(Remote-login)是Internet提
供的最基本的信息服务之一,远程登录是在网
络通讯协议Telnet的支持下使本地计算机暂时
成为远程计算机仿真终端的过程。
在远程计算机上登录,必须事先成为该计
算机系统的合法用户并拥有相应的帐号和口令。
登录时要给出远程计算机的域名或IP地址,并
按照系统提示,输入用户名及口令。
远程登录(Telnet)服务
• 例如 telnet: bbs.tsinghua.edu.cn
远程登录清华大学bbs
登录成功后,用户便可以实时使用该系
统对外开放的功能和资源,例如,共享它的软
硬件资源和数据库,使用其提供的Internet
的其他信息服务。
另外,目前一种很受欢迎的服务——
BBS(Bulletin Board System,电子公告牌系
统,可让用户留言的电子公告牌),也是基于
Telnet的。
3.文件传输服务(FTP)
·
文件传输:是指计算机网络上主机之间传送文件,它
是在网络通讯协议FTP(File Transfer Protocol)的支持下
进行的。
用户一般不希望在远程联机情况下浏览存放在计算机
上的文件,更乐意先将这些文件取回到自己计算机中,FTP
正好能满足用户的这一需求。Internet网上的两台计算机
在地理位置上无论相距多远,只要两者都支持FTP协议,网
上的用户就能将一台计算机上的文件传送到另一台。
FTP与Telnet类似,也是一种实时的联机服务。使用
FTP服务,用户首先要登录到对方的计算机上,与远程登录
不同的是,用户只能进行与文件搜索和文件传送等有关的
操作(文件的执行一般不可以)。
文件传输(FTP)服务
FTP的使用
普通的FTP服务要求用户在登录到远程计算机时
提供相应的用户名和口令。许多信息服务机构为了
方便用户通过网络获取其发布的信息,提供了一种
称为匿名FTP的服务(Anonymous FTP)。用户在登录
到这种FTP服务器时无需事先注册或建立用户名与口
令,而是以Anonymous作为用户名,一般用自己的电
子邮件地址作为口令。
文件传输(FTP)服务
•
匿名FTP是最重要的Internet服务之一。许多
匿名FTP服务器上都有免费的软件、电子杂志、技
术文档及科学数据等供人们使用。匿名FTP对用户
使用权限有一定限制:通常仅允许用户获取文件,
而不允许用户修改现有文件或向它传送文件;另
外对于用户可以获取的文件范围也有一定限制。
在匿名FTP服务器中文件一般预先进行压缩或打包
处理。
可以以命令方式来访问,如录入ftp命令,然
后录入你连接的远程主机的地址名:
ftp:// rtfm.mit.edu
4.网络新闻服务(Usenet)
网络新闻:(Network News)通常又称作
USENET,是比WWW浏览更为“古老”的一种
网络服务,现在互联网上的各种BBS(含论坛、
社区等)都是在它的基础上发展而来的。许
多重要的信息(比如新闻、新软件)都往往
第一时间出现在一些新闻组上,之后才被更
多人所知。
网络新闻服务(Usenet)
•
新闻组中对贴子的阅读、发表、回复等都
是以E-mail的形式来完成的,用户将自己感兴
趣的内容下载后,就可以脱机后再随时浏览。
在经历了长期的发展后,新闻组日趋成熟,
它的题材面广、信息量大、时效性强、自由
度高,成为了许多专业人士进行网上信息传
递的最主要途径之一。
网络新闻服务(Usenet)
•
它是具有共同爱好的Internet用户相互
交换意见的一种无形的用户交流网络,它相
当于一个全球范围的电子公告牌系统。
网络新闻是按不同的专题组织的。志趣
相同的用户借助网络上一些被称为新闻服务
器的计算机开展各种类型的专题讨论。
网络新闻服务(Usenet)
传统的Usenet在阅读文章时,必须使用一
个叫新闻阅读器(newsreader)的程序。新闻
阅读器作为你的连接口:当你告知它你想要
阅读的某个指定的新闻组时,它会给你呈现
有关文章,一次一篇。在Unix系统中,最为
流行的四种阅读器是rn(是这些新闻阅读器
中最早的一个)、 nn、 tin和trn
5.网上信息的浏览和查询服务
•
Gopher:是Internet上一个非常有名的信息查找系
统,它将Internet上的文件组织成某种索引,很方便
地将用户从Internet的一处带到另一处。允许用户使
用层叠结构的菜单与文件,以发现和检索信息,它
拥有世界上最大、最神奇的编目。
Gopher客户程序和Gopher服务器相连接,并能使
用菜单结构显示其它的菜单、文档或文件,并索引。
同时可通过Telnet远程访问其它应用程序。
网上信息的浏览和查询服务
•
Gopher协议使得Internet上的所有Gopher
客户程序,能够与Internet上的所有已“注册”
的Gopher服务器进行对话。
•
Gopher是Internet工具中最激动人心的发
展之一,它使新用户不必成为技术专家,就
能迅速找到Internet爱好者们为之欢呼的许多
优秀的资源
网上信息的浏览和查询服务
WWW:的含义是环球信息网(World Wide
Web),它是一个基于超文本(Hypertext)方式
的信息查询工具,将位于全世界Internet网
上不同网址的相关数据信息有机地编织在一
起,通过浏览器 (Browser)提供一种友好
的查询界面:用户仅需要提出查询要求,而
不必关心到什么地方去查询及如何查询,这
些均由WWW 自动完成。
网上信息的浏览和查询服务
•
WWW的发明人Tim Berners Lee在1984年
就提出了超文本的概念。所谓(Hypertext)
超文本,是一种用计算机来实现连接相关文
档的结构,该连接以高亮单词或图像形式嵌
入在文档的文本之中。当被激活时,便立即
检索连接的文档并显示出来,在被连接的文
档中又可以嵌套别的连接,如此多重嵌套,
以至无穷。
WWW与Gopher的区别
•
WWW展示给用户的是一篇篇的文章、一幅
幅图片或精美的动画,甚至是优美的乐曲,
而不是象Gopher那些时常令人费解的菜单说
明。因此使用它查询信息具有很强的直观性
Gopher是一个菜单式浏览工具,它是
“树”型结构;WWW采用超链接,是“网”
状结构,形如“蜘蛛网”。
WWW与Gopher的区别
•
随着多媒体技术的发展,在超文本结构中除文
字外还可以链接图形、视频、声音等多媒体信息,
因此人们引出了超媒体概念。换言之,
(Hypermedia)超媒体=超文本+多媒体。
虽然WWW并不等于Internet,但是两者之间的
关系又相当密切。对一些刚上网的用户,WWW(万
维网)几乎成了Internet的代名词,这是因为万维
网的发展非常迅速,它以其独特的超文本“链接”
方式,方便的交互式图形界面和丰富多彩的内容,
在整个Internet活动中占据的位置越来越重要
第二节
网络信息资源
本节主要内容
• 一、网络信息资源的特点
• 二、网络信息资源的类型
• 三、常见网络数据库检索系统
一、网络信息资源的特点
总体来讲,网络信息资源相比其他
信息资源具有如下主要特点 :
• 1.离散性与共享性
• 2.动态性和及时性
• 3.不均匀性
• 4.潜在的失控性
网络信息资源的特点
1.离散性与共享性 WWW是受TCP/IP支持
的应用协议集,它采用HRL,HTM,HTTP
和CGI进行信息定位、存取和显示。在静态上,
WWW是一个全球范围内的相互链接的多媒体信息
网,同时在逻辑上它也可被看作是用HTML书写
的分布式超文本结构。这种超文本结构使得文档之
间用热键连接,这种自由度使得信息交换与分享潜
力无穷。也正是由于这种离散性,使得网络信息资
源能为所有网络用户共享,这一优越性是其他信息
资源所不具备的。
网络信息资源的特点
2.动态性和及时性: 网上信息资源的瞬息
万变,极其丰富,信息的更新也很迅速。
3.不均匀性 有两重含义,一是网络信息
的质量不均匀,二是网络信息分布不均匀。
4.潜在的失控性 任何个人团体只需具备
上网条件能够使用HTML,就可以把任何信
息放到网上,这种信息经过种种检索工具的标
引,就可供用户检索,中间没有任何形式的质
量控制,势必影响检索效果的查准率,从而导
致检索效率的失控。
二、网络信息资源的类型
•
从文献信息检索角度看,我们可以把网
络信息资源分成以下几种类型:
1、网上图书信息
2、电子期刊
3、专利信息
4、网上数据库
5、网上其它科技信息
1、网上图书信息
•
Internet上提供的图书信息主要包括书目信息
和电子图书.这些信息我们可从以下几个方面来获
取:
(1) 出版商提供的书目信息。国内外许多出版
社都有自己的网站, 通过Internet发布其出版物的
目录、最新图书内容简介、价格等信息。
(2) 数字图书馆提供的电子图书。数字图书馆
是数字化生存时代的重要文化基础设施。利用这些
图书馆,记载人类文明成果的图书资料就会方便地
进入人们的生活
网上图书信息
•
(3) 图书馆、文献情报中心提供的联机
图书馆馆藏目录。目前全球至少有15000个
大型图书馆的联机目录24小时对外开放,通
过OPAC我们可以查询到大量的书目信息,确
定某本书是否在馆,能否通过馆际互借加以
利用等,有些联机目录不但提供书目及摘要,
还提供其它的信息资源。
2、网上电子期刊信息
•
电子期刊是非常重要的网络资源。网上
电子期刊时效性强、内容丰富、检索途径多
样,已成为利用率非常高的网络信息源,特
别是免费的电子期刊。网上电子期刊包括与
印刷版同时发行和仅在网上发行的两种,其
主要来源渠道有:
(1)出版商和文摘索引服务商提供的期
刊检索服务。目前,国际上大多数主要的期
刊出版都建立了全文数字化期刊数据库。并
通过Internet提供其服务。
网上电子期刊信息
• (2) 网络数据库信息服务商提供的服务。存
储在网络服务器上的网络数据库品种多、质
量高、大多由信息服务商或大型图书馆机构
创建维护。
• (3) 网络版期刊提供的服务。目前,许多期
刊正在网上建立自已的网站,便于读者上网
检索或提供免费的电子邮件现刊目录服务
网上电子期刊信息
•
(4) 文献情报部门或学术性机构提供的
服务。文献情报部门或学术性机构通过自己
的网站提供期刊或其它类型文献的网上检索
服务,用户在有的网站检索二次文献信息的
同时,还可以订购原始文献,原文可通过Email、传真、浏览、下载和联机打印等方式
获取。
3、网上专利信息
•
网上的专利信息资源可从以下几个方面来
获取:
(1) 利用专利管理机构网站提供的信息。
专利管理机构网站主要是指各国(地区)或
地方专利局的主页或者由它们及其下属机构
开发的网站。这类网站提供的专利信息全面、
权威、新颖。例如美国、加拿大、日本等国
的专利数据库在INTERNET上均可得到免费
使用。
网上专利信息
•
(2) 利用联机检索系统中的专利数据库。
一些知名的联机检索系统中都包含与专利有
关的数据库。如Dialog系统
(http://www.dialogweb.com)、STN
(www.cas.org/stn.html)系统等。
(3) 利用数据库出版机构提供的信息。
主要有Derwent公司、英国IEE公司(INSPEC)。
4、网上数据库信息
•
这是最有价值的信息资源之一,一般以
商业性数据库或政务数据库的形式出现,
需要通过购买或用户授权才能使用。网上
数据库有全文型、文摘型、题录型、事实
和数值型、多媒体型等。Internet上也有大
量、有价值的免费数据库,只要我们要善
于发现、搜集,往往会得到意外的惊喜。
网上数据库信息
•
数据库可以分为五种类型
(1)文献书目数据库 :Bibliographic Database
(2)全文数据库 :Complete Text Databases
(3)信息指南数据库 :Dictionary Databases
(4)数值型数据库 :Numeric Databases
(5)其他类型的数据库
(1)文献书目数据库
•
文献书目数据库是存储某个领域原始文
献的书目,即二次文献数据库,记录内容包
括文献的题目、著者、原文出处、文摘、主
题词等
大多数是印刷本检索工具的机读版,如
美国工程索引数据库(EI)
英国科学文摘数据库(INSPEC)
美国化学文摘数据库(CA)
(2)全文数据库
•
全文数据库是存储文献内容全文或其中主要部
分的数据库,简称全文库.是将信息的全部文字和
非文字内容转换成计算机可读形式.
全文数据库可以解决用户获取一次文献所遇到
的困难,能向用户提供一步到位的查找原始文献的
信息服务。据统计,在美国,全文数据库从1985年
的28%增加到1995年的52%,其数量是书目型数据库
的一倍,而书目型数据库则从57%下降到24%
我国已有《中国学术期刊全文数据库》、《书
生之家数字图书馆》和《超星数字图书馆》等全文
数据库产品
(3)信息指南数据库
•
信息指南数据库主要是记录一些机构、
人物、产品、项目简述等事实数据,通
过该类数据库可以查到公司、机构地址、
电话、产品目录、研究项目或名人简历
等信息,这类数据库也称为事实数据库
(4)数值数据库
•
数值数据库是专门提供以数据形式表示
信息的一种源数据库,主要记录科学研究中
试验、测量、计算、工程设计、经济分析和
工业规划等方面的数据
这类数据库主要包含数值数据,有的也包含
文字,文字是用来定义数据所需的最小量的
文字,有时称为文本—数值数据库
(Textual-numeric Databases)
(5)其他类型的数据库
•
除了上述四种基本的数据库类型之
外,还有多种混合型的数据库形式特别
是随着多媒体技术的迅速发展和广泛应
用,将多媒体数据结构结合为一体,并
统一进行存取、管理和应用的多媒体数
据库已经问世.
5、网上其它科技信息
•
Internet上除了网上图书信息、电子期
刊、专利信息、数据库信息外,还有大
量的会议信息、科技政策法规、学位论
文、技术标准、产品样本目录、科技报
告、统计数据、科技新闻、组织机构、
电子论坛、通讯讨论组和数据库等,这
些资源的实用性也很强。
三、常见网络数据库检索系统
1.Ei 美国工程索引
2.SCI Expanded( 科学引文索引扩展)
3.ISI Proceedings (科学会议录索引)
4.CSSCI (中文社会科学引文索引)
5.ASTP
( 威尔逊应用科学与技术数据库)
6.CSA
(剑桥科学文摘)
7.OCLC First Search(联机计算机图书馆中心)
常见网络数据库检索系统
8.PQDD(国际学位论文文摘)
9.USPTO(美国专利与商标办公室)
10.CNKI
11.维普信息资源系统
12.万方数据资源系统
13.其他数据库资源
1.Ei
•
美国工程索引
美国工程索引(Ei),由美国工程信息公
司制作而成,收录报道了世界上有关工程技术
方面的主要文献,包括物理、化学、机械、
工程等各方面内容.
•
Ei Compendex Web是《工程索引》的网
络版,包括光盘版Ei Compendex和Ei Page
One两个数据库的内容
Ei Compendex Web是通过Ei Village(工程
信息村)基于因特网提供信息检索服务
Ei
•
美国工程索引
Ei Village是美国工程信息公司(Engineering
Information Inc)1995年推出的一个网络信息集成
服务站点
1998年4月,Ei Village在我国清华大学图书馆
设立了镜像站点,目前,我国已有二十多家高校图
书馆购买了网络使用权。
凡购买使用权的高校校园网上的每个IP机都可
以通过教育科研网直接访问清华大学的Ei Village
镜像服务器
2.SCI Expanded
( 科学引文索引扩展)
•
SCI Expanded网络数据库可通过ISI Web
of Science进行检索
Web of Science中也包括三种引文数据库
艺术与人文引文索引
Arts & Humanities Citation Index
科学引文索引扩展
Science Citation Index
社会科学引文索引
Social Science Citation Index
3.ISI Proceedings
(科学会议录索引)
•
ISI proceedings是美国ISTP网络版,由
美国科技信息所(Institute forScientific
Information,简称ISI)编辑出版
•
ISI Proceedings包括以下两个子数据库:
科学技术会议录索引 ISTP
社会科学及人文科学会议录索引Index to
Social Science & Humanities Proceedings,
ISSHP
4.CSSCI
(中文社会科学引文索引)
•
CSSCI是中文社会科学引文索引
(Chinese Social Sciences Citation
Index)的简称,它是由南京大学中国社会科学
研究评价中心开发研制的数据库,用来检索
中文社会科学领域的论文收录和文献被引用
情况。
5.CSSCI
(中文社会科学引文索引)
•
CSSCI 2000年、2001年度数据库收录期刊共收
录管理学、马克思主义、哲学、宗教学、语言学、
中国文学、外国文学、艺术学、历史学、考古学、
经济学、政治学、法学、社会学、民族学、新闻与
传播学、图书情报与档案学、教育学、体育学、统
计学、心理学、社科总论、高校综合性社科学报、
人文、经济地理、环境科学等社会科学领域的中文
期刊419种,另加港台澳地区及海外华文期刊16种
6.ASTP
(威尔逊应用科学与技术数据库)
•
ASTP是威尔逊应用科学与技术(Applied
Science & Technology Plus)数据库的缩写,
由美国ProQuest Information and Learning
公司出版
该数据库主题涉及范围包括:计算机科
学、工程技术、物理学等收录科学技术领域
内重要的学术期刊769种
7.OCLC First Search
•
OCLC(Online Computer Library Center)(联
机计算机图书馆中心),总部在美国俄亥俄州都伯
林,是世界上最大的提供文献信息服务的机构之一
它是1967年由美国大学校长们发起成立的,旨在实
现图书馆文献信息资源的共享,减少获取文献信息
的费用
1979年推出的馆际互借服务迄今已有6600多个
图书馆使用,互借达1.05亿次
OCLC First Search
•
First Search Service是OCLC于1992年
推出的,它是全世界所有联机系统中使用量
最大的系统,现已被17000多个图书馆使用
•
目前系统可检索80多个数据库,其中30多个数
据库可检索全文,总计包括7500多种期刊的联机全
文和3000多种期刊的联机电子映像,达900多万篇全
文文章,涉及到各个学科领域
我国CALIS(中国高等教育文献保障系统)采用
年订购的方式购买了OCLC基础组的11个数据库的使
用权,211的61所高校可以免费检索
8.CSA(剑桥科学文摘)
•
CSA是(Cambridge Scientific
Abstracts)的简称,它由美国一家著名的私
人信息公司编辑出版
目前CSA通过因特网可提供70多个数据库的检
索服务,内容范围包括生命科学、环境与水
科学、计算机科学、材料科学与工程、航空
航天以及人文社会科学。
9.PQDD
(国际学位论文文摘数据库)
•
PQDD(ProQuest Digital Dissertations)是
由美国Bell & Howell信息学术公司(Bell &
Howell Information and Learning)提供的“国际
学位论文文摘”数据库的Web 版,它是目前世界上
独一无二的最具权威性的博士、硕士学位论文检索
数据库,主要收录来自美国、加拿大和欧洲1000多
所大学的博、硕士论文的题录、文摘共160余万篇。
该数据库每周更新一次数据,每年大约新增47000篇
博士论文和12000篇硕士论文
10.USPTO
美国专利与商标办公室
•
USPTO是美国专利与商标办公室(United
States Patent and Trademark Office)的
简称,通过因特网提供书目和全文专利数据
库检索,是非常重要的专利信息资源
该数据库收录的美国专利的时间范围从1976
年1月1日起到当前最近一个星期(每周更新
一次数据,一般是在周四)
上网用户可免费检索该数据库,并可浏
览检索到的专利的题目、文摘及其包括附图
在内的专利说明书等信息
11.CNKI中国知识基础设施工程
•
中国期刊网全文数据库是CNKI知识创新网中最
具特色的一个文献数据库。CNKI即中国知识基础设
施(China National Knowledge Infrastructure)
工程,是由清华同方光盘股份有限公司、中国学术
期刊(光盘版)电子杂志社、光盘国家工程研究中
心等单位,于1999年6月在《中国学术期刊(光盘
版)》(CAJ-CD)和中国期刊网(CJN)全文数据
库建设的基础上研制开发的一项规模更大、内容更
广、结构更系统的知识信息化建设项目
12.维普信息资源系统
• 重庆维普资讯有限公司研制开发的网络信息
资源。维普资讯有限公司是科学技术部西南
信息中心下属的一家大型的专业化数据公司。
自1989年以来,一直致力于报刊等信息资源
的深层次开发和推广应用
收录有中文报纸1000种,中文期刊12000种,
外文期刊4000种,拥有固定客户2000余家
13.万方数据资源系统
• 万方数据资源系统(ChinaInfo)是北京万
方数据股份有限公司在中国科技信息研究
所数十年积累的全部信息服务资源的基础
上建立起来的,形成以科技信息为主,集
经济、金融、社会、人文信息为一体,实
现网络化服务的信息资源系统
14.其他数据库资源
• 各大高校图书馆一般都提供各自购买的数
据库资源,在校园网通常可以免费使用很
多数据库检索系统采用一站式的跨库检索
方式,便于用户使用。主要有:
上网图书馆书目数据库的利用。
如:北京图书馆公共检索服务系统的网址为:
http://opac.nlc.gov.cn/;
其他数据库资源
网上虚拟图书馆的利用,
如:中国数字图书馆的网址为:
http://www.d-library.com/index.php 。
•
现代数据库内容涉及几乎所有知识领域
据国家科学技术部统计,目前世界文献信息
主要包括十大类型:期刊、研究报告、会议
文献、政府出版物、标准文献、专利文献、
产品样本、技术档案和学位论文。现有数据
库中均已涵盖,但我国数据库的规模和数量
都略显不足.
第三节
搜索引擎
一、搜索引擎的定义
•
搜索引擎是专门提供信息查询服务的网站安装
在其服务器上的一种能在网上漫游并搜集它所得到
的信息,同时自动生成本地索引的软件。它是因特
网上最为有效的信息导航工具,是网上冲浪的得力
助手。由于这种服务都是一些著名的站点提供的,
所以有人直接称这些站点即为搜索引擎。在万维网
中,也有人把装有这种软件的WWW服务器视为搜索引
擎。他主要分为:
单搜索引擎:用于检索的单个搜索引擎,
如:百度、google
多搜索引擎:多搜索引擎是一个搜索引擎
包含多个单搜索引擎,其作用是将输入的检索
词在所包含的多个单搜索引擎中进行查找,并
将命中的搜索引擎和其查到的页面数列出,帮
助用户选择合适的搜索引擎。
如:www.hao123.com网址之家
二、搜索引擎的发展历史
搜索引擎的起源——Archie
•
所有搜索引擎的祖先,是1990年由蒙特利尔
的McGill University三名学生发明的Archie(Archie
FAQ)。Alan Emtage等想到了开发一个可以用文件名
查找文件的系统,于是便有了Archie。
•
Archie是第一个自动索引互联网上匿名FTP网站
文件的程序,但它还不是真正的搜索引擎。Archie
是一个可搜索的FTP文件名列表,用户必须输入精
确的文件名搜索,然后Archie会告诉用户哪一个FTP
地址可以下载该文件。
早期的另一个搜索工具Gopher
•
由于Archie深受欢迎,受其启发,
Nevada System Computing Services大学于
1993年开发了一个Gopher(Gopher FAQ)
搜索工具Veronica(Veronica FAQ)。
Jughead是后来另一个Gopher搜索工具。
•
现在这个工具主要用在国外大型图书馆
的信息检索上。
第二代搜索:目录式搜索 Yahoo!
•
1994年4月,斯坦福大学的两名博士生,美籍华
人杨致远和David Filo共同创办了(Yahoo)。随着
访问量和收录链接数的增长,Yahoo目录开始支持
简单的数据库搜索。因为Yahoo!的数据是手工输入
的,所以不能真正被归为搜索引擎,事实上只是一
个可搜索的目录。Yahoo!中收录的网站,因为都附
有简介信息,所以搜索效率明显提高。Yahoo!---几
乎成为20世纪90年代的因特网的代名词。
好听不好用的元搜索引擎
•
1995年,一种新的搜索引擎形式出现了——元
搜索引擎(Meta Search Engine)。用户只需提交一
次搜索请求,由元搜索引擎负责转换处理后提交给
多个预先选定的独立搜索引擎,并将从各独立搜索
引擎返回的所有查询结果,集中起来处理后再返回
给用户。
•
第一个元搜索引擎,是Washington大学硕士生
Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索
引擎概念上好听,但搜索效果始终不理想,所以没
有哪个元搜索引擎有过强势地位。
第三代搜索:网页搜索
它们都属于网页自动搜索
引擎,有的还带有智能分
析或FTP、P2P搜索功能
三、搜索引擎的工作原理
搜索引擎工作原理
•
•
搜索引擎并不真正搜索互联网,它搜索的实际
上是预先整理好的网页索引数据库。
搜索引擎至少由三部分组成:
•
爬行器(即机器人、蜘蛛等搜索程序)
•
索引生成器(即网页索引数据库)
•
查询检索器(即用户检索界面)
•
随着搜索引擎的发展,许多搜索引擎在此基础上
增加特色功能。如百度增加了监控程序。
搜索引擎的工作原理就向超市
因
特
网
爬行器
(蜘蛛)
索引生成器
(网页数据库)
查询检索器
(用户查询)
第一步:从互联网上抓取网页
• 利用能够从互联网上自
动收集网页的Spider系统
程序,自动访问互联网,
并沿着任何网页中的所
有URL爬到其它网页,
重复这过程,并把爬过
的所有网页收集回来。
因
特
网
第二步:建立索引数据库
•
由分析索引系统程序对收集回来的
网页进行分析,提取相关网页信息(包
括网页所在URL、编码类型、页面内容
包含的关键词、关键词位置、生成时间、
大小、与其它网页的链接关系等),根
据一定的相关度算法进行大量复杂计算,
得到每一个网页针对页面内容中及超链
中每一个关键词的相关度(或重要性),
然后用这些相关信息建立网页索引数
据库。
第二步:建立索引数据库
•
搜索引擎的Spider一般要定期重新访问所
有网页(各搜索引擎的周期不同,可能是几天、
几周或几月,也可能对不同重要性的网页有不
同的更新频率),更新网页索引数据库,以反
映出网页内容的更新情况,增加新的网页信息,
去除死链接,并根据网页内容和链接关系的变
化重新排序。这样,网页的具体内容和变化情
况就会反映到用户查询的结果中。
第三步:检索界面的建立
当用户输入关键词搜索后,由搜索系统
程序从网页索引数据库中找到符合该关键词
的所有相关网页。因为所有相关网页针对该
关键词的相关度早已算好,所以只需按照现
成的相关度数值排序,相关度越高,排名越
靠前。
最后,由页面生成系统将搜索结果的链
接地址和页面内容摘要等内容组织起来返回
给用户。
第三步:检索界面的建立
• 每个搜索引擎都必须向用户提供一个良
好的信息查询界面,一般包括分类目录
及关键词两种信息查询途径。
四、搜索引擎检索方法
1.分类检索
所谓分类检索就是指利用搜索引擎提供
的分类目录,由上级类目逐级向下级类目查
询的方式。各网站通过人工分类建立上下级
所属类目。这种方式较为直观,便于族性检
索,利于查全率,但查准率较低,且各搜索
站点分类不一,为使用带来一定困难。搜狐、
新浪都属于一种分类搜索。
搜索引擎检索方法
2.关键词检索
关键词查询是搜索引擎提供的一种快速、
高效的查询方式,进入搜索引擎网页后,在
关键词查询框中输入想要查询的关键词,然
后单击“查询”按扭即可。这种方式便于特
性检索,利于提高查准率。
(1)简单关键词查询
(2)逻辑关系查询
五、两类搜索引擎及网页搜索引擎
• 两类搜索引擎的代表
1
2
以网页搜
索为主的
搜索引擎
以FTP和
P2P资源搜
索为主的搜
索引擎
百度、Google、
Yahoo等
迅雷、天网
Maze等
第一类搜索引擎:
网页搜索引擎
以Google和百度
为代表
1、Google搜索引擎
•
Google搜索引擎诞生于斯坦福大学的一个学生
宿舍里,然后迅速传播到全球的信息搜索者。
•
Google 目前被公认为万维网上最大的搜索引擎,
它提供了简单易用的免费服务,使用户能够访问一
个包含超过 80 亿个网址的索引。
•
“Google”来自于数学名词“Googol”, Googol
表示一个 1 后面跟着 100 个零。Google Int.使用这
一术语体现了公司整合网上海量信息的远大目标。
•
地址: http://www.google.com/
Google 简介:
•
Larry Page,创始人之一,主管产品
的总裁。密西根安娜堡大学的荣誉毕
业生,拥有理工科学士学位。他还因
其出色的领导才能获得过多项荣誉,以
奖励他对工学院的贡献。他曾担任密
西根大学 Eta Kappa Nu 荣誉学会的会
长。目前他暂时从斯坦福大学计算机
研究所博士班休学,其指导教授是
Terry Winograd 博士。
• Google 就是由Page在斯坦福大学发起
的研究项目转变而来的。
Google简介
• Sergey Brin,创始人之一,主管技
术的总裁。出生于莫斯科,是马里
兰大学校本部的荣誉毕业生,拥有
数学专业和计算机专业的理学士学
位。已取得斯坦福大学计算机专业
硕士学位,目前暂时从博士班休学。
29 岁的 Sergey 是美国国家科学基金
会的奖学金得主。他在斯坦福
遇到了 Larry Page 并参与了后来成
为
Google 的研究项目。他们于1998年
共同创立了 Google。
Google简介
• google的成功得益于其强大的功能和独到的特点:
google检索网页数量达24亿,搜索引擎中排名
第一;
google支持多达132种语言,包括简体中文和繁
体中文;
google网站只提供搜索引擎功能,没有花里胡
哨的累赘;
google速度极快,年初时据说有15000多台服务
器,200多条t3级宽带;
Google简介
google的专利网页级别技术pagerank能够
提供准确率极高的搜索结果;
google具有独到的图片搜索功能;
google具有强大的新闻组搜索功能;
google具有二进制文件搜索功能(pdf,
doc,swf)
Google的特殊功能(部分)
• 查找非HTML文件:
可以支持13种非
HTML文件的搜索,
如PDF, DOC, PPT,
XLS, SWF。
• 例如 查找doc文本
文件,只需搜索
“关键词
filetype:doc”即可。
Google的特殊功能
• 网页快照:Google 在访问网站时,会将看过
的网页复制一份网页快照,以备在找不到原
来的网页时使用。单击“网页快照”后,将
看到 Google 将该网页编入索引时的页面。
Google 依据这些快照来分析网页是否符合您
的需求。(不好用)
• 类似网页 :如果你对某一网站的内容很感兴
趣,但又嫌资料不够,单击“类似网页”
Google 会帮你找到其他有类似资料的网站;
Google的特殊功能

按链接搜索:查询 “link:” 显示所有指向该
网址的网页。例如,“link:www.163.com”将找
出所有指向 网易主页的网页。

手气不错:按下“手气不错™”按钮将自动进入
Google 查询到的第一个网页。

指定网域:如果要在某个特定的域或站点中进行
搜索时可输入“*** site:***.com”。如在新浪
网中搜索“新闻”可输入“新闻
site:sina.com.cn”
其它功能
• 中英文字典:英译汉输入“fy apple”
•
汉译英输入“翻译 苹果”
• 定义:输入“定义:文献”或“define:HTML”
• 计算器:Google 为用户提供了一个内置计算器。
• 天气查询:检索“哈尔滨 天气”或“shanghai tq” Google返
回的网站链接会提供最新的当地天气状况和天气预报。
邮编区号:输入“邮编 哈尔滨”、“YB 150000”、
“区号 0451”、“哈尔滨 QH”
• 手机号码:输入“13123456789”可查询手机号的归属地。
• 股票查询:输入“中国石化 股票”或“GP 600028”可查询
股票价格及股市行情
Google
使用详解
Google的初级检索方法
• 1、 搜索结果要求包含两个及两个以上关键字
一般搜索引擎需要在多个关键字之间加上“ ”,
而google无需用明文的“ ”来表示逻辑“与”
操作,只要空格就可以了。现在,我们需要了
解一下搜索引擎的历史,因此期望搜得的网页
上有“搜索引擎”和“历史”两个关键字。
Google的初级检索方法
示例:搜索所有包含关键词“搜索引擎”和
“历史”的中文网页
搜索:“搜索引擎 历史”
用了两个关键字,查询结果有7万多项。但查
看一下搜索结果,发现前列的绝大部分结果还是不
符合要求,大部分网页涉及的“历史”,并不是我
们所需要的“搜索引擎的历史”。 怎么办呢?删
除与搜索引擎不相关的“历史”。我们发现,这部
分无用的资讯,总是和“文化”这个词相关的,另
外一些常见词是“中国历史”、“世界历史”、
“历史书籍”等。
Google的初级检索方法
• 2、 搜索结果要求不包含某些特定信息
google用减号“-”表示逻辑“非”操作。
“a -b”表示搜索包含a但没有b的网页。
示例:搜索所有包含“搜索引擎”和
“历史”但不含“文化”、 “中国历史”和
“世界历史”的中文网页
搜索:“搜索引擎 历史 -文化 -中国历
史 -世界历史”
Google的初级检索方法
结果:已搜索有关搜索引擎 历史 -文化 -中
国历史 -世界历史的中文(简体)网页。 共约有
36,800项查询结果,这是第1-10项 。 搜索用时
0.22秒。
•
注意:这里的“ ”和“-”号,是英文字符,
而不是中文字符的“ ”和“-”。此外,操作符
与作用的关键字之间,不能有空格。比如“搜索引
擎 - 文化”,搜索引擎将视为关键字为“搜索引
擎”和“文化”的逻辑“与”操作,中间的“-”被
忽略。
Google的初级检索方法
• 3.搜索结果至少包含多个关键字中的任意一个。
google用大写的“or”表示逻辑“或”操作。
搜索“a or b”,意思就是说,搜索的网页中,要
么有a,要么有b,要么同时有a和b。这样可以进
一步的精简搜索结果。
示例:搜索如下网页,要求必须含有“搜
索引擎”和“历史”,没有“文化”,可以含
有以下关键字中人任何一个或者多个:“archie”、
“蜘蛛”、“lycos”、“yahoo”。
Google的初级检索方法
•
搜索:“搜索引擎 历史 archie or 蜘蛛 or lycos
or yahoo -文化”
•
结果:已搜索有关搜索引擎 历史 archie or 蜘蛛
or lycos or yahoo -文化的中文(简体)网页。 共约有
8,400项查询结果,这是第1-10项 。 搜索用时0.16秒。
•
注意:“或”操作必须用大写的“OR”,而不
是小写的“or”。
杂项语法
• 1.通配符问题
很多搜索引擎支持通配符号,如“*”代表一
连串字符,“?”代表单个字符等。google对通配符
支持有限。它目前只可以用“*”来替代单个字符,
而且包含“*”必须用“”引起来。比如,“”以*
治国“”,表示搜索第一个为“以”,末两个为
“治国”的四字短语,中间的“*”可以为任何字
符。
2.关键字的字母大小写
google对英文字符大小写不敏感,“god”和
“God”搜索的结果是一样的
杂项语法
• 3、搜索整个短语或者句子
google的关键字可以是单词(中间没有空格),
也可以是短语(中间有空格)。但是,用短语做关
键字,必须加英文引号,否则空格会被当作“与”
操作符。
示例:搜索关于第一次世界大战的英文信息。
搜索 “world war i”.
结果:已向英特网搜索“world war i”. 共约有
937,000项查询结果,这是第1-10项 。 搜索用时0.06
秒。
杂项语法
4、搜索引擎忽略的字符以及强制搜索
•
google对一些网路上出现频率极高的英文
单词,如“i”、“com”、“www”等,以及一
些符号如“*”、“.”等,作忽略处理。
•
如果要对忽略的关键字进行强制搜索,则
需要在该关键字前加上明文的“+”号。
杂项语法
•
示例:搜索关于www起源的一些历史资料。
搜索:“www的历史 internet”
结果:以下的字词因为使用过于频繁,没有被
列入搜索范围: www 的. 已搜索有关www的历史
internet的中文(简体)网页。 共约有75,100项查询结
果,这是第1-10项 。 搜索用时0.22秒
杂项语法
我们看到,搜索“www的历史 internet”,但搜索
引擎把“www”和“的”都省略了。于是上述搜索只
搜索了“历史”和“internet”。这显然不符合要求。
这里我顺便说一点搜索引擎分词的知识。当我们在
搜索“www的历史”的时候,搜索引擎实际上把这
个短语分成三部分,“www”、“的”和“历史”分
别来检索,这就是搜索引擎的分词。所以尽管你输
入了连续的“www的历史”,但搜索引擎还是把这
个短语当成三个关键字分别检索。
杂项语法
• 如果要对忽略的关键字进行强制搜索,则需要在该
关键字前加上明文的“+”号。
搜索:“+www +的历史 internet”
结果:已搜索有关+www +的历史 internet的中文(简
体)网页。 共约有25,000项查询结果,这是第1-10项 。
搜索用时0.05秒。
• 另一个强制搜索的方法是把上述的关键字用英文双
引号引起来。在上例““world war i””中,“i”其实
也是忽略词,但因为被英文双引号引起来,搜索引
擎就强制搜索这一特定短语。
注意:大部分常用英文符号(如问号,句号,逗号
等)无法成为搜索关键字,加强制也不行。
进阶搜索
•
上面已经探讨了google的一些最
基础搜索语法。通常而言,这些简
单的搜索语法已经能解决绝大部分
问题了。不过,如果想更迅速更贴
切找到需要的信息,你还需要了解
更多的东西
进阶搜索
1、对搜索的网站进行限制
“site”:表示搜索结果局限于某个具体
网站或者网站频道,如
“www.sina.com.cn”、“edu.sina.com.cn”,
或者是某个域名,如“com.cn”、“com”
等等。如果是要排除某网站或者域名范围
内的页面,只需用“-网站/域名”。
进阶搜索
示例:搜索中文教育科研网站(edu.cn)
上关于搜索引擎技巧 的页面。
搜索:“搜索引擎 技巧 site:edu.cn”
结果:已搜索有关搜索引擎 技巧
site:edu.cn的中文(简体)网页。 共约有608项查
询结果,这是第1-10项 。 搜索用时0.05秒。
进阶搜索
•
示例:搜索“天府茶馆”网站上关于 诸葛亮的信息
表达式:site:tfcg.net 诸葛亮
•
示例:搜索新浪科技频道中关于搜索引擎技巧的信息。
搜索:“搜索引擎 技巧 site:tech.sina.com.cn”
•
注意:site后的冒号为英文字符,而且,冒号后不能有空格,
否则,“site:”将被作为一个搜索的关键字。此外,网站域名
不能有“http://”前缀,也不能有任何“/”的目录后缀;网站
频道则只局限于“频道名.域名”方式,而不能是“域名/频
道名”方式
进阶搜索
• 2、在某一类文件中查找信息
filetype: 是google开发的非常强大实用的一个搜
索语法。也就是说,google不仅能搜索一般的文字页
面,还能对某些二进制文档进行检索。目前,google
已经能检索微软的office文档如.xls、.ppt、.doc,.rtf,
wordperfect文档,lotus1-2-3文档,adobe的.pdf文档,
shockwave的.swf文档(flash动画)等。其中最实用
的文档搜索是pdf搜索。pdf是adobe公司开发的电子
文档格式,现在已经成为互联网的电子化出版标准。
进阶搜索
•
目前google检索的pdf文档大约有2500万
左右,大约占所有索引的二进制文档数量的
80%。pdf文档通常是一些图文并茂的综合性
文档,提供的资讯一般比较集中全面
•
示例:搜索几个资产负债表的office文档。
搜索:“资产负债表 filetype:doc or filetype:xls
or filetype:ppt”
注意:下载的office文件可能含有宏病毒,谨慎
操作。
进阶搜索
•
3.搜索的关键字包含在url链接中
inurl:语法表示返回的网页链接中包含第一个
关键字,后面的关键字则出现在链接中或者网页文
档中。有很多网站把某一类具有相同属性的资源名
称显示在目录名称或者网页名称中,比如“mp3”、
“gallary”等,于是,就可以用inurl语法找到这些
相关资源链接,然后,用第二个关键词确定是否有
某项具体资料。inurl语法和基本搜索语法的最大区
别在于,它能提供非常精确的专题资料。
进阶搜索
•
•
示例:查找midi曲“沧海一声笑”。
搜索:“inurl:midi “沧海一声笑””
注意:“inurl:”后面不能有空格,google
也不对url符号如“/”进行搜索。例如,
google会把“cgi-bin/phf”中的“/”当成空格
处理。
进阶搜索
• “allinurl”语法返回的网页的链接中包含所有作用关键
字。这个查询的关键字只集中于网页的链接字符串。
示例:查找可能具有phf安全漏洞的公司网站。通常
这些网站的cgi-bin目录中含有phf脚本程序(这个脚
本是不安全的),表现在链接中就是“域名/cgibin/phf”。
搜索:“allinurl:"cgi-bin" phf +com”
结果:已向英特网搜索allinurl:"cgi-bin" phf +com. 共
约有51项查询结果,这是第1-10项 。 搜索用时0.11
秒。
进阶搜索
• 4、搜索的关键字包含在网页标题中
“intitle”和“allintitle”的用法类似于上面的inurl和
allinurl,只是后者对url进行查询,而前者对网页的
标题栏进行查询。网页标题,就是html标记语言title
中之间的部分。网页设计的一个原则就是要把主页
的关键内容用简洁的语言表示在网页标题中。因此,
只查询标题栏,通常也可以找到高相关率的专题页
面。
示例:查找日本明星藤原纪香的照片集。
搜索:“intitle:藤原纪香 "写真集"”
进阶搜索
•
5.搜索所有链接到某个url地址的网页
如果你拥有一个个人网站,估计很想知
道有多少人对你的网站作了链接。而“link”语
法就能让你迅速达到这个目的。
• 示例:搜索所有含指向华军软件园
“www.newhua.com”链接的网页。
搜索:“link:www.newhua.com”
进阶搜索
• 注意:“link”不能与其他语法相混合操作,
所以“link:”后面即使有空格,也将被google
忽略。另外还要说明的是,link只列出google
索引链接很小一部分,而非全部,所以如果
你用google没有搜到链到你的主页的链接,
也不必灰心丧气。
进阶搜索
•
除了上述功能,link语法还有其它妙用。
一般说来,做友情链接的网站都有相似地
方。这样,你可以通过这些友情链接,找
到一大批具有相似内容的网站。比如说,
你是个天文爱好者,你发现某网站非常不
错,那么,可以用link语法查一下与之做链
接的网站,也许可以找到更多符合你兴趣
的内容。
图片搜索
•
google自称可以检索390,000,000张图片,并称
自己为“互联网上最好用的图像搜索工具”。从使
用结果来看,google的图片搜索的确不错,但个人
以为比altavista的还是要差一些,主要体现在检索
图片数量比不上av,匹配度比av的图片搜索器也差
了些。但altavista国内用户无法正常访问因此对中
国用户而言,google的图片搜索引擎已经是最好的。
图片搜索
•
•
google首页点击“图像”链接就进入了
google的图像搜索界面
“images.google.com”。你可以在关键字栏
位内输入描述图像内容的关键字,如
“britney spears”,就会搜索到大量的小甜
甜布兰妮的图片。
图片文件名完全符合关键字的结果排列
比较靠前,然后才按照普通的页面搜索时的
标准排列。
图片搜索
•
google图像搜索目前支持的语法包括基
本的搜索语法如“+ ”、“-”、“or”、“site”
和 “filetype:”。其中“filetype:”的后缀只能
是几种限定的图片类似,如jpg,gif等。
示例:查找新浪网上本拉登的图片
搜索:“拉登 or 拉丹 site:sina.com.cn”
结果:搜索有关 拉登 or 拉丹 site:sina.com.cn
的图片。 共有6项查询结果,这是第1-6项。
搜索用时0.36秒。
图片搜索
•
images.google.com作为专门的图片搜索引擎,实
际上有其特殊的用途。
举个例子,互联网上本拉登的照片成千上万,但
是,它们都是分散的,往往随机的分布于各种新闻报
道中。如果用搜索图片库的方式(最容易想到的如
“ben ladin photo”),来搜索本拉登的照片,显然是
不恰当的,因为很少有人专门为拉登建一个在线相册。
在这个时候,images.google.com就派上用场 了
网页快照
• 网页快照是google抓下来缓存在服务器上的网页。它
有三个作用:
第一, 如果原地址打开很慢,那么可以直接查看
google缓存页面,因为google服务器速度极快。
第二, 如果原链接已经死掉或者因为网络的原因暂时
链接不通,那么可以通过google快照看到该页面信息。
当然,快照内容不是该页最新页面。
第三, 如果打开的页面信息量巨大,一下子找不到关
键词所在位置,那么可以通过google快照,因为快照
中google用黄色表明关键字位置。
网页翻译
• 你懂英文,但是你不见得就懂德文、法
文、拉丁文。如果搜索出来的页面是这
些语言怎么办?呵呵,google提供了网
页翻译功能!!虽然目前只支持有限的
拉丁语、法语、西班牙语、德语和葡萄
牙文,这是个杰出功能。
网页翻译
试着做以下搜索:“big bang site:fr”。这个表示
查找关于宇宙大爆炸的法文网页。看第一条结果:
the big bang website - [ translate this page ]
... a propos de big bang. le dernier numéro en
date. les anciens numéros. autres
activités. concerts progressifs en france.
emissions de radio. liens.
perso.club-internet.fr/calyx/bigbang/ - 3k cached - similar pages
有点晕。没关系,点击“translate this page”按钮。
再看结果,嗯,大致能看明白,这原来是个叫“big
bang”的乐队的网站,与大爆炸无关...
Google 其他功能
• 单词纠错
英文单词经常拼写错误。但google有纠错功能。
比如在写上文的时候,我要用到英文单词
“tutorial”,我只是依稀记得好像是“tatorial”的
样子,但不肯定,于是用google查了一下,它
马上提醒:“您要找的会不会是: tutorial ”,
呵呵,正是这个单词。
Google 其他功能
• 繁简转换
对中文用户而言,常希望能同时检索繁
体和简体信息。google能做到这一点。
google默认使用繁简自动转换功能,因此
你输入的简体关键字也将被转换成繁体
做检索。这样省了不少力气。当然,如
果你不希望这样的话,也可以在“使用
偏好”中把这个选项关掉。
第四节
搜索引擎
使用技巧
简单搜索
输入查询字符串
搜索引擎返回结果
搜索结果分析(Google)
网页标题
A
B
标题上下文本
C
E
D
F
网页快照
网页地址
网页大小
类似网页
网站被搜索引擎收录时间
如何运用“关键词原则”
★
提炼搜索关键词
★
细化搜索条件
★
用好逻辑符号
★
强制搜索
提炼搜索关键词
•
学会从复杂搜索意图中提炼出最具
代表性和指示性的关键词,对提高信息
查询效率至关重要,这方面的技巧是搜
索技巧的基础。如:搜索与秦朝历史文
化有关的资料,可提炼关键词:“秦始
皇”、“兵马俑”。
细化搜索条件
搜索条件越具体,搜索引擎返回的
结果就越精确,有时多输入一两个关键
词效果就完全不同,这是搜索的基本技
巧之一。如:要了解中国戏剧中京剧的
服饰及脸谱知识,搜索条件可为“京
剧”、“脸谱”。
用好逻辑符号
• 高级关键字举例:
• 空格
•“”
一般用作增加搜索范围
强制限定检索词
•+
扩大检索范围
•-
缩小检索范围
• Intitle 限制关键字在题目里
• Site 限制关键字在某网站里
– 加入看似无关但和搜索目标具有相关性的关键字。
逻辑运算符和检索表达式
•
将多个检索词用布尔运算符组合在一起
来进行检索,我们称之为布尔逻辑检索。
用NOT、AND缩检,用OR扩检。一般搜索引
擎空格代表AND。
例如,计算机AND农业、计算机OR农业、
计算机NOT农业检索出来的文献是完全不同
的
逻辑运算符和检索表达式
•
用于计算机检索的布尔运算符有:
逻辑与(*)、逻辑或(+)、逻辑非
(-)。
•
注意:有些数据库不遵循此规律,
如《人民日报全文库》中,逻辑与
则为“+”,在检索前需看使用说
明。》
逻辑与(AND)* 缩检
• 假设A和B是两个检索词,
则A*B表示A与B必须同
时存在。运用“逻辑与”
表达式,有助于明确限
定检索范围。
逻辑与(AND)* 缩检
• 例如用户想在题名中检索有
关新闻美学的文献,如只输
入“新闻”或“美学”,则
命中文献太多,且有许多不
是自己所要的。如果输入
“新闻*美学”,则检索出
题名中同时含有“新闻”和
“美学”的文献,检索结果
大大缩小。
逻辑与(AND)* 缩检
• 换一个角度看,“逻辑与”又
能防止漏检。
•
例如,用户输入“新闻美
学”作为检索词,可命中《戈
公振的新闻美学实践》这样的
文献,但漏检了《新闻的美学
属性》、《新闻标题中的美学》
这些文献。如果用“新闻*美学”
来进行检索,则上述三篇文献
都检中。
逻辑或(OR)+ 扩检
• A+B,表示A或B中
任何一个词存在都
可以(当然A和B同
时存在也可以)。
“逻辑或”表达式,
有助于提高查全率
逻辑或(OR)+ 扩检
• 例如某用户想查找研究杜甫的
文献,检索途径选择题名后,
输入“杜甫”,命中540篇。但
考虑到研究杜甫的文献题名中
未必都出现“杜甫”两字,也
可能会出现“杜诗”、“李
杜”,于是改用“杜甫+杜诗+
李杜”表达式,结果命中608篇。
逻辑非(NOT)- 缩检
•
A-B,表示A必
须存在,但不能有
B。“逻辑非”表
达式,主要用于排
除那些与检索意图
无关的文献。
逻辑检索的优先级别
•
当布尔运算符在一个检索式中连
续出现时,它们的“级别”是不同的。
大部分数据库是这样规定的:-优先
级最高,*次之,+最低。
•
例如要查找研究唐宋诗歌的文献,
可以用“(唐+宋)*诗”、“唐*诗+
宋*诗”,而不能用“唐+宋*诗”。
“唐+宋*诗”查找的是含有“唐”的
文献或者同时含有“宋”和“诗”的
文献,这样就把涉及到的唐代、唐姓
的文献都找出来了。
精确匹配和模糊检索
•
不同的数据库,检索途径设定的检索规
则有所不同,有的检索途径允许用户用“任
意一致”的方式检索,有的只允许用“完全
一致”或“前方一致”的方式检索。
•
“完全一致”即精确匹配,要求输入的检
索词,与数据库中的文献标识完全匹配,才
能命中。
精确匹配和模糊检索
•
如要查找作者“刘开扬”的文献,则必
须准确输入“刘开扬”三字,如输入“刘开
杨”或“刘开”,则不能命中。
•
一般在使用网上搜索引擎进行检索时,可
以用双引号把输入的检索词括起来,就可以
达到“完全一致”的检索效果。
精确匹配和模糊检索
•
“前方一致”属于模糊检索的一种。如在
作者字段中输入“刘开?”便可查到作者
“刘开”、“刘开扬”、“刘开强”的文章。
又如以关键词为检索途径,输入“经济?”,
便可查到“经济”、“经济法”、“经济
学”、“经济预测”、“经济效益审计”等
等。
•
注意:匹配符通常用“?”,但也有的
数据库用“*”
精确匹配和模糊检索
•
“任意一致”是模糊检索中的最为
自由者。如用篇名作为检索途径,输入
“出版”,则可检出篇名中任一处含有
“出版”一词的文献,如《出版系统探
讨》、《广东出版史概述》、《商务印
书馆与近代教科书的出版》等。
搜索中常见的错误
•
•
错误1:错别字
经常发生的一种错误是,你输入的关键词含
有错别字。统计表明,常有大量的错误搜索,光
一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢
霆峰”、“谢廷锋”、“谢庭峰”、“谢廷峰”6
种查法,还有什么“星际争吧”、“以德制国”
之类的,这样的关键词能搜索到什么有用资料吗?
所以每当你觉得某种内容网上应该有不少、却搜
索不到结果时,你应该先查一下是否有错别字。
搜索中常见的错误
•
•
错误2:关键词太常见
如,搜索“电话”, 有无数网站提供跟
“电话”相关的信息,从网上黄页到电话零
售商到个人电话号码都有。所以当搜索结果
太多太乱的时候,你应该尝试使用更多的关
键词或者减号来搜索,不使用过于通用的词
汇来搜索,设计一个类似“上海 常用电话”
这样特殊的搜索关键词,会给你真正有用的
结果。
搜索中常见的错误
•
•
错误3:多义词的使用
要小心使用多义词,比如搜索“Java”,
你要找的信息究竟是太平洋上的一个岛、一
种著名的咖啡、还是一种计算机语言?搜索
引擎是不能理解辨别多义词的。最好的解决
办法是,在搜索之前先问自己这个问题,然
后用短语、用多个关键词或者用其他的词语
来代替多义词作为搜索关键词。比如用“爪
哇 印尼”、“爪哇 咖啡”、“Java 语言”分
别搜索可以满足不同的需求。
搜索中常见的错误
•
•
错误4:使用自然语言查询
搜索失败的另一个常见原因是类似这样的搜索:
“现代爱情故事歌词”、“信息早报在济南发行情
况”、“铃羊车的各种图案”、“上海到成都列车
时刻表”。
•
应该这样搜索:“现代爱情故事 歌词”、“信
息早报 济南 发行”、“铃羊车 图案”“上海 成都
列车 时刻表”。
•
又如,“杭州的特色景点与小吃”这
么长的关键词实在不如“杭州特色小吃”、
“杭州景点”来得准;如果觉得找到的结
果还不多,可以进一步改为“杭州 特色
小吃”(表示相关页面既包括“杭州”,
又包括“特色小吃”)、“杭州 景点”。
搜索中常见的错误
•
•
错误5:在错误的地方搜索
2001年7月23日这一天,正逢高考发榜,各大搜
索引擎竟有超过100万次以上的搜索跟高考查分有关。
考生们不知道,搜索引擎从抓取网页、解析、索引
到提供检索是有一个周期的,各搜索引擎的信息滞
后周期从一周到一月不等,所以找最新内容应该去
看新闻,用搜索引擎是找不到最新内容,只能找到
一个星期或一个月以前的内容。
搜索中常见的错误
•
另外,搜索引擎对动态内容,如:论
坛、数据库内容,以及带frame(框架结
构)的网页检索能力较弱,所以这类信
息也不适合用搜索引擎搜索,而是应该
去相关的网站寻找,当然,寻找相关网
站的任务,搜索引擎是当仁不让的。
关于搜索的一些思想
不是互联网上所有的信息都能被搜索
引擎搜集。
– 动手前多动脑。
– 不要盲目信任搜索得到的信息。
– 不要期望一次搜索解决问题。
第五节
经典搜索案例
经典搜索案例
• 查找“信息”一词的最早出处
搜索〔信息 最早 辞源〕
原理:机器不是人,我不会直接在检索框里输入“信息一词最
早出自哪里”来问它。先用4个关键词“信息 一词 最早 出自”
来试探检索一下。翻了2页,前20个页面中好像都没有。
毫无疑问,《辞源》是检索的最佳起点。考虑到手头没多少
工具书,我们把GOOGLE作为检索起点的次优选择。
一篇文章如果写到信息一词的最早出处,估计很可能是依据
《辞源》。再用“信息 最早 辞源”检索。OK,在前10项中找
到了。“信息”一词最早出自南唐诗人李中《暮春怀故人》中
的“梦断美人沉信息,目穿长路依楼台”。再用“李中 暮春怀
故人”查得原诗在〈全唐诗〉748卷。检索结束。
经典搜索案例
◆搜索 [美凤],用于寻找“璩美凤”,因为有些人可能
不知道拼音或者系统中没有而不能输入这个“璩” 字,
原理:如果打不出中间的字,留着空格也行
◆问题: 想知道产品"塑封机"的售价
搜索: [塑封机 元 | 价格 | 报价| 万 | 千]
(Google、baidu均可)
[塑封机 元 OR 价格 OR 报价OR 万 OR 千] (限google)
经典搜索案例
◆
问题:壹周刊报道希望工程贪污,相关部门说它诽
谤,想了解一下相关资料.
搜索:[壹周刊 希望工程 -诽谤]
原理:搜索[壹周刊 希望工程]搜出大量媒体报道,
但内容多雷同,且都排在搜索结果前列,因此必须减去
某种类型的报道,以了解另一种角度的报道,因为某
种媒体会统一使用"诽谤"这个特色词汇来表达对此案
的观点,所以减去"诽谤"后,可跳过单一角度的报道看
更多的说法.
经典搜索案例
◆问题: 想知道某个新名词T3是什么意思?
搜索:或 [什么是T3]
原理:你所碰到的问题,别人也多半碰到过,对于常见
名词,只要用"什么是**"就能准确的搜到答案. 再如
[什么是搜索引擎]、[如何远程登录] 、[如何打开wdl
文件] 、[什么是远程登录] 、[远程登录指南] 、[如
何挑选显示器] 、[如何升级bios] 、[如何办理出国手
续]
经典搜索案例
◆
问题: 想查“毛伟”的个人资料
搜索:[毛伟 年 毕业 工作]?
原理:用人名和描述个人资料的几个属性词汇,可
以找到某人的个人资料, 因为重名的很多,所以如果确
定找哪一个人并了解一些他的信息,那么也可以加上
他的个人资料中一定会有的单位或学校或地名.如查
CNNIC的毛伟,则可以用[毛伟 年 毕业 工作 cnnic],如
果确定某些人的个人资料中会有关于结婚的内容,还
可以加上结婚,如[毛伟 年 结婚]?
经典搜索案例
◆
问题:找李白的个人资料
搜索:[李白 生平]?
原理:偶像明星会用“个人资料”这种
词来整理,但是李白这样的古代名人,则
不会有“个人资料”,会用生平或其它词
语
经典搜索案例
◆
问题:江老师今天忽然想看看一个朋友就职的
网站,江老师只知道这个网站叫“qidi”网(发音),
但不知道这个网站的名字应该如何写。
搜索:[qidi]限3721?
原理:3721支持同音搜索和南方音搜索,如果
你只知道网站名的发音,很难确定文字,就可以
去3721搜索拼音。
经典搜索案例
◆问题:我想问一些关于世界地理的知识。世界上最大
内陆国??世界上最低的陆地??世界上最长的山脉???
搜索:[最大内陆国] [最低的陆地] [最长的山脉]
原理:1)也许不在第一位,可以往后拉一点看;
2)如果要加,可以加"是"或"世界上",如"最长的
山脉是"、"世界上 最低的陆地"
3)这些关键词用于检索的一个问题是"quot;的"不
一定跟网页原文匹配,所以,可以尝试给"最大内陆
国加"的",成"最大的内陆国",也可以给"最长的山
脉"减"的",如"最长山脉";
经典搜索案例
• 4)很多你的问题网上已有人问过了,所以,只
要用简单的问句或简单的问题描述作为关键
词,就能搜到问题答案。
5)这种情况下不宜拆分关健词,比如不宜拆分
成"最大 内陆国""最长 山脉""最低 陆地",如
果前述方法无效,不得不拆,则视测试结果,
考虑增加关健词。
经典搜索案例
◆
问题:田丽3天以后要去哈尔滨出差2天,但
是不知道哈尔滨的天气情况,请问以下哪些方
法能帮助田丽在网上了解哈尔滨的天气状况。
(请选出比较好的两种方法)
(A)找到哈尔滨气象台的网站,查看天气预报
(B)去雅虎中国的天气栏目查看天气预报
(C)在门户网站或地方子站查询?
(D)在地方信息港查询
答案 AB
经典搜索案例
原理: 由题意知田丽想了解的是未来3~5日内哈
尔滨的天气情况,因此输入"哈尔滨 && 5日 && 天
气预报"进行查找。通过对搜索结果的判断与点击了
解到哈尔滨气象热线以及雅虎中国可以提供5日内的
天气预报,符合要求。而在门户网站、地方子站以
及地方信息港中查询,即使有天气预报也基本为当
天或者48小时以内的天气预报。因此,显然在哈尔
滨气象台的网站或者雅虎中国的天气频道查看天气
的方法比较好。由此题,我们获知在网上查询天气
预报比较好的办法是尽可能地找到地方气象台的网
站或者去雅虎中国,比较起来地方气象台的信息可
能会更准确一些。
经典搜索案例
• ◆问题:看到新闻:专为总书记培育的植物 朝
鲜举行“金正日花”花展,有网友想了解,
“金正日花”什么样?
搜索:[金正日花] 限google image
•
原理: google的图像因为是自动spider的,所以
非常丰富,一般不了解的动植物或人或其它有
图的东西,只要输入名称,就可能找到图片。
经典搜索案例
◆问题:我想把.doc文件转换成.htm文件,有大量.doc文
件要转,所以不能使用另存为.htm的方法。应该怎
么搜索?
搜索:[doc 转换成htm文件]?
原理:搜索后发现得到的一个正确网页内容是部分
乱码,点击查看快照也是部分乱码,于是选择网页
摘要中一句特征语句"就不能采用手工一个个处理的
笨办法了"再搜索。找到其它网站上的这篇文章,可
以完整阅读全文。
经典搜索案例
◆
问题: 李老师在上海工作,近日要去大连出差,
希望坐火车前往。他想知道从上海到大连至少要坐
多少小时火车?(以2001年10月实行的新时刻表为准)
搜索:[上海 大连 火车 时刻表] [上海 大连 终到点]
[上海到大连][车次 上海-大连][开车时刻 上海
连][到达时刻 上海
大连][到点 上海
大连]?
大
经典搜索案例
•
原理:1.这道题的感觉如何?李老师不但要知道上
海到大连要坐多少小时的火车,还要知道实行新的
时刻表之后最短的旅途时间是多少。按照通常的思
路,你可能会在搜索引擎中输入"2001年10月 火车时
刻表 上海 大连",试试看,能找到答案吗?也许,你
通过对题目的猜想和判断知道刚才的搜索关键词太
多,就只输入"2001年 火车时刻表 上海"或者"火车时
刻表 上海"甚至是"火车时刻表"。都试试看,你可能
会找到上海到大连的直达列车,而且知道时间大约
是24小时,但是别忘了,题目要求的是最短时间,
这个你如何确定?
经典搜索案例
•
别急,让我来告诉你一个解决此类问题的好办法,
一个不错的能找出找出最快或最便宜的转车路线的
网站--高(www.gaocan.com)。如何找到这个网站的?
主要是利用分类目录浏览找到的。
• 具体做法为,首先选择与火车、交通信息有关的
分类目录。如果不熟悉分类目录,可以输入"火车"之
类的关键字确定一下有关的目录,然后进入该目录,
浏览网站的介绍文字,看到高参网的介绍文字为"有
全国列车的时刻表,且能为您找出最快或最便宜的
转车路线发表和搜索……"。点击过去后,就获知上
海到大连的火车最短时间为大约24小时。所以,特
殊的时候还是需要分类目录的。
经典搜索案例
•
2.这一题我首先想到找火车时刻表,但每个城市,
县都会有自己的火车时刻表,如果单找火车时刻表,
可能会出来很多信息,但都不是我所需要的,所以
又加入了两个关键词上海和大连,这样无论查到的
是"上海时刻表"还是"大连时刻表"也都可以知道它的
出发时间和达到时间,也就可以算得出要坐多少小
时的火车了。于是输入关键词"火车 时刻表 上海 大
连"果然在下面两网站中都可以找到相关火车时刻表,
让我们知道"从上海发车时间是16.40 ----到达大连时
间是16.33"所以答案是大约24小时
3.搜索"上海到大连",答案就出来了,很easy的,这
时候呢一定感叹互联网的好处大吧。
经典搜索案例
◆ 收到一个陌生人的邮件,没有署名,只知道
他的邮件地址是[email protected],上
网搜搜他是谁?
搜索 [email protected]
原理:直接把邮件地址输入搜索引擎搜索
即可得到答案。此题告诉我们通过email,也
许能在搜索引擎里找到一个人的背景。
经典搜索案例
◆ 刚才忘带手机了,现在发现手机上有个未接电话号
码“65290999”,我不习惯回陌生人电话,想先搜索
一下,是谁打来的呢?
a. 失物招领处 b. 人才中心 c. 举报中心 d. 租房
中介
答案:c. 举报中心
原理:直接在搜索引擎中输入电话号码
“65290999”搜索就可以得到答案,此题告诉我们可
以通过搜索引擎来反查电话号码来源。
经典搜索案例
• ◆问题: 女朋友去新疆出差,来电话说住在"王朝大
酒店"(女朋友是南方人,口音很重),让小马晚上打
电话给他。电话挂断后,小马想起忘记问电话号码
了,这可糟了。上网查查看,酒店的总机是多少?
搜索:[新疆王朝大酒店]限3721
原理: 看来很简单的题目,输入"新疆 王朝大酒
店",奇怪,怎么找不到这个酒店呢?看到题目中的
提示:"女朋友是南方人,口音很?quot;,看来是小
马听错饭店的名称了。幸好3721的网络实名提供"南
方音查询",于是可以点击搜索结果中的"新疆王朝
大酒店"网络实名,即可以发现原来是"新疆皇朝大
酒店"。好了,赶快上网站去找电话吧。
中文搜索引擎指南网
•www.sowang.com
第二章
德州学院图书馆
电子资源的利用
1.《中国期刊全文数据库》的检索
•
《中国期刊全文数据库》简介:
中国期刊全文数据库是目前世界最大的连续
动态更新的中国期刊全文数据库,积累全文文
献500多万篇,题录1500万余条,分九大专辑,
126个专题文献数据库,提供《中国期刊网专题
全文数据库》、《中国学术期刊(光盘版)》
和《中国学术期刊全文数据库》三种形式。
《中国期刊全文数据库》
 知识来源:收录国内6600种核心与专业特色中英文
期刊的全文。
 覆盖范围:理工A(数理科学)、理工B(化学化工
能源与材料)、理工C(工业技术)、农业、医药
卫生、文史哲、经济政治与法律、教育与社会科学 、
电子技术与信息科学。
 收录年限:1994年至今。2001年实施中国期刊“世
纪光盘”工程,精选4000种重要期刊从创刊至现今
的全部全文文献进行数字化建库。
 更新频率:网上数据每日更新,光盘每月更新。
《中国期刊全文数据库》检索方法
• 两种检索模式:字段检索和导航检索
• 两类检索方式:初级和高级
• 三种排序方法:无、相关度、更新日期;
• 十一种检索途径:作者、篇名、关键词、机构、
中文摘要、引文、基金、全文、中文刊名、年、
期。
• 导航检索
• 字段初级检索
• 字段高级检索
《中国期刊全文数据库》检索方法
检索步骤如下:
• 选取检索范围→选取检索字段→输入检索词
→选定时间范围→确定检索结果的排列顺序
→点击[检索]按钮进行检索→在页面右侧列出
检索结果。
• 为提高查准率可在右侧的检索栏中输入相应
检索词进行二次、三次……检索。
《中国期刊全文数据库》检索方法
• 在检索结果中,单击“篇名”可查看此文的详细信
息,点击“原文”一栏中的“下载”即可下载全文,
根据需要或在线阅读或保存到当地硬盘上,也可选
击“篇名”左侧的方框口,单击“下载”按钮,直
接下载全文。
• 全文下载后,全文浏览器则自动运行,要根据其功
能进行翻页、放大、剪辑、打印等。
• 例如:检索有关网络信息检索语言的论文(初级、高级)
• 以《网络环境中信息资源的检索与利用》为例介绍使用方法:
添加书签、搜索内容、选择文本、文本注释、跳转页码
2、 中国优秀博硕士论文
全文数据库
是目前国内相关资源最完备、收录质量最高、连续
动态更新的中国博硕士学位论文全文数据库,迄今已
完成2000-2001年30000本论文的数据加工与入库。
• 知识来源:每年收录全国300家博士培养单位的优秀博
/硕士学位论文约20000篇
覆盖范围:同《中国期刊全文数据库》共九个专集
• 收录年限:2000年至今。
• 检索方法:同《中国期刊全文数据库》
3.高校教参电子书全文数据库
高校教参电子书全文数据库采用北大方正
apabi数字资源平台,主要包括中图分类法22
个大类的高校教学参考书3万种。
• 使用说明:
• 1、登陆图书馆网站首页→电子资源→点击
“高校教参电子书全文数据库(北大方正)”链
接,进入“方正Apabi数字资源平台”。
• 2、在网站查找所需图书:
高校教参电子书全文数据库
• (初次使用需①、②两步)
•
①登录:如果您在局域网(校园网)内,不
用登录 ;如果您在局域网(校园网)外使用,
请填写用户名和密码(向图书馆技术部索取)
后,点击登录 ;
•
②下载阅读软件:在页面上点击 方正Apabi
Reader下载 图标,下载并安装Apabi Reader阅
读软件。
高校教参电子书全文数据库
• 检索方式三种:
①输入书名、作者、出版社、关键词
等信息进行快速查询;
②按照"中国图书分类法"进行分类查
询;
③从"好书推荐"、"下载排行"中进行
挑选。
高校教参电子书全文数据库
• 3、阅读电子图书:
先点击图书的书名或封面,查看图书简介等
信息,再选择点击“在线浏览”阅读或者
“借阅”下载阅读。借阅下载指将电子图书
自动下载到读者本地计算机的“藏书阁”中,
以后可点击“藏书阁”直接阅读。
• ※ 阅读过程中遇到问题,请查看阅读软件所
附的《Apabi Reader使用指南》
4、社会科学数字图书馆
•
社会科学数字图书馆采用《书生之家数字
图书馆》平台,包括社会科学类电子图书9万
余种。分为以下几个大类:文学艺术、经济
金融与工商管理、语言文化教育体育、教材
教参与考试、生活百科、综合性图书与工具
书、法律、军事、政治外交、社会科学、哲
学宗教、历史地理、科普知识、知识信息传
媒。
社会科学数字图书馆使用方法
• 1、点击图书馆主页——点击社会科学数字图
书馆,打开书生之家数字图书馆主页。
• 2、注册自己的用户名。点击“注册”,填写
个人资料,注册自己的用户名,以后可用此用
户名登陆。
• 3、首次使用点击“软件下载”,下载并安装
“书生阅读器”。以后不必再次安装。
• 4、点击主页面“图书”,进入电子图书检索
页面。
社会科学数字图书馆
• ①在主页左栏的图书分类中打开您所需的子类,在
图书列表中,单击"全文",即可阅读您所需要的图
书。
• ②如要进行检索,在"图书检索"项输入相应检索条
件,即可进行查询。书生之家数字图书馆系统提供
图书名称、出版机构、关键词、作者、ISBN号、全
文检索等各种检索方式。
• ③使用高级检索,提供两种检索方式:
• 一站式检索:可同时检索书生、超星数据库的图书。
• 全文检索:可检索到在全文中包含检索词的图书,,
检索结果定位到页
5.自然科学数字图书馆
• 自然科学数字图书馆采用《超星数字图书馆》
平台,主要包括自然科学类电子图书6万余种。
分为:自然科学总论图书馆 、 数理科学和化
学图书馆、 天文学、地球科学图书馆、 生物
科学图书馆 、 医药、卫生图书馆 、 农业科
学图书馆、 工业技术图书馆、 交通运输图书
馆、 航空、航天图书馆、 环境科学、安全科
学图书馆
• 使用方法同社会科学数字图书馆
6.文学艺术数字图书馆
•
文学艺术数字图书馆采用中国数字图
书馆网上读书系统,主要包括文学类图书4
万多册,艺术类图书5千多册,另外还包括
马列主义类、哲学宗教类、社会科学总论
类、政治法律类等图书2万余册。
• 使用方法同社会科学数字图书馆
7.美星外文数字图书馆
•
美星外文数字图书馆是经美国出版在
线出版集团授权的中国第一家原版引进外
文图书的数字图书馆,旨在改变国内高校
原版外文资料馆藏陈旧和匮乏的现状,同
时配合高校双语教学的趋势,提高学生的
英文水平,同时丰富学生的知识素养。我
馆现已安装4769册英文书,247册日文书和
3套语音图书。
美星外文数字图书馆
•
美星外文数字图书馆的资源包括
PDF格式的外文电子图书、和MBA语
音图书两大类,其中,PDF格式的外
文图书又分为英文原版电子图书和日
文原版电子图书两大类
美星外文数字图书馆
•
英文原版电子图书包括:世界经典文学、
财政金融、哲学、世界史、计算机、环境
保护、法律政治、信息科学、天文、地理、
人物传记等十余个大类;日文原版电子图
书包括诗歌、小说、戏曲、杂记、人物传
记等。
• 使用方法详见应用指南
8.外文科技期刊数据库
•
外文科技期刊数据库(文摘版)是重庆
维普资讯有限公司联合了国内数十家著名图
书馆以各自订购和收藏的外文期刊为依托,
于1999年成功开发的。该库的推出满足了国
内科研人员对国外科技文献的检索需求,同
时还提供文献的馆藏单位及联系地址,让用
户可轻松获得外刊原文,处于领先地位。
外文科技期刊数据库
• 我馆已收入文摘510万条,涵盖理、工、
农、医及部分社科专业资源。它依照
《中国图书馆分类法》,所有资源被分
为7大专辑:自然科学、工程技术、农业
科学、医药卫生、经济管理、教育科学
和图书情报。
外文科技期刊数据库
• 7大专辑又细分为24个专题:自然科学总论、
数理科学、 化学、 天文和地球科学、生物科
学、 工业技术总论、 矿冶工程、 金属学和
金属工艺、机械和仪表工业、 能源与动力工
程、 电器和电工技术、 电子和电信技术、自
动化和计算机、 化学工业、 轻工业和手工业、
建筑与水利工程、 交通运输、 航空航天、
环境与安全科学、 农业科学 、医药卫生、
经济管理、 教育科学 、图书情报。
• 使用方法详见应用指南