Semantic Web & Ontology

Semantic Web & Ontology
Metadata
Instructor: Zhang maoyuan
E-mail: [email protected]
1
Outline
 Why Metadata
 What’s Metadata
 What’s XML
 Question
2
2.1 Current Web
500 million user
more than 3 billion pages
WWW
Static
URI, HTML, HTTP
3
快速发展的因素
 电脑技术的快速发展
– 电脑的普及
– 电脑知识的普及
 网络技术（光纤、网络协议等）的发展
– 带宽的提高
– 校园网、电信的ISDL
 用户对资源的需求
– 知识的需求
– 娱乐信息
4
引发一系列问题（1）
 信息发布
–网络IP地址的分配问题
–产生虚拟IP网络、IPV6等方法来解决
 信息获取
–如何从这些海量信息中查到自己感兴趣的资源
–如何获取这些信息
–产生搜索引擎、信息挖掘技术
 信息存储
–如何存储海量信息
–产生磁盘阵列、TB级存储器
5
引发一系列问题（2）
 信息传递
–采用何种工具传递网络信息
–产生FTP、BT等软件
 信息使用
–如何合法、正确使用网络信息
–产生网络信息监管的职能部门和法规
–产生针对用户（如儿童）权限等的信息过滤技术
6
Web信息结构
 大部分采用HTML（HyperText Markup Language）
 也采用XML（eXtensible Markup Language）
 HTML标记语言
–是在普通文本的基础上加上特殊标记(Tag)
–目的是运用标记使文件达到预期的显示效果
–方法是用“<”、“>”扩住标记，起始标记用<Tag>表示，
终止标记用</Tag>表示
7
HTML网页片断（1）
<TABLE border=0 cellPadding=0 cellSpacing=0 width=720>
<TBODY>
<TR>
<TD width=61><A href="http://127.0.0.1/"><IMG alt= 虚拟
中医网 border=0 height=67 src="default.files/logo1.gif"
width=61> </A></TD>
 <TABLE>
– 一个容器标记，用以指明这是表格，
– 其它表格标记只能在这个标记范围内使用
 <TR>
– 表示表格的行。
 <TD>
– 表示表格行中的单元。
8
HTML网页片断（2）
<frameset rows=“80，*”>
<frame name =“top” src=“a.html”/>
<frame name =“bottom” src=“b.html”/>
</frameset>
 <frameset>
–用来划分框格，每个框格由一个<frame>标记来表示
–这里把页面分成上下两部分，上面显示a.html，下面显
示b.html
9
2.2 搜索引擎
 从1995年开始逐渐发展
 产生原因
–用户要在如此浩瀚的信息海洋里寻找信息，必然会“大
海捞针”无功而返。
–搜索引擎正是为了解决这个"迷航"问题而出现的技术
 目的
–以一定的策略在互联网中搜集、发现信息
–对信息进行理解、提取、组织和处理
–为用户提供检索服务
10
现有的搜索引擎
中文搜索引擎
英文搜索引擎
百度中文搜索引擎
Google搜索引擎
北大天网中英文搜索引擎
聪搜索引擎
雅虎中国分类搜索引擎
搜狐分类搜索引擎
新浪搜索引擎
网易分类目录引擎
英文Google搜索引擎
Inktomi/MSN搜索引擎
Fast/AllTheWeb搜索引擎
AltaVista 搜索引擎
ASK/Temoa 搜索引擎
英文Yahoo! 分类目录
Dmoz 人工分类目录
LookSmart 分类目录
11
Google 简介
 斯坦福大学的博士生 Larry Page 和 Sergey Brin
– 在 1998 年创立
– 搜索时间通常不到半秒
– 每天需要提供 1.5 亿次查询服务
 Google 的技术
– 代理搜索技术
– 高级 PageRank（网页级别）技术
 Google 释义
– 由英文单词“googol”变化而来
– 表示 1 后边带有 100 个零的数字
– 代表Google想征服网上无穷无尽资料的雄心
 PageRank
– 利用巨大的网络链接结构
– 网页 A 链接到网页 B 时，就认为“网页 A 投了网页 B 一票
– 避免任何人为感情因素
12
百度搜索引擎简介
 李彦宏先生及徐勇先生
– 1999年底，百度成立于美国硅谷
– 2000年百度公司回国发展
 百度的起名
–辛弃疾的《青玉案》中 “众里寻她千百度”
–象征着百度对中文信息检索技术执著的追求
 竞价排名
–由用户为自己的网页出资购买关键字排名
–按点击计费的一种服务
–搜索结果的顺序将根据竞价的多少由高到低排列
13
雅虎搜索引擎简介
 大卫·费罗(David Filo) 和杨致远(Jerry Yang)
–美国斯坦福大学电机工程系的博士生
– 1994年4月建立了网络指南信息库
 分类目录
–站点目录分为14个大类，每一个大类下面又分若干子类
–连接速度快，包含范围广
–雅虎中国网站提供简单易用、手工分类的简体中文网站
目录
14
性能指标
 召回率（Recall）
–检索出的相关文档数和文档库中所有的相关文档数的比
率
–衡量的是搜索引擎的查全率
 精度（Pricision）
–检索出的相关文档数与检索出的文档总数的比率
–衡量的是搜索引擎的查准率
 影响性能的因素
–文档和查询的表示方法
–评价文档
–用户查询相关性的匹配策略
–查询结果的排序方法
–用户进行相关度反馈的机制
15
搜索引擎的类别
 分类依据
–信息搜集方法
–服务提供方式
 类别
–目录式搜索引擎
–机器人搜索引擎
–元搜索引擎
16
目录式搜索引擎
 搜集信息
– 人工方式或半自动方式
 信息处理
– 由编辑员查看信息之后，人工形成信息摘要
– 并将信息置于事先确定的分类框架中
 服务方式
– 提供目录浏览服务
– 提供直接检索服务
 优点
– 讨论
 缺点
– 讨论
 代表
– YAHOO 、LookSmart、Dmoz等
17
机器人搜索引擎
 搜集信息
– 蜘蛛（Spider）的机器人程序
– 以某种策略自动地在互联网中搜集信息
 信息处理
– 建立索引库
 服务方式
– 面向网页的全文检索服务
 优点
– 讨论
 缺点
– 讨论
 代表
– Google 、天网等
18
元搜索引擎
 技术方法
– 将用户的查询请求同时向多个搜索引擎递交
– 将返回的结果进行重复排除、重新排序等处理
– 作为自己的结果返回给用户
 服务方式
– 面向网页的全文检索
 本质特点
– 没有自己的数据
 优点
– 讨论
 缺点
– 讨论
 代表
– WebCrawler、InfoMarket等
19
搜索引擎系统结构
 搜索器
 索引器
 检索器
 用户接口
20
搜索器
 功能
– 在互联网中漫游，发现和搜集信息
– 尽可能多、尽可能快地搜集各种类型的新信息
– 定期更新已经搜集过的旧信息
 搜集策略
– 从一个起始URL集合开始，以宽度优先、深度优先或启发式
方式循环地在互联网中发现信息
– 将Web空间按照域名、IP地址或国家域名划分，每个搜索器
负责一个子空间的穷尽搜索
 信息类型
– HTML、XML、FTP文件、字处理文档、多媒体信息
 其它支撑技术
– 分布式、并行计算技术
21
索引器
 功能
–理解搜索器所搜索的信息
–从中抽取出索引项，用于表示文档以及生成文档库的索
引表
 索引项
–客观索引项
–内容索引项
 支撑技术
–统计法、信息论法和概率法（计算索引项的权值）
–倒排表（Inversion List），由索引项反过来查找相应的
文档
–可以使用集中式索引算法或分布式索引算法
22
检索器
 方法
–根据用户的查询在索引库中快速检出文档
–进行文档与查询的相关度评价
–对将要输出的结果进行排序
–并实现某种用户相关性反馈机制
 如何实现多点的海量检索（讨论）
– 集中式海量检索
– 分布式海量检索
23
用户接口
 作用
– 输入用户查询
– 显示查询结果
– 提供用户相关性反馈机制
 目的
– 方便用户使用搜索引擎
– 高效率、多方式地从搜索引擎中得到有效、及时的信息
 简单接口
– 只提供用户输入查询串的文本框
 复杂接口
– 让用户对查询进行限制，如逻辑运算、时间、长度等
 例子
– Google提供多种用户使用界面
24
搜索引擎的研究动向




提高信息查询结果的精度，提高检索的有效性
基于智能代理的信息过滤和个性化服务
采用分布式体系结构提高系统规模和性能
交叉语言检索的研究和开发
 国际会议
–美国Infornotics公司主办的搜索引擎国际会议从1996
年开始，每年举行一次
–IEEE主办的国际万维网会议、人机交互会议
25
当前搜索引擎的不足之处（1）
1) 语义分析不足，缺少较好的中文分词技术支持
用google搜索引擎，关键词“和服”，在第3页有如下结果：
外交部公布新版中国境外领事保护和服务指南 ...
外交部公布新版中国境外领事保护和服务指南（附全文）,
中国外交部通过其官方网站公布了《中国境外领事保护和服务指南
（2003
年版）》，以帮助中国公民了解中国驻外使、领馆的领事保护和服务范
围。 ...
www.china.org.cn/chinese/2003/May/328355.htm - 27k - 网页快照 - 类似网
页
26
当前搜索引擎的不足之处（2）
2）智能化不足
都需要用户提供检索的关键词、关键词组，但还不
能直接检索语句
要直接检索语句，需要更强的自然语言处理技术
支持
27
2.3 Web信息提取
从提取规则角度，网页信息提取方法可分为两大类
 基于标识规则的方法
– 应用网页文档的标识来提取网页信息
 基于内容规则的方法
– 应用自然语言处理技术
– 从关键词匹配到有层次的句法分析
28
基于标识规则的方法
 Harvest信息提取系统
– 利用手工编写的wrappers分析一批固定的Web资源
– 只能处理Web文档而忽略了Internet上提供的服务
– 依赖于提前定义的文档类型,对新文档结构则无能为力
 斯坦福大学提出的对象交换模型(OEM)方法
– 一个简单的、自描述、嵌套的对象模型
– 一个带标记的有向图
– 这个模型依赖于具体问题的分析
 DSE(Data-rich section extraction)算法
–用树型结构表示HTML网页的布局
–实质是针对具体问题建立文档对象模型，提取网页信息
29
基于内容规则的方法
 Artequakt系统
– 建立在自然语言处理技术和实体论基础上
– 通过句法和语义分析来确定实体及关系
– 根据用户要求，产生描述格式，从而描述出艺术家传记
 DL(description logics)方法
– 建立在实体论基础上
– 用DL方法从词汇关系、概念关系和上下文关系，抽取概念及
其依赖关系树
 Diffusion webIE系统
– 依照实例模型（又称IE规则）构出的框架
– 依据关键词位置和值的特征的定位规则
– 依据词类型和取值范围的表格提取规则
– 句法分析规则
30
两种方法比较
 基于标识的方法
– 不具有自适应能力
– 准确定位信息段的起止位
置
 基于内容的方法
– 不易准确定位信息段的起
止位置
– 有一定自适应能力
– 依赖较强的自然语言处理
技术
31
信息提取的研究趋势
 融合两种规则
– 一些网页信息提取方法把这两种规则融合在一起
– 以求充分发挥着两种提取规则的特点
– 来提高提取效率
 语义网
– 改变现有网页信息结构
–XML语言把信息结构、内容与数据的表现形式进行分离
–RDF把信息转换成元数据
–本体论把信息的结构与内容相分离
–信息具有计算机可理解的语义
32
2.4
元数据
 定义
– data about data (关于数据的数据)
–是对web信息的一种描述方式
–是机器可理解的信息
 基本作用
–管理数据，从而实现查询、阅读、交换和共享
 组成
–一系列元素或属性
 例子：图书馆目录
–如:作者，书名，出版日期，主题，分类排架号等元素
33
元数据与资源之间的关联方式
 独立方式
–元素可包含在独立于该项资源的记录中
–例如：图书馆目录
 嵌入方式
–数据可嵌在资源本身中
–例如：印在书内封上的在版编目(CIP)数据
–例如：电子文本的标题
 关联方式的确定
–不预先规定
–由具体情况决定
34
元数据的主要作用
 用来组织和管理网络信息，并挖掘信息资源
–准确地识别、定位和访问信息（举例讨论）
 帮助用户查询所需信息
–可按照不同的地理区间、指定的语言以及具体的时间段
来查找信息资源（举例讨论）
 组织和维护一个机构对数据的投资
–可方便创建网页（举例讨论）
 用来建立信息的数据目录和数据交换中心
–可以共享信息、维护数据（举例讨论）
 提供数据转换方面的信息
–通过元数据，用户可以接受并理解信息（举例讨论）
35
如何获取元数据
 元数据的编写标准
–目的为实现领域中的数据信息交换和共享，为研究和生
产服务
–不同领域会根据不同的需求定义一个标准或几个标准
– 如MARC(Machine-ReadabIe Cataloging，机器可读编目)
和Dublin Core等
 实现的技术手段
– XML
– RDF
36
XML技术
 特点
–从数据与文档的底层实现格式化，
–保证了从里到外、从处理到交换的一致性
 实现自动抽取
–采用XML解析器开发的工具，可以从网上Web服务器的
HTML、XML和数据库中自动抽取并索引元数据
37
RDF 技术
 元数据的互操作性
–要求在由不同的组织制定与管理且技术规范不尽相同的
元数据环境下，能够作到对用户保持一致性的服务
–可同时携带多种元数据来往于互联网的架构
 RDF特点
–提供能对结构化元数据进行编码，交换及再利用的体系
框架
–可使不同的用户或团体在这一框架下定义他们自己的元
数据元素
–提供了各种不同的元数据体系之间的互操作性
38
元数据映射(Metadata Mapping)
 原因
–存在元数据的互操作性问题
 定义
–利用特定转换程序对不同元数据标准进行转换
 方法一（元数据标准的特定转化程序）
– Dublin Core与USMARC
– Dublin Core与EA
 方法二（中介元数据格式）
–如UNIverse项目利用GRS格式进行MARC格式和其他记录
格式的转换
 比较
–方法一转换准确、转换效率较高
39
元数据类型
 内容元数据
– 描述对象内容的信息
– 如大字标题、主题、引导段落、图像、影片
 管理元数据
– 描述和电子文档相关的信息
– 如作者、创建者、创建日期等
 负载信息元数据
– 提供电子文档的物理属性
– 如文本中表示强调的粗体标识，电子邮件系统中邮件的大小
标识
 参考信息元数据
– 源自电子文档中的超链接
– 扩展到表达任何万维网信息、文档和资源的参考链接
– 包括环境信息，以及文档的结构信息
– 如经常出现电子文档中指向各章节的链接
40
元数据表示语言
 标记语言
–标准通用标记语言SGML
–超文本标记语言HTML
–可扩展标记语言XML
–虚拟现实模型语言VRML
–无线标记语言WML
 元数据标准
– Dublin Core
– HL7（描述医学网络资源的元数据）
–教育资源元数据
–机读目录（MARC）
41
SGML
 标准通用标记语言
– 是一种描述语言的语言，定义了以电子形式表示文本的方法
 特点
– 正式的，能允许验证文档的正确性
– 结构化的，能够处理复杂的文档
– 可扩充的，能够支持大型信息存储的管理
 组成部分
– SGML声明，设定基本情况
– 定义DTD文档类型，设定标记语言结构的语法
– 描述用于标记的语义规格说明，做出了DTD表达的语法限制
– 描述用于标记的语义规格说明，做出了DTD表达的语法限制
 应用实例
– HTML、XML
42
其它标记语言
 虚拟现实模型语言VRML
–用于对3维虚拟场景进行建模的描述性语言
– HTML定义2维，而VRML定义3维
 无线标记语言 WML
–类似于HTML的测览语言
–提供测览支持、数据输入、超级链接、文本和图像表现
以及表格交互
–应用于“无线应用软件”环境下的网页语言
–为WAP(Wireless Application Protocol)协议所包括的一种
标记协议语言
43
Dublin Core元数据标准
 背景
– 搜索引擎的查准率比较低
 创建者
– OCLC(Online Computer Library Center，Inc.，美国在线计算机
图书馆中心)
 目的
– 从用户的角度出发
– 创建了一种新的网络资源描述标准或格式
 第一次国际研讨会
– 1995年3月，在都柏林(Dublin)召开
– 探讨如何建立一套描述网络上电子文件特征、提高信息检索
效果的方法
– 开始启动电子图书馆对象元数据标准的研究项目
44
DC元数据集
 包括15个核心元素
 按照信息的类型和范围分为三个子集
–数据资源内容
–数据知识产权
–数据实体
 特点
–简练、易于理解、可扩展
–能与其他元数据形式兼容
–被称为一个良好的网络信息资源描述元数据集
45
数据资源内容子集
元
素
定
义
TITLE（数据集名称）
由数据生产者或分发者确定的数据集名称
SUBJECT（主题)
数据集的主题，可以是说明数据集主题或内容的关键字
或短语，最好使用规定的缩写词或统一分类名称
DESCRIPTION（描述）
数据集内容的简要说明
SOURCE（数据源）
生产数据集的原始资料说明，包括原始资料出版日期、
生产者、格式、标识码或其他说明信息
LANGUAGE（语言）
数据集使用的语言，该元素的内容应当与“语言标识码”
标准 (RFC1766) 一致，如en(英国)、de(德国)、fr(法
国)等
RELATION（关系）
其他生产者标识码及其与数据生产者之间的关系
COVERAGE
（时空覆盖范围）
数据集内容的空间和时间覆盖范围。空间覆盖范围可以
用坐标或地名表示；时间范围是指数据的现势性，按ISO
8601日期和时间格式标准，即YYYY-MM-DD
46
数据知识产权子集
元
素
定
义
CREATOR
（数据生产者）
负责生产数据的主要单位或个人
PUBLISHER
（出版者）
将数据集提供用户使用的负责单位，如出版社等
CONTRIBUTOR
（其他生产者）
除数据生产者元素中说明以外的其他参与生产者
(如编辑、转换等)
RIGHTS（版权）
版权说明。与版权管理声明链接的标识码，或与
提供数据集版权管理信息的服务链接的标识码
47
数据实体（形式）子集
元
素
定
义
DATE（日期）
数据集生产或提供使用的日期，按ISO 8601
日期和时间格式标准，即YYYY-MM-DD
TYPE（类型）
数据集的类型
FORMAT（格式）
数据集的数据格式，用于识别显示或操作数
据集的软件及硬件。
IDENTIFIER
（标识码）
唯一标识数据集的字符串或数字，对于联网
数据资源，包括URL和URN，或ISBN
48
DCMI
 DCMI(Dublin Core Metadata Initiative)
–都柏林核元数据研究行动
 已经成为一个国际性的电子数据对象标准研究组织
 有来自英国、澳大利亚、芬兰、加拿大、美国等国的
具有多种不同专业背景的个人和团体参加
 从事元数据标准、实践指南、支撑技术及相关政策的
研究与开发
 成立了一个教育工作组DC－E
–从数字图书馆元数据标准中
–筛选出上述DC中的15个核心元素
–作为学习对象数据要素
49
HL7(Health Level 7)
 开发机构
– 1987年，由美国国家标准局(ANSI)授权的HL7(Health Level
Seven Inc)开发
 领域
– 专门用于医疗卫生机构及医用仪器、设备数据信息传输的标
准
 支持的国家
– 在1994年HL7已纳入美国ANSI国家标准
– 澳洲、加拿大、德国、以色列、日本、纽西兰、荷兰及英国
 用途
– 适用于医院内部的信息交换
– 适用于医院与医院之间，医院与保险公司、医院与上级主管
部门之间的大量信息交换
50
HL7技术
 参考了OSI的通讯模式
– HL7纳为最高的一层，也就是应用层
51
HL7标准的內容(1)
Ch1:
Ch2:
Ch3:
Ch4:
Ch5:
Ch6:
Ch7:
Ch8:
Introduction (概述与HL7历史)
Control (控制)
Patient Administration (病患管理, 挂号)
Orders (医令)
Query (查询)
Financial Management (病患帐务)
Observation Reporting (检验报告传送)
Master Files (参考档同步机制)
52
HL7标准的內容(2)
Ch9: Medical Records/Info. Management (病历)
Ch10: Scheduling (排程)
Ch11: Patient Referral (转诊)
Ch12: Patient Care (病患看护)
附录A: Data Definition Tables (参考表)
附录B: Lower Layer Protocol (LLP)
附录C: Network Management
附录D: BNF Message Descriptions
附录E: Glossary
53
HL7 特点
 可应用于多种操作系统和硬件环境
–所有不同平台的医院信息管理系统通过HL7都可以顺利
沟通
–设备可以做到无缝联接和医学数据信息的无障碍交换
 汇集了的一些标准接口格式
– 针对不同厂商设计应用软件
54
教育资源元数据
 IEEE LOM
– 学习对象元数据
 IMS
– 教学管理系统
 CELTS
– 中国教育信息化技术标准
55
IEEE LOM （1）
 由IEEE学习技术标准委员会P1484.12学习对象元数
据工作组建立
 目的
–使用最小属性集完成对学习对象的管理、检索和评估
–便于将来对其属性进行扩展
 目标
–定义学习对象元数据的语法与语义
–对安全、隐私、商业和评估等应用提供了描述符
 学习对象指一切可为教学和培训目的服务的对象
–可以是物理的：如实验器材、课本
–可以是数字的：如教学软件，网络课件
56
IEEE LOM （2）
 元素
– 9个基本类别（即通用类、生命周期类、宏元数据类、
技术类、教育类、权利类、注解类、关系类、分类类）
–每个类别包括若干元素
–对每个元素定义了其名称、解释、值域、数据类型、附
注和示例
 作用
–在不操作学习对象的情况下通过元数据信息来了解学习
对象的一些有用的属性
–可以对学习对象进行有效的分类管理和查找
–可以从元数据信息中获取学习对象的评价信息，也可以
把自己的评价加入到元数据
57
IMS





1997年美国EDUCOM （美国多所大学联合组成的联盟）专门对电子学
习(e-Learning劫标准进行研究项目
目的
– 能达成各校间网络化教材的共享
目标
– 达成分布式学习环境下之应用系统或服务的互操作性，定义、发展
所需的技术规范
– 协助其他单位，将IMS规范纳人产品或服务中
主要任务
– 主要发展和推广有关教育的开放规范
– 促进线上分布式的学习活动
– 如搜寻和使用教育用途的内容、追踪学习者的学习进度
性质
– 并非开放性组织
– 所制定的规范还未成为正式的标准
58
IMS 规范
 用于内容描述、发现和交换的规范
– IMS内容包装说明(IMS Content Packaging Specification)
– IMS问题与测试互操作性说明（IMS Question & Test Interoperability
Specification）
– IMS学习资源元数据说明(IMS Learning Resource Metadata Specification)
– 数字资源库互操作(Digital Repositories Interoperability)
 用于内容交互与跟踪的规范
– 简易串序/简易排序（Simple Sequencing）
– 能力（Competencies）
– 学习设计（Learning Design）
– 可用性（Accessibility）
 用于应用系统互操作的规范
– IMS学习者信息包装说明(IMS Learner Information Package
Specification)
– IMS企业说明（IMS Enterprise Specification
59
中国教育信息化技术标准
 2001年开始启动
 基于LOM
 目标
–实现资源共享
–支持系统互操作
–保障网络教育服务质量
 方法
–跟踪国际标准研究工作和引进相关国际标准
–根据我国教育的实际情况修订与创建各项标准
60
CELTS 体系
 《学习对象元数据》（CELTS-3）
– 规定了描述学习对象的基本方法与准则
– 属于CELTS体系中的基础标准
 《教育资源建设技术规范》（CELTS-41）
– 面向资源建设领域
– 包括基础教育、高等教育、职业教育和培训等领域）
– 是对《学习对象元数据》与具体应用领域结合的产物
 《基础教育教学资源元数据规范》（CELTS-42）
– 应用领域则更为具体
– 主要面向基础教育的资源建设
 关系
– 一脉相承的
– 都是以LOM为核心建立的
61
机读目录（MARC）
 广泛用于图书馆书目记录数据
 是目前图书馆描述、存储、交换、处理以及检索信息
的基础
 特点
–可变长字段的记录格式
–采用目次方式
–每条MARC记录分三个区（头标区，目次区，数据区）
62
2.5 XML
 性质
– W3C于1998年2月发布的一种标准
–是SGML的一个简化子集
–可扩展标记语言
 特点
–较好地解决了HTML无法表达数据内容等问题
–允许各个组织、个人建立适合自己需要的标记集合
63
XML与HTML比较
 文档的3个要素
–数据、结构以及显示方式
 HTML
–显示方式内嵌在数据中
–在创建文本时，要时时考虑输出格式
–创建文档的重复工作量大
– 不易抽取语义信息
 XML
–显示格式从数据内容中独立出来，保存在样式单文件
(Style Sheet)中
–自我描述性质能够很好地表现许多复杂的数据关系
64
XML结构
 文件头
–与HTML类似，是可选的
 文件主体
–包括一个或多个元素
–形式是一棵分级的树
 混杂的“结尾部分”
–由注释、处理指令和空白组成
–注释用<!-- --!>表示，可在文档中任意位置
65
元素(Element)
 表示方法
–由开始标记、结束标识以及标识之间的数据构成
–标记之间的数据被认为是元素的值
–每个元素都有不同的标记名
 <director>王力</ director >
–元素名是director
–元素值是“王力”
 < actor >王力</ actor >
–元素名是actor
–元素值是“王力”
66
元素要点
 关键的3点
–所有元素必须有结束标记
–所有元素必须正确嵌套，不允许交迭
–所有属性值必须加引号
 注意点
– XML文档主体有且仅有一个XML根元素
–可以嵌套XML元素，形成一棵树形结构
67
XML文档例子
<书类>
<书国际标准书号="0345374827">
<标题>数据结构</标题>
<作者>许卓群等</作者>
</书>
<书国际标准书号="0345374828">
<标题>数据挖掘</标题>
<作者>韩家炸等</作者>
</书>
</书类>
68
例子的树状结构
书类
书
标题
书
作者
标题
作者
69
XML属性






给元素提供进一步的说明信息
必须出现在起始标记中
以名称/取值对出现，属性名不能重复
名称与取值之间用等号“=”分隔
用引号把取值引起来
例如
– <工资货币="人民币元">100000</工资>
–说明了工资的货币单位是人民币元
70
XML处理器
 目的
–解析XML文档
–提供对XML文档内容和结构的访问
 文档对象模型(Document Object Model，DOM)
–将完整的XML转换成一棵树的形式放在内存中
–供随机访问元素、属性
 XML简单API(Simple API for XML，SAX)
–采用事件驱动模型
–通过标记的起止来触发事件
 DOM与SAX的比较（讨论）
71
处理指令(Processing Instruction)
 目的
–给XML处理器提供信息，使其能够正确解释文档内容
 表示
–起始标记是“<?”，结束标记是“?>”
 方法
– XML分析器把这些信息原封不动地传给应用程序
–由应用程序来解释这个指令
–遵照它所提供的信息进行处理
72
两种处理指令
 XML声明
– <? Xml version="1.0" encoding="gb2312"
standalone="no" ?>
–必须包括version属性，指明所采用的XML的版本号，而
且它必须在属性列表中排在第一位
– standalone属性表明该XML文档是否和一个外部文档类
型定义DTD配套使用
– encoding属性则指明了数据所采用的编码标准
 XSL样式单引用
– <? xml- stylesheet type=“text-xsl” href=“contacts.xsl” ?>
–告诉XSL样式单解析器，样式单的类型是text-xsl
–类型text-xsl可以在文档contacts.xsl中找到
73
XML的名字空间
 背景
–由于XML对互操作性的支持，每个人都可以创建属于自
己的XML词汇
–不同的开发者会用相同的元素来代表不同的实体
 作用
–为XML文档元素提供了一个上下文
–允许开发者按一定的语义来处理元素
 为什么引入NS(命名空间)
– 讨论
74
XML NS 例子
＜?xml version="1.0"?＞
＜hamburgers
xmlns:purchase=http://fastfood.org/franchise/prices
xmlns:sales=http://fastfood.org/customer/prices
＞
＜hamburger lowfat="dream on"＞
＜name＞CowBurger＜/name＞
＜description＞Greasy and good.＜/description＞
＜purchase:price＞0.99＜/price＞
＜sales:price＞2.99＜/price＞
＜/hamburger＞
＜/hamburgers＞
75
XSL(Extensible Stylesheet Language)
 背景
–用标准的DOM API来实现XML数据的交互，是十分单
调乏味的
–如想找到所有满足某些条件的元素，或转换为简单的
HTML表格，必须手工书写代码遍历整棵树来寻找
 目的
–为标准化及简化人们完成这些任务所需做的工作
76
食品的例子
XML文档
<? xml Version="1.0" ?>
<食品>
<食品脂肪含量="低">
<名称>月饼</名称>
<描述>中秋节食用的传统食
品</描述>
<价格>2.99 </价格>
</食品>
<食品>
HTML文档
<html>
<body>
<h1>食品</hl>
<o1>
<li>月饼, 中秋节的传统
食品, 2元</li>
</o1>
</body>
</html>
77
XSL文件
<? xml Version="1.0" ?>
<xsl: stylesheet xmlns:xsl="http://www.w3.org/TR/WD－xsl">
<xsl: template match="/"> 选取了当前结点的所有食品子结点
<html>
<body>
<hl>hamburgers</hl>
<xsl: for—each select="hamburgers[@lowfat="dream on"]" >
标识出符合给定条件的结点
<li> <xsl: value-of select ="name"/>,
<xsl: value-of select ="description"/>,
<xsl: value-of select ="price"/>
取结点中各个元素的值
</li>
</xsl: for—each>
<body>
78
<html></xsl: template></xsl: stylesheet>
XSL用途
 增强了互操作性
– XML数据转换为HTML
–从一种XML格式到另一种XML格式之间的转换
 开发人员不用为了描述某种类型的数据而采用通用的
词汇
–某个人向你的系统发送了一篇XML文档，而你的系统不
认识它所采用的XML词汇
–只要进行一次简单的XSL转换就可以得到自己熟悉的词
汇
79
文档类型定义 DTD
 目的
–定义XML文档结构，即其中的元素、属性以及元素之间
关系的
–定义了文件中的元素能用什么名字，能放在什么位置，
应该怎样组合
–可以检测XML文档的结构是否正确
 例如描述一组<表>，其中每个<表>又可以包含若干个
<项>
–DTD 中应该有语句 : <! ELEMENT 表 ( 项 ) + > <!
ELEMENT项(#PCDATA) >
–生成的表：<表><项>管乐</项><项>弦乐</项><项>器
乐</项><表>
80
DTD 引用
 内部引用
– 包含在XML文档的前导说明部分
– 如<? xml version="1.0" encoding="GB2312" standalone="yes" ?>
<! DOCTYPE根元素名[元素描述]>
文档体…
 外部引用
– 作为一个外部文档被引用
– 如<? xml version="1.0" encoding="GB2312" standalone="no" ?>
<! DOCTYPE根元素名 SYSTEM "外部DTD文件的URL" >
文档体…
– SYSTEM指一个作者或组织所编写的通用的DTD
– 或是<! DOCTYPE根元素 PUBLIC "DTD名称" "外部DTD的URL">
– PUBLIC 指由权威机构制订的、提供给特定行业或公众使用的DTD
81
DTD中ETD(元素类型声明)
 作用
– 声明所有有效的文档元素
 结构
– <! ELEMENT元素名元素内容描述>
 类型
– 空元素类型
• <! ELEMENT元素名EMPTY>
• 使用空元素标记，元素中没有内容
– ANY元素类型
• 元素中可以包含任何内容
– 父元素类型
• 元素中可以包含子元素
• 在DTD中通过正则表达式规定子元素出现的顺序和次数
– 混合元素类型
• <! ELEMENT元素名 (#PCDATA |子元素名1 |子元素名2 | …)>
• 元素中可以包含文本
82
• 文本之间可以有选择地插入子元素，子元素出现的顺序和次数不受限制
2.6 XML Schema
 DTD缺点
– 采用了非XML的语法规则
– 不支持数据类型
– 扩展性较差
 XML模式己经渐有取代DTD的趋势
–拥有比DTD更强大的功能
–用于更精确和有效地描述XML文档结构
83
XML模式的优点
 一致性
– 直接借助XML自身的特性
– 利用XML的基本语法规则
– 定义XML文档的结构
– 不必再利用一种特定的形式化的语言
 扩展性
– 引入了数据类型、命名空间
– 在基本数据类型基础上用户可自己扩展数据类型
 互换性
– 利用模式能够书写XML文档并验证文档的合法性
– 对不同的模式进行转换，以实现更高层次的数据交换
 规范性
– 利用元素的内容和属性来定义XML文档的整体结构
– 基于XML，更具有规范性
84
数据类型
 用途
–为Element Type和Attribute Type指定数据类型
 基本数据类型（10种)
– entity，entities，enumeration，id，idref，idrefs，
nmtoken，nmtokens，notation和string
 扩展数据类型
– bin.baSe64，bin.heX，boolean，char，date，dateTime，
dateTime.tz，fixed.14.4，float，int，number，
timetime.tz，i1 ，i2, i4，r4, r8，ui1, ui2，ui4, uri，uuid
85
XMLS元素类型
 基本格式
–<ElementType
content="{|empty | textOnly | eltOnly | mixed }"
dt: type="datatype"
model="{open | closed}"
name="idref"
order="{one | seq | many }“>
</ElementType>
 取值及含义 (略）
86
XMLS属性类型
 基本格式
–<AttributeType default="default-value"
dt: type= "primitive-type
dt: values="enumerated-values"
name="idref"
required="{yes | no}">
 取值及含义 (略）
87
数据类型的使用例子（1）
 定义元素“名字”和“生日”
<element name="name" type="string" minOccurs="1" maxOccurs="1"
/>
<element name="birthday" type="date" minOccurs="1" maxOccurs="1"
/>
 其中string和date类型都是Schema中自带的基本数据类型
 minOccurs和maxOccurs是最少和最多出现次数的约束，这里表示有
而且只出现一次
88
数据类型的使用例子（2）
 扩展数据类型
– Schema中没有规定的类型，如“性别”类型
 定义例子
<simpleType name="性别">
<restriction base="string">
<enumeration value="男"/>
<enumeration value="女"/>
</restriction>
</simpleType>
 注释
– name属性是该数据类型的名称
–数据类型由restriction子元素进行约束
–该元素中的base属性是基类型
89
2.7元数据自动抽取技术
各类
文档
预处理
格式
文档
元数据提取
元数据模式
元数据
信息
启发规则
 预处理
– 剔除在格式、内容、语言等方面存在问题或严重缺失的文档
– 产生格式相对规整的文本文档
 提取元数据
– 由数字化文档元数据的规范定义，产生提取元数据的各种模
式
– 依据元数据模式进行数字化文档的挖掘与匹配
– 利用与数字化文档相关的启发式规则和经验规则，有效提取
元数据
90
MathML
 含义
– Mathematical Markup Language
 用途
–用来描述数学符号、纪录其结构和内容
 目标
–是在Web上实现能像HTML处理文本一样，处理数学问
题
91
例：x2 + 4x + 4 =0
＜apply＞
＜plus/＞
＜apply＞
＜power/＞
＜ci＞x＜/ci＞
＜cn＞2＜/cn＞
＜/apply＞
＜apply＞
＜times/＞
＜cn＞4＜/cn＞
＜ci＞x＜/ci＞
＜/apply＞
＜cn＞4＜/cn＞
＜/apply＞
92
SMIL
 含义
– Synchronized Multimedia Integration Language
 用途
–一种基于XML的表述多媒体演示的语言
–将一组独立的多媒体对象整合为一个多媒体演示
93
SMIL例子
＜HTML＞＜HEAD＞＜STYLE＞
.time { behavior:url(#default#time); }
＜/STYLE＞＜/HEAD＞
＜BODY＞
＜DIV CLASS="time" t:timeline="seq"＞
＜P class="time" t:dur="1"＞
This appears for one second and goes away
＜/P＞
＜P class="time" t:dur="1"＞
This appears after one second, remains visible for one
second and goes away
＜/P＞
＜P class="time" t:dur="1"＞
This appears after two seconds, remains visible for
one second and goes away
＜/P＞
94
＜/DIV＞＜/BODY＞＜/HTML＞
CDF
 含义
– Channel Definition Format
–一种开放的规格
–允许Web的发布者经常更新信息或是频道
 CDF起到了频道内容目录的作用
–用户仅需选择一下频道
–信息就会从Web服务器定时的传递到客户端
95
问题讨论
1.什么是元数据（metadata）？
2.元数据与数据是什么关系？
3.元数据（metadata）概念提出的背景是什么？
4.元数据能解决什么问题？
5.元数据是新概念吗？
96
问题讨论
6. 数字图书馆和元数据的关系是什么？
7. 什么是元数据的语义、结构和句法？
8. 如何使用元数据？
9. 元数据可以应用哪些置标语言？
10. 什么是RDF？
97
问题讨论
11. 什么是语义万维网（Semantic Web）?语义万维网
与元数据有什么关系？
12. 什么是本体(Ontology)？元数据与本体有什么关系？
13. 存在多个元数据格式 ,解决互操作问题通常有哪些方
法？
14.元数据映射解决系统互操作问题有什么优缺点？
98
References
 W. Song, M. Zhang. A First Step toward the Semantic
Web, Higher Education Press, 2004
 Bernard-Lee, T. (2000). Semantic Web - XML2000.
Available: http://www.w3.org/2000/Talks/1206-xml2ktbl/Overview.html
 XML Schema Part 0: Primer, W3C Recommendation,
May 2001
 http://www.w3.org
 http://www.semanticweb.org
 http://www.xml.org.cn
99
Enjoy this Study ...
100

Download Report