赞
踩
原创: 黄智生 数据简化DataSimp 今天
数据简化DataSimp导读:介绍面向大数据环境的语义处理技术,包括大数据时代的语义数据环境、海量语义数据处理平台及语义技术在智慧城市与医学大数据中的应用。作者黄智生博士是荷兰阿姆斯特丹自由大学计算机系终身教授;研究方向:人工智能与大数据。附黄智生简历。祝大家学习愉快~ 关注本公号“数据简化DataSimp”后,在输入栏回复“黄智生语义技术”可获取下载链接。数据简化DataSimp社区分享:信息与数据处理分析、数据科学研究前沿、数据资源现状和数据简化基础的科学知识、技术应用、产业活动、人物机构等信息。欢迎大家参与投稿,为数据科学技术做贡献,使国人尽快提高数据能力,提高社会信息流通效率。要推进人类文明,不可止步于敲门呐喊;设计空想太多,无法实现或虚度一生;工程能力至关重要,秦陇纪与君共勉之。
黄智生教授:大数据时代的语义技术(11272字)
目录
A大数据时代的语义技术(10116字)
1 大数据时代的语义数据环境
2 海量语义数据处理平台
3 语义技术在智慧城市与医学大数据方面的应用
4 小结
参考文献
B黄智生简历(741字)
医学知识图谱及其应用
黄智生教授个人简历
参考文献(305字)
Appx(845字).数据简化DataSimp社区简介
大数据时代的语义技术
文|黄智生,源|《数字图书馆论坛》2017年06月22日,数据简化DataSimp-20181109Fri
内容提要:当前正处于大数据时代,大数据为智慧城市提供丰富的数据环境。智慧城市技术需要面向万维网大数据处理及其知识服务的支持。语义技术为海量数据处理及知识管理提供有效的技术手段。本文系统化介绍面向大数据环境的语义处理技术,包括大数据时代的语义数据环境、海量语义数据处理平台及语义技术在智慧城市与医学大数据中的应用。
关键词:大数据 语义技术 知识图谱 知识管理智慧城市技术
中图分类号:TP182
万维网为大数据时代提供海量的异构数据环境,进而为智慧城市技术及其知识服务提供巨大的开发空间。但是,数据异构性使我国面临如何对大数据进行有效语义整合和处理的巨大挑战。有效整合海量异构数据,其中一个核心主题就是如何实现异构数据的互操作(Interoperability)。
数据互操作指多源数据能够实现类似单一系统数据般的无缝链接。语义网思想及围绕语义网目标实现所开发的一系列技术,称为语义网技术,简称语义技术(Semantic Technology)。语义技术为异构数据提供数据互操作的技术基础,也为大数据的有效分析提供一种技术途径[1-3]。本文将系统化地介绍面向大数据环境的语义处理技术。
1 大数据时代的语义数据环境
1.1 语义技术的基本思想
面对海量的万维网数据,一个核心问题是如何快速有效地寻找所需信息。目前通用的办法是通过网络搜索引擎,采用键入对应的关键字来获得结果。但是,传统搜索引擎主要通过关键字对网络资源进行字符串匹配获取检索结果,易获得包含部分关键字的噪声数据。如检索“化学”,检索结果却出现“自动化学习”和“机械化学习”。为避免此类字符串误匹配,可通过对网络中的文本描述进行结构化处理,即采用专业词典,将长串文本描述进行分词处理,切割成独立的子部分。如把“自动化学习”切分成“自动化”和“学习”两个独立的部分,在使用“化学”进行查找时就不会匹配到“自动化学习”,因为需要满足同时匹配两个独立的子结构。将长串文本切分成子结构的处理方法称为结构化处理,但结构化处理不能实现数据互操作。在进行网络搜索使用的关键字只是表达语义上的需求,而并不在意网络资源是采用何种具体的词来表达。因此,需要一种网络资源描述方式,来刻画语义上的关联性。刻画某个特定领域的概念集合及该领域概念间的关联性被称为本体(Ontology)[4-5]。
近十多年,国际万维网组织制定和出台了一系列语义技术标准,得到广泛的应用。其中主要的语义技术标准包括以下四类。
(1)网络资源描述框架(ResourceDescription Framework,RDF)和网络资源描述框架模式(ResourceDescription Framework Scheme,RDFS)。主要用于描述网络信息资源,前者用于描述具体的网络信息资源及其对应概念,后者用于描述网络信息资源概念间的关联性。RDF/RDFS可以采用不同的数据格式表达,可被写成类似XML格式的文件。经常使用的RDF/RDFS表达格式是Ntriple三元组格式。
(2)网络本体语言(Web OntologyLanguage,OWL)。RDF/RDFS仅能描述网络信息资源及其相关概念的基本特征,但逻辑表达能力不强。OWL对RDF/RDFS的逻辑表达能力进行扩展,使之能够表达更复杂的逻辑关系,提供逻辑推理能力[5]。
(3)RDF查询语言SPARQL。SPARQL是一种针对RDF/RDFS语义数据的查询语言,也可用于OWL数据查询;若语义数据处理平台已嵌入对应的推理机,SPAROL还可用于对语义数据的推理结果查询。一个规范的语义数据处理平台通常会提供规范的SPAROL查询接口,被称为SPAROL服务端。
(4)规则交换格式(Rule InterchangeFormat,RIF)。RIF语言标准提供一种面向网络信息资源的高级规则知识表达能力,可弥补OWL对领域概念逻辑相关性描述的不足。
语义技术标准,建立在对网络信息资源进行数据连接的统一概念格式上,其主要概念表达方法是三元组(Triple)法,即将信息资源以类似主语、谓语和宾语结构来表达。为增强语义标示的唯一性,通过网络资源进行唯一性语义标定是语义技术的核心思想之一。所以,语义技术标准的基本作用是对网络资源进行描述,用于提供语义唯一标识,同时让数据内容独立于表达形式。
语义网(语义技术)的主要思想包括:(1)任何信息系统都需要数据;(2)数据表示要独立于具体的应用和平台,以保证最大程度的可重用性;(3)采用统一的数据概念表示,以保证数据表示独立于具体系统(可采用Triple/Tuple形式);(4)数据应能描述网络资源(要采用RDF/RDFS或其他类似的语言);(5)数据应提供初步推理支持(要采用OWL或其他知识表示语言)。值得注意的是RDF/RDFS/OWL均采用Triple语义模型。
1.2 现代信息系统的数据基础——关联语义数据云图
近十年,信息领域的重大进展之一是获得关联语义数据云图(Lin
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。