计算机科学丛书:数据集成原理[PrinciplesofDataIntegration]
编辑推荐
数据集成的第一部综合指南,从理论原则到实现细节,再到语义网和云计算目前所面临的新挑战。
提供一系列数据集成解决方案,使研究人员和从业者能把重点放在手头的问题上。
提供特定的算法来解决常见的数据集成挑战。
使你可以创建自己的算法并实现自己的数据集成应用。
内容简介
近20年里,数据产生的方式不断得到扩展,带来数据管理需求和任务的不断变化,促使数据管理技术不断推陈出新。数据库管理系统、数据仓库与数据挖掘、数据集成被视为三足鼎立的现代数据管理技术,它们在构建信息系统中的作用相当、互为依存、缺一不可。但数据集成技术缺乏像数据库系统、数据挖掘广为人知的专业教材,使得该技术虽“叫好(广为应用)”,但“不叫座(缺乏教学传播)”。大学鲜有开设此类课程,其知识的积累多散见论文、系统。《计算机科学丛书:数据集成原理》可以说一举改变了数据集成没有专业教材的困局,尤其在当今大数据背景下,其作用尤为突出。
数据集成主要用来解决跨多个数据源的查询处理问题。《计算机科学丛书:数据集成原理》是有关数据集成技术的集大成之作。全书是以教科书的逻辑整理有关内容,强调知识的基础性和理论性。主要讨论以下问题:如何对数据库思想进行扩充和深化,从而使其能够容纳外部信息源,处理Web的分布式特性和信息共享带来的问题,特别是异构性和不确定性。
《计算机科学丛书:数据集成原理》内容主要包括三部分。一、以数据库课程涵盖的研究主题为基础,主要关注数据集成领域的基本技术,如查询的表示、数据源的描述、模式匹配、查询处理、集成方法等:穿插补充了Web数据集成的内容,如包装器、数据匹配(实体识别)等。二、主要介绍扩展数据集成的知识,包括×ML、语义Web、不确定性、数据溯源等。三、介绍了解决特定集成问题的创新框架,包括Web数据集成、基于关键字的按需集成、对等集成、协同集成等。最后介绍了数据集成技术的主要研究方向。
作者简介
AnHaiDoan,威斯康星大学麦迪逊分校计算机科学系副教授。
AlonHalevy,谷歌结构化数据组负责人。
ZacharyIves,宾夕法尼亚大学费城分校副教授。