Spark高级数据分析第2版
作者:[美]桑迪·里扎(SandyRyza),[美]于里·莱瑟森(UriLaserson),[英]肖恩·欧
ISBN:9787115482525
出版社:人民邮电出版社
出版日期:2018-06-01
正文语种:中文
页数:226
市场价:69.00
编辑推荐
作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。
本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。
第2版根据新版Spark杰出实践,对样例代码和所用资料做了大量更新。
本书涵盖模式如下:
● 音乐推荐和Audioscrobbler数据集
● 用决策树算法预测森林植被
● 基于K均值聚类进行网络流量异常检测
● 基于潜在语义算法分析维基百科
● 用GraphX分析伴生网络
● 对纽约出租车轨迹进行空间和时间数据分析
● 通过蒙特卡罗模拟来评估金融风险
● 基因数据分析和BDG项目
● 用PySpark和Thunder分析神经图像数据
内容简介
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。
作者简介
【作者简介】
桑迪·里扎(Sandy Ryza),Spark项目代码提交者、Hadoop项目管理委员会委员,Time Series for Spark项目创始人。曾任Cloudera公司高级数据科学家,现就职于Remix公司从事公共交通算法开发。
于里·莱瑟森(Uri Laserson),MIT博士毕业,致力于用技术解决遗传学问题,曾利用Hadoop生态系统开发了可扩展的基因组学和免疫学技术。目前是西奈山伊坎医学院遗传学助理教授,曾任Cloudera公司核心数据科学家。
肖恩·欧文(Sean Owen),Spark、Mahout项目代码提交者,Spark项目管理委员会委员。现任Cloudera公司数据科学总监。
乔希·威尔斯(Josh Wills),Crunch项目发起人,现任Slack公司数据工程主管。曾任Cloudera公司高级数据科学总监。
【译者简介】
龚少成
现任万达科技集团数据工程部总经理,清华大学自动化系研究生毕业,国内专注企业级大数据平台建设的先驱者之一,曾经在Intel和Cloudera公司担任大数据技术负责人,Cloudera公司认证大数据培训讲师。
邱鑫
毕业于武汉大学,目前就职于英特尔亚太研发有限公司,是Intel大数据团队高级工程师。主要研究大数据与深度学习技术,是基于Spark的深度学习框架BigDL的核心贡献者。