Spark核心技术与高级应用
编辑推荐
科大讯飞和百分点资深大数据专家实践经验结晶,秉承老庄哲学,从开发、数据分析、计算、管理和性能优化等多角度系统、深度地讲解了Spark的核心技术与高级应用 上善若水,水善利万物而不争。数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也。绵绵密密,微则无声,巨则汹涌;与人无争却又容纳万物。生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。数据之道,水之道也。 Spark作为一个快速、通用的大规模数据处理引擎,凭借其可伸缩、基于内存计算等特点,以及可以直接读写HDFS上数据的优势,进行批处理时更加高效,并有更低的延迟,已经成为轻量级大数据快速处理的统一平台,集成Spark SQL、Spark Streaming、MLlib、GraphX、SparkR等子框架,可以提供一站式解决方案,让从业者的工作变得越来越便捷。 本书源于实践,又不囿于现有实践,以老庄哲学来探讨大数据的本质与应用,兼具高度与实用性。 阅读本书的可能受益: 爱好者——可加深对大数据生态环境发展趋势的理解,爱上大数据和Spark,开启日后探究之旅。 大数据开发人员——理解原理、编程思想、应用实现与技术优缺点。 大数据运维人员——了解Spark框架、编程思想与应用情况,保障运行环境稳定与资源的合理利用。 大数据科学家与算法研究者——深入理解原理与应用场景,降低学习成本,开启通往高阶之路的大门。
内容简介
本书是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、Spark Streaming等大量内部模块和周边模块的原理与使用。除此之外,还从管理和性能优化的角度对Spark进行了深入探索。 本书分为四大部分,共计20章: 基础篇(第1~10章),详细说明什么是Spark、Spark的重要扩展、Spark的部署和运行、Spark程序开发、Spark编程模型,以及Spark作业执行解析。通过阅读本篇,读者可以构建更加清晰的Spark基础知识体系,进一步加深对大数据核心技术的理解。 实战篇(第11~14章),本书重点篇章,重点讲解Spark SQL与DataFrame、Spark Streaming、Spark MLlib与Spark ML、GraphX,以及基于以上内容在大数据分析、系统资源统计、LR模型、二级邻居关系图获取方面的实例。通过体察本篇的内容,读者可以掌握如何在实践中应用Spark,优化自身的应用场景,完善相应的解决方案。 高级篇(第15~18章),深入讲解Spark调度管理、存储管理、监控管理、性能调优。本篇的内容,为合理利用资源、有效进行资源监控、保障运行环境的稳定、平台性能调优、推进企业级的大数据平台管理提供了参考依据。 扩展篇(第19~20章),介绍Jobserver和Tachyon在Spark上的使用情况。通过本篇,延续基础、实战、高级等环节,并进一步扩展,更好地管理好Job、更有效地利用内存,为读者拓展出更深入、更全面的思路。 为了让读者从更高的角度认识与应用大数据,从《道德经》和《庄子》各精选10句,引导大家以老庄哲学的思考方式来认识大数据的内涵。本书不只是一本技术书,更是一本大数据哲学的思考之作。
作者简介
于俊, 科大讯飞大数据专家,专注大数据Hadoop和Spark平台;主要工作是大数据统计分析和机器学习算法工程实现。 科大讯飞大数据专家,Spark爱好者,专注于大数据领域,现从事基于Spark的用户行为分析相关工作。 百分点科技大数据架构师,专注于分布式系统架构;主要工作是负责公司底层基础平台的建设和Spark技术的推广。 科大讯飞大数据高级研究员,专注于用机器学习做大数据商业变现;主要工作是数据挖掘算法研究和Spark实现。
向海,
代其锋,
马海平,