Spark高级数据分析(影印版英文版)[AdvancedAnalyticsWithSpark]
内容简介
在《Spark高级数据分析(影印版 英文版)》中,4位Cloude阳公司的数据科学家讲解了一系列自包含模式,用于在Spark中进行大规模数据分析。《Spark高级数据分析(影印版 英文版)》作者们把Spark、统计原理和现实世界中的数据集合放到一起,通过实例教你如何解决数据分析问题。
你将从Spark及其生态系统的介绍开始,然后深入运用标准技巧的模式——归类、聚合过滤及异常检测等,这些技巧被用于生物基因、安全和金融等行业。如果你对机器学习和统计学有初步了解,使用Java、Pytton或者Scala编程,就会发现这些模式对于你的数据分析应用程序会非常有用。
模式包括: 音乐推荐和Audioscrobbler数据集合 用决策树分析森林覆盖 用K均值聚合检测网络流量中的异常 用潜在语义分析理解维基百科 用GraphX分析共生网络 用地理空间和瞬态数据分析纽约市出租车路线的数据 用蒙地卡罗模拟来估计金融风险 分析基因数据和BDG项目 通过PySpark和Thunder分析神经造影数据