Spark机器学习:核心技术与实践
编辑推荐
作为一名具有机器学习和统计背景的开发人员,你是否感受到了当前缓慢的“小数据”机器学习工具的限制?那么本书就是为你而写!在本书中,你将会使用Spark创建可扩展的机器学习应用,为现代的数据驱动业务提供支持。
本书从MLlib和H2O库定义的机器学习原语开始,你将学到如何使用二分类检测由CERN粒子对撞机产生的大量数据中的希格斯波色子,并使用多元分类的集成方法对日常身体活动进行分类。接下来,你将解决一个涉及航班延误预测的典型回归问题,并编写复杂的Spark流水线。你将在doc2vec算法和K-means聚类的帮助下分析Twitter数据。后,你将会使用MLlib构建不同的模式挖掘模型,使用Spark和Spark SQL对DataFrame进行复杂的操作,并在Spark Streaming环境中部署你的应用。
内容简介
本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。
作者简介
Alex Tellez,是一名终身的数据黑客/爱好者,对数据科学及其在商业问题上的应用充满了激情。他在多个行业拥有丰富的经验,包括银行业、医疗保健、在线约会、人力资源和在线游戏。Alex还在各种人工智能/机器学习会议上进行过多次演讲,同时也在大学讲授关于神经网络的课程。闲暇时间,Alex喜欢和家人在一起,骑自行车,并利用机器学习来满足他对法国葡萄酒的好奇心!
首先,我要感谢Michal与我一起编写本书。同样作为的机器学习(Machine Learning,以下简称ML)爱好者、自行车爱好者、跑者和父亲,在一年来共同努力的过程中,我们对彼此有了更深的了解。换句话说,没有Michal的支持和鼓励,本书是不可能完成的。
接下来,我要感谢我的妈妈、爸爸和哥哥Andres,从我出生天直到现在的每一步,你们都陪伴在我的周围。毋庸置疑,我的哥哥仍会是我的英雄,是我永远仰望的人,是我的指路灯。当然,还要感谢我美丽的妻子Denise和女儿Miya,在每个夜晚和周末给予我写作上的关心和支持。我无法描述你们对我而言意味着多少,你们是我保持持续创作的灵感和动力。对我的女儿Miya,我的希望是,有一天当你拿起这本书时,会意识到你的老爸并不像看起来那么傻。
后,我也要感谢你——读者,感谢你对这个令人兴奋的领域以及难以置信的技术感兴趣。无论你是一名经验丰富的ML专家,还是希望立足的新人,你都会找到适合自己的内容,我希望你能像Michal和我一样,从本书中获得很多。
Max Pumperla,是一名数据科学家和工程师,专注于深度学习及其应用。他目前在Skymind担任深度学习工程师,并且是aetros.com的联合创始人。Max是几个Python软件包的作者和维护者,包括elephas,一个使用Spark的分布式深度学习库。他的开源足迹包括对许多流行的机器学习库的贡献,如keras、deeplearning4j和hyperopt。他拥有汉堡大学的代数几何博士学位。
Michal Malohlava是Sparkling Water的创建者、极客和开发者,Java、Linux、编程语言爱好者,拥有10年以上的软件开发经验。他于2012年在布拉格的查尔斯大学获得博士学位,并在普渡大学攻读博士后。
在学习期间,他关注利用模型驱动方法和领域特定语言构建分布式、嵌入式、实时和模块化系统,参与了各种系统的设计和开发,包括SOFA和分形组件系统以及jPapabench控制系统。
现在,他的主要兴趣是大数据计算。他参与了高级大数据计算平台H2O的开发,并将其嵌入到Spark引擎中作为Sparkling Water项目发布。
我要感谢我的妻子Claire,感谢她对于我的爱和鼓励。