Python+Spark2.0+Hadoop机器学习与大数据实战

12/16/2018 9:53:18 PM 人评论次

适读人群：正在学习大数据理论和技术的人员作为上机实践用的教材1.Hadoop集群安装与分散式运算和存储介绍通过实机操作，学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集群安装，并学会使用HDFS分散式存储与MapReduce分散式运算。2.Python Spark 2.0安装

Python+Spark2.0+Hadoop机器学习与大数据实战

编辑推荐

适读人群：正在学习大数据理论和技术的人员作为上机实践用的教材

1.Hadoop集群安装与分散式运算和存储介绍
通过实机操作，学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集群安装，并学会使用HDFS分散式存储与MapReduce分散式运算。
2.Python Spark 2.0安装
通过实机操作，学会安装Spark 2.0，并在本机与多台机器集群执行Python Spark应用程序。同时介绍如何在iPython Notebook互动界面执行Python Spark指令。安装eclipse整合开发界面，开发Python Spark应用程序，大幅提升程序开发生产力。
3.Python Spark SQL、DataFrame数据统计与数据可视化
Spark SQL 即使非程序设计人员，只需要懂得SQL语法，就可以使用。DataFrame API 可使用类SQL的方法，如select()、groupby()、count()，很容易进行统计，大幅降低大数据分析的学习门槛。Spark DataFrame可转换为Pandas DataFrame，运用Python丰富的数据可视化组件（例如matplotlib）进行数据可视化。
4.Python Spark MLlib机器学习
以大数据分析实际案例MoiveLens、StumbleUpon、CovType、BikeSharing介绍如何使用Python Spark运用机器学习演算法进行数据处理、训练、建立模型、训练验证找出*佳模型、预测结果。
5.Python Spark ML Pipeline机器学习流程
以大数据实际案例示范使用Python Spark ML Pipeline机器学习流程进行二元分类、多元分类、回归分析，将机器学习的每一个步骤建立成Pipeline流程：数据处理 →运算法训练数据→建立模型→找出*佳模型→预测结果。Spark ML Pipeline 通过内建数据处理模块与机器学习运算法，减轻数据分析师在程序设计上的负担。

内容简介

《Python+Spark 2.0+Hadoop机器学习与大数据实战》从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习（推荐引擎）、机器学习（二元分类）、机器学习（多元分类）、机器学习（回归分析）和数据可视化应用等。书中不仅加入了新近的大数据技术，还丰富了“机器学习”内容。
为降低读者学习大数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机，如何建立Hadoop集群，再建立Spark开发环境。《Python+Spark 2.0+Hadoop机器学习与大数据实战》中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照书中介绍的搭建过程，同样可以实现将自己的平台搭建在多台实体计算机上，以便更加接近于大数据和机器学习真实的运行环境。
《Python+Spark 2.0+Hadoop机器学习与大数据实战》非常适合于学习大数据基础知识的初学者阅读，更适合正在学习大数据理论和技术的人员作为上机实践用的教材。

作者简介

林大贵,从事IT行业多年，在系统设计、网站开发、数字营销、商业智慧、大数据、机器学习等领域具有丰富的实战经验。

附件下载

下载

百度网盘下载

下载：次所需积分：90
积分获取方法：先给账户进行充值，然后进行积分兑换，积分兑换比例：1元可兑换10个积分.
具体可参考帮助如何获取积分说明

上一篇：C程序设计（第五版）/中国高等院校计算机基础教育课程体系规划教材

下一篇：深度学习算法实践

人气排行

推荐资源

Python+Spark2.0+Hadoop机器学习与大数据实战

附件下载

百度网盘下载

相关资源

C++面向对象程序设计（第三版）/“十三五”高校计算机应用技术系列规划教材

算法零基础一本通（Python版全彩印刷）_电子书PDF格式百度云网盘下载

C++面向对象程序设计（第三版）/“十三五”高校计算机应用技术系列规划教材

C++面向对象程序设计（第三版）/“十三五”高校计算机应用技术系列规划教材