当前位置: 首页 > 资源下载  > 电子书 > 计算机

Hadoop数据分析

12/16/2018 9:53:18 PM 0人评论 15次

通过提供分布式数据存储和并行计算框架,Hadoop已经从集群计算的抽象演变成了大数据操作系统。本书从数据科学的视角,介绍Hadoop集群计算和分析,重点关注可构建的具体分析、数据仓储技术和高阶数据流。书中主要内容如下:.Hadoop和集群计算背后的核心概念.使用设计模式和

Hadoop数据分析

Hadoop数据分析

编辑推荐

通过提供分布式数据存储和并行计算框架,Hadoop已经从集群计算的抽象演变成了大数据操作系统。本书从数据科学的视角,介绍Hadoop集群计算和分析,重点关注可构建的具体分析、数据仓储技术和高阶数据流。
书中主要内容如下:
.Hadoop和集群计算背后的核心概念
.使用设计模式和并行分析算法创建分布式数据分析作业
.在分布式环境下使用Apache Hive和HBase进行数据管理、数据挖掘和数据仓储
.使用Sqoop和Apache Flume从关系数据库采集数据
.使用Apache Pig和Spark DataFrame编写复杂的Hadoop和Spark应用程序
.通过Spark MLlib运用分类、聚类和协同过滤等机器学习技术

“我还未见过比本书更好的Hadoop框架讲解。”
——Marck Vaisman,博思艾伦咨询公司数据科学家、乔治?华盛顿大学兼职教授、数据社区DC联合创始人

“每个概念都得以清晰明了的解读,在容易忽略细节的部分又都有补充资源,供读者深入学习,这对于专业人员和初学者都非常友好。本书中的讲解总是与示例相辅相成,让读者在学习之后又能投入实战,深入了解系统功能——我认为这才是熟悉新领域的关键所在。”
——读者

内容简介

通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,* 一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;* 二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。

作者简介

Benjamin Bengfort,数据科学家,目前正在马里兰大学攻读博士学位,方向为机器学习和分布式计算;熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。
Jenny Kim,经验丰富的大数据工程师,不仅进行商业软件的开发,在学术界也有所建树,在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。

附件下载

  • 下载

    百度网盘下载

    下载:7次 所需积分:90

  • 积分获取方法:先给账户进行充值,然后进行积分兑换,积分兑换比例:1元可兑换10个积分.
    具体可参考帮助如何获取积分说明

相关资源

  • 人机交互基础教程(第3版)

    Delphi是面向对象的可视化软件开发平台,它提供了大量VCL组件,具有强大的数据库开发和网络编程能力,极大地提高了应用系统的开发速度,是目前软件开发工具之一。  《人机交互基础教程(第3版)》以DelphiXE8为开发平台进行修订,增加基于Android应用程序设计和基于

    3/23/2025 11:44:42 PM
  • C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材

    《C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材》是为具有C语言基础的读者编写的,主要介绍C什面向对象程序设计的基本知识和编程方法,全面讲述了C++面向对象的基本特征。内容包括类、对象、继承、派生类、多态性、虚函数、运算符重载、

    2/23/2025 12:55:51 PM
  • 算法零基础一本通(Python版全彩印刷)_电子书PDF格式百度云网盘下载

    《算法零基础一本通(Python版 全彩印刷)》指导读者从零开始学习算法:从基础数据结构开始,逐步解说信息安全算法,最后也讲解了人工智能入门领域的KNN和K-means算法。  《算法零基础一本通(Python版 全彩印刷)》理论与实例并重,在讲解算法理论时,使用热门程序

    12/29/2024 9:07:06 PM
  • C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材

    《C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材》是为具有C语言基础的读者编写的,主要介绍C什面向对象程序设计的基本知识和编程方法,全面讲述了C++面向对象的基本特征。内容包括类、对象、继承、派生类、多态性、虚函数、运算符重载、

    11/23/2024 12:54:31 PM