写给大忙人的Hadoop2
编辑推荐
适读人群 :数据员 理解Hadoop 2和YARN的工作原理,以及它们对配备MapReduce的Hadoop第1版的改进。 理解基于Hadoop的数据湖和RDBMS数据仓库的比较。 在Linux机器、虚拟的沙箱或集群中安装Hadoop 2和核心服务。 研究Hadoop分布式文件系统(HDFS)。 理解MapReduce和YARN编程的基础。 利用Apache Pig、Hive、Sqoop、Flume、Oozie和HBase简化编程。 观察应用程序运行进度、控制作业并管理工作流程。 利用Apache Ambari高效地管理Hadoop,包括建立从HDFS到NFSv3的网关、制作HDFS快照及配置YARN的攻略。 学习Hadoop 2故障诊断和排除的基础知识,以及学习安装Apache Hue和Apache Spark。
内容简介
《写给大忙人的Hadoop 2》首先介绍了Hadoop 的背景知识,包括Hadoop 2 和YARN 的工作原理和对Hadoop 1 的改进,然后将数据湖与传统存储比较。第2 章到第8 章,分别介绍了Hadoop 2 和核心服务的安装方法、Hadoop 分布式文件系统、MapReduce 和YARN 编程,以及利用Apache Pig 等Hadoop 工具简化编程。最后两章讲述了利用Apache Ambari 等工具管理Hadoop 和基本的管理程序。附录包括Hadoop 2 故障诊断和排除的基础知识、Apache Hue 和Apache Spark 安装等。 《写给大忙人的Hadoop 2》通俗易懂,具有大量操作实例,易于上手,适合Hadoop 用户、管理员、开发和运维人员、程序员、架构师、分析师和数据科学工作者阅读。
作者简介
Douglas Eadline,博士,作为一个Linux 集群HPC 革命的践行者和记录者开始他的职业生涯,而现在他在记录大数据分析。从开始第一份操作文档以来,道格写了数百篇文章、白皮书,以及说明文档,涵盖高性能计算(HPC)的几乎所有方面。在2005年启动和编辑颇受欢迎的ClusterMonkey.net 网站之前,他担任ClusterWorld 杂志的主编,并曾是Linux 杂志的HPC 资深编辑。 他具有多方面的HPC 实际操作经验,包括硬件和软件设计、基准测试、存储、GPU、云计算和并行计算。 目前, 他是一名作家和 HPC 行业顾问, 并且是Limulus 个人集群项目(http://limulus.basement-supercomputing.com)的领导。他是Addison-Wesley 出版的HadoopFundamentals LiveLessons 和Apache Hadoop YARN Fundamentals LiveLessons 教学视频的作者和Apache Hadoop? YARN: Moving beyond MapReduce and Batch Processing withApache Hadoop? 2 一书的合著者。 卢涛,专业社区ITPUB Oracle开发版版主。1995年参加工作,2001年转到IT部门从事C/C++软件开发,2004年开始做系统分析和Oracle数据库方面工作。参加过多个全国性普查数据处理项目的开发和运维,目前主要从事统计报表联网填报系统的后台支持和优化。曾参与编写《剑破冰山―Oracle开发的艺术》一书,并翻译了数本Oracle管理、开发和性能优化;C/C++开发、Web开发等方面的书籍。