数据科学导论:Python语言实现(原书第2版)
编辑推荐
本书首先介绍如何设置基本的数据科学工具箱,然后带你进入数据改写和预处理阶段,这一部分主要是阐明所有与核心数据科学活动相关的数据分析过程,如数据加载、转换、修复以及数据探索和处理等。通过主要的机器学习算法、图形分析技术,以及所有易于表现结果的可视化工具,实现对数据科学的概述。 本书对上一版内容进行了全面拓展和更新,涵盖新版的Jupyter Notebook、NumPy、pandas和Scikit-learn等的新改进。此外,还介绍了深度学习(借助在Theano和Tensorflow平台上运行的Keras库)、漂亮的可视化(使用Seaborn和 ggplot)和Web部署(使用bottle)等新内容。 本书行文过程以数据科学项目为主体,辅以整洁的代码和简化的示例,能帮助你理解与项目相关的潜在原理和实际数据集。
内容简介
本书由两位资深的数据科学家所著,是他们多年数据科学实践经验的总结,通过对上一版内容的更新和扩展,其介绍了新版Python的特点及安装方法,继而全面又系统地讲解了数据科学分析和开发的相关工具、实践以及简单示例。通过阅读本书,你将深入了解Python核心概念,成为高效数据科学实践者。 本书共七部分内容,包括六章和一个附录。第1章介绍Jupyter Notebook的使用方法;第2章对数据科学流程进行概述,并详细分析用于数据准备和处理的关键工具;第3章讨论改进结果的数据操作技术;第4章深入研究Scikit-learn中的主要机器学习算法;第5章进行图的探索和聚集分析;第6章介绍一些可视化工具的使用方法;附录则是一些Python示例和说明,重点介绍Python语言的特点。
作者简介
阿尔贝托·博斯凯蒂(Alberto Boschetti) 数据科学家、信号处理和统计学方面的专家。他拥有通信工程专业博士学位,现在伦敦居住和工作。基于所从事的项目,他每天都要面对包括自然语言处理、机器学习和概率图模型等方面的挑战。他对工作充满激情,经常参加学术聚会、研讨会等学术活动,紧跟数据科学技术发展的前沿。 卢卡·马萨罗(Luca Massaron) 数据科学家、市场研究总监,是多元统计分析、机器学习和客户洞察方面的专家,有十年以上解决实际问题的经验,使用推理、统计、数据挖掘和算法为利益相关者创造了巨大的价值。他是意大利网络受众分析的先锋,并在Kaggler上获得排名前十的佳绩,随后一直热心参与一切与数据分析相关的活动,积极给新手和专业人员讲解数据驱动知识发现的潜力。他崇尚大道至简,坚信理解数据科学的本质能带来巨大收获。