当前位置: 首页 > 资源下载  > 电子书 > 计算机

文本挖掘:基于R语言的整洁工具[TextMiningwithR:ATidyApproach]

12/16/2018 9:53:18 PM 0人评论 41次

本书由tidytext创建者亲笔撰写,系统阐述如何使用基于R的整洁工具来进行文本分析。书中首先介绍整洁文本的格式,以及如何获取整洁文本数据集;并通过tidytext中的情感数据集来进行情绪分析;接着介绍如何根据tf-idf统计量来识别特定文档中的重要单词,以及如何利用n-gram

文本挖掘:基于R语言的整洁工具<strong>[TextMiningwithR:ATidyApproach]</strong>

文本挖掘:基于R语言的整洁工具[TextMiningwithR:ATidyApproach]

内容简介

本书由tidytext创建者亲笔撰写,系统阐述如何使用基于R的整洁工具来进行文本分析。书中首先介绍整洁文本的格式,以及如何获取整洁文本数据集;并通过tidytext中的情感数据集来进行情绪分析;接着介绍如何根据tf-idf统计量来识别特定文档中的重要单词,以及如何利用n-gram来分析文本中的文字网络;之后介绍如何将整洁文本转换为文档词项矩阵和Corpus对象格式,并给出了主题建模的概念;最后通过整合多种已知的整洁文本挖掘方法,给出了一些研究案例,这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通讯信息。总的来说,本书侧重于分析文学、新闻和社交媒体方面的文本,非常适合从事相关文本挖掘的工作人员,也适合自然语言的初学者。与此同时,使用书中提供的大量针对性编程例子,不但可以提高工程实战能力,而且可以在本书提到的整洁框架上建立自己的分析任务。

作者简介

Julia Silge 是Stack Overflow的数据科学家,负责复杂数据集分析及与不同受众进行技术主题交流。 她拥有天体物理学博士学位,热爱简·奥斯汀和制作美丽的图表。

David Robinson 是Stack Overflow的数据科学家,普林斯顿大学定量与计算生物学博士。他喜欢开发开源R软件包,包括broom、gganimate、fuzzyjoin和widyr,还喜欢撰写统计、R和文本挖掘等方面的博客。

附件下载

  • 下载

    百度网盘下载

    下载:53次 所需积分:90

  • 积分获取方法:先给账户进行充值,然后进行积分兑换,积分兑换比例:1元可兑换10个积分.
    具体可参考帮助如何获取积分说明

相关资源

  • Fortran程序设计(第四版)

    本书介绍了Fortran语言基础知识,以及结构化程序设计思想,该设计思想使得大型Fortran程序的维护更易于实现。本书面向的读者是科学/工程类学生,意在对他们进行相应领域的实践训练。本书是一本理想的Fortran语言资料。 本书在讲述Fortran知识过程中,按适用于大型项目开

    4/13/2025 1:24:25 PM
  • 人机交互基础教程(第3版)

    Delphi是面向对象的可视化软件开发平台,它提供了大量VCL组件,具有强大的数据库开发和网络编程能力,极大地提高了应用系统的开发速度,是目前软件开发工具之一。  《人机交互基础教程(第3版)》以DelphiXE8为开发平台进行修订,增加基于Android应用程序设计和基于

    3/23/2025 11:44:42 PM
  • C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材

    《C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材》是为具有C语言基础的读者编写的,主要介绍C什面向对象程序设计的基本知识和编程方法,全面讲述了C++面向对象的基本特征。内容包括类、对象、继承、派生类、多态性、虚函数、运算符重载、

    2/23/2025 12:55:51 PM
  • 算法零基础一本通(Python版全彩印刷)_电子书PDF格式百度云网盘下载

    《算法零基础一本通(Python版 全彩印刷)》指导读者从零开始学习算法:从基础数据结构开始,逐步解说信息安全算法,最后也讲解了人工智能入门领域的KNN和K-means算法。  《算法零基础一本通(Python版 全彩印刷)》理论与实例并重,在讲解算法理论时,使用热门程序

    12/29/2024 9:07:06 PM