kindle电子书

资源下载,尽在我的书库!
首页 > kindle电子书库 > 工业|计算机|互联网 > 电子、计算机、网络

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 (数据科学与工程技术丛书)

  • 作者:[德] 西蒙·蒙策尔特
  • 体积:74.17 MB
  • 语言:中文
  • 日期:2018-10-09
  • 推荐:

简介:基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 (数据科学与工程技术丛书)

电子书详细介绍

 本书从社会科学研究者角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和最佳实践。深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。

本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。

编辑推荐

《基于R语言的自动数据收集:网络抓取和文本挖掘实用指南》由机械工业出版社出版。

作者简介

作者:(德国)西蒙·蒙策尔特(Simon Munzert) (德国)克里斯蒂安·鲁巴(Christian Rubba) (德国)彼得·迈博纳(Peter Meipner) (德国)多米尼克·尼胡斯(Dominic Nyhuis) 译者:吴今朝

 

目录

译者序 
前言 
第1章概述 
1.1案例研究:濒危世界遗产地 
1.2有关网络数据质量的一些讨论 
1.3传播、提取和保存网络数据的技术 
1.3.1在网络上传播内容的技术 
1.3.2从Web文档中提取信息的技术 
1.3.3数据保存的技术 
1.4本书的结构 
第一部分网络和数据技术入门 
第2章HTML 
2.1浏览器显示及源代码 
2.2语法规则 
2.2.1标签、元素和属性 
2.2.2树形结构 
2.2.3注释 
2.2.4保留字符和特殊字符 
2.2.5文档类型定义 
2.2.6空格和换行 
2.3标签和属性 
2.3.1锚标签<a> 
2.3.2元数据标签<meta> 
2.3.3外部引用标签<link> 
2.3.4强调标签<b>、<i>和<Strong> 
2.3.5段落标签<p> 
2.3.6标题标签<h1>、<h2>、<h3>等 
2.3.7通过<u1>、<o1>和<d1>列举内容 
2.3.8组织型标签<div>和<Span> 
2.3.9<form>标签及其同伴 
2.3.10外部脚本标签<script> 
2.3.11表格标签<table>、<tr>、<td>和<th> 
2.4解析 
2.4.1解析简介 
2.4.2丢弃节点 
2.4.3在创建过程中提取信息 
小结 
延伸阅读 
习题 
第3章XML和JSON 
3.1XML文档示例 
3.2XML语法规则 
3.2.1元素和属性 
3.2.2XML结构 
3.2.3命名及特殊字符 
3.2.4注释及字符数据 
3.2.5XML语法总结 
3.3结构良好或合法的XML文档的条件 
3.4XML扩展与技术 
3.4.1命名空间 
3.4.2XML的扩展 
3.4.3示例:RSS 
3.4.4示例:可缩放矢量图 
3.5XML和R的实践 
3.5.1解析XML 
3.5.2对XML文档的基本操作 
3.5.3从XML获取数据框或列表 
3.5.4事件驱动的解析 
3.6JSON文档示例 
3.7JSON语法规则 
3.8JSON和R的实践 
小结 
延伸阅读 
习题 
第4章XPath 
4.1XPath:一种网页查询语言 
4.2用XPath确定节点集 
4.2.1XPath查询的基本结构 
4.2.2节点关系 
4.2.3XPath谓语 
4.3提取节点元素 
4.3.1扩展fun参数 
4.3.2XML命名空间 
4.3.3XPath的辅助性小工具 
小结 
延伸阅读 
习题 
第5章HTTP 
5.1HTTP基础知识 
5.1.1和Web服务器的简短对话 
5.1.2URL的语法 
5.1.3HTTP消息 
5.1.4请求方法 
5.1.5状态码 
5.1.6标头字段 
5.2HTTP的高级特性 
5.2.1身份识别 
5.2.2身份验证 
5.2.3代理 
5.3HTTP之外的协议 
5.3.1HTTP安全协议 
5.3.2FTP 
5.4HTTP实战 
5.4.1libcurl库 
5.4.2基本请求方法 
5.4.3RCurl的底层函数 
5.4.4在多个请求里保持连接 
5.4.5选项 
5.4.6调试 
5.4.7错误处理 
5.4.8用RCurl还是httr呢 
小结 
延伸阅读 
习题 
第6章AJAX 
6.1JavaScript 
6.1.1JavaScript的使用方式 
6.1.2DOM操作 
6.2XHR 
6.2.1加载外部HTML/XML 
文档 
6.2.2加载JSON 
6.3利用Web开发者工具探索AJAX 
6.3.1初试Chrome的Web开发者工具 
6.3.2元素面板 
6.3.3网络面板 
小结 
延伸阅读 
习题 
第7章SQL和关系型数据库 
7.1概况及术语 
7.2关系型数据库 
7.2.1在表中保存数据 
7.2.2规范化 
7.2.3关系型数据库和DBMS的高级特性 
7.3SQL:一种与数据库通信的语言 
7.3.1SQL概述 
7.3.2数据控制语言——DCL 
7.3.3数据定义语言——DDL 
7.3.4数据操作语言——DML 
7.3.5子句 
7.3.6事务控制语言——TCL 
7.4数据库实战 
7.4.1管理数据库的R组件 
7.4.2通过基于DBI的组件在R里执行SQL 
7.4.3通过RODBC在R里执行SQL 
小结 
延伸阅读 
习题 
第8章正则表达式和基本字符串函数 
8.1正则表达式 
8.1.1严格的字符匹配 
8.1.2正则表达式的广义化 
8.1.3重新分析入门例子 
8.2字符串处理 
8.2.1stringr组件 
8.2.2其他实用函数 
8.3字符编码简介 
小结 
延伸阅读 
习题 
第二部分网络抓取和文本挖掘实用工具箱 
第9章网络抓取 
9.1数据检索的场景 
9.1.1下载现成的文件 
9.1.2从FTP索引下载多个文件 
9.1.3操作URL访问多个页面 
9.1.4从HTML网页采集链接、列表和表格的便利函数 
9.1.5处理HTML表单 
9.1.6HTTP身份验证 
9.1.7通过HTTPS进行的连接 
9.1.8使用cookie 
9.1.9利用Selenium/Rwebdriver从AJAX增强的网页抓取数据 
9.1.10从API检索数据 
9.1.11用OAuth进行身份验证 
9.2数据提取策略 
9.2.1正则表达式 
9.2.2XPath 
9.2.3应用编程接口 
9.3网络抓取:良好实践 
9.3.1网络抓取是否合法 
9.3.2robots.txt简介 
9.3.3做个友好的(机器)人 
9.4有价值的灵感来源 
小结 
延伸阅读 
习题 
第10章统计性文本处理 
10.1实例:对英国政府的新闻公告进行分类 
10.2处理文本数据 
10.2.1大规模文本操作:tm组件 
10.2.2构建一个词条—文档矩阵 
10.2.3数据清理 
10.2.4稀疏度和n元文法 
10.3有监督的学习技术 
10.3.1支持向量机 
10.3.2随机森林 
10.3.3最大熵 
10.3.4RTextTools组件 
10.3.5应用:政府新闻公告 
10.4无监督的学习技术 
10.4.1隐含狄式分布及相关主题模型 
10.4.2应用:政府新闻公告 
小结 
延伸阅读 
第11章管理数据项目 
11.1与文件系统交互 
11.2处理多个文档或链接 
11.2.1使用for循环 
11.2.2使用while循环和控制结构 
11.2.3使用plyr组件 
11.3组织抓取程序 
11.3.1进度反馈的实现:消息和进度条 
11.3.2错误和异常处理 
11.4定期执行R脚本 
11.4.1在MacOS和Linux上安排定时任务 
11.4.2在Windows平台上安排定时任务 
第三部分一组案例分析 
第12章美国参议院里的合作网络 
12.1有关法案的信息 
12.2有关参议员的信息 
12.3分析网络结构 
12.3.1描述性统计 
12.3.2网络分析 
12.4结论 
第13章从半结构化文档解析信息 
13.1从FTP服务器下载数据 
13.2解析半结构化文本数据 
13.3把气象站和气温数据视觉化 
第14章利用Twitter预测2014年奥斯卡奖 
14.1TwitterAPI概述 
14.1.1RESTAPI 
14.1.2数据流API 
14.1.3采集并预处理数据 
14.2基于Twitter的2014年奥斯卡奖预测 
14.2.1对数据进行视觉化 
14.2.2挖掘推文进行预测 
14.3结论 
第15章绘制姓氏地理分布图 
15.1制定一套数据采集策略 
15.2查看网站 
15.3数据检索和信息提取 
15.4映射姓氏 
15.5处理过程自动化 
小结 
第16章采集关于手机的数据 
16.1页面探索 
16.1.1查找指定品牌的手机 
16.1.2提取产品信息 
16.2抓取程序 
16.2.1提取有关多个生产商的数据 
16.2.2数据清理 
16.3图形分析 
16.4数据存储 
16.4.1总体思路 
16.4.2用于存储的表的定义 
16.4.3考虑未来存储的数据表定义 
16.4.4方便数据访问的视图定义 
16.4.5保存数据的函数 
16.4.6数据存储和检查 
第17章分析产品评论里的情绪 
17.1介绍 
17.2采集数据 
17.2.1下载文件 
17.2.2信息提取 
17.2.3数据库存储 
17.3分析数据 
17.3.1数据预处理 
17.3.2基于字典的情绪分析 
17.3.3挖掘评论的内容 
17.4结论 
参考文献

我来说两句

本书评论

共有 0 条评论
图书分类
我的书库手机端
帮助中心
会员登录 ×
新用户注册 ×