《基于R语言的自动数据收集：网络抓取和文本挖掘实用指南 (数据科学与工程技术丛书) 》作者：西蒙·蒙策尔特 - kindle电子书下载

基于R语言的自动数据收集：网络抓取和文本挖掘实用指南 (数据科学与工程技术丛书)

作者：[德] 西蒙·蒙策尔特
体积：74.17 MB
语言：中文
日期：2018-10-09
推荐：人

简介：基于R语言的自动数据收集：网络抓取和文本挖掘实用指南 (数据科学与工程技术丛书)

京东购买加入书架

评论 | 推荐

这些资源你可能感兴趣

< >

电子书详细介绍

TAG（）：R 文本挖掘数据分析数据科学数据收集网络数据分析计算机技术

本书从社会科学研究者角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和最佳实践。深入剖析自动化数据抓取和分析各个层面的问题，从网络和数据技术到网络抓取和文本挖掘的实用工具箱，重点阐释利用R语言进行自动化数据抓取和分析，能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。

本书共17章。第1章是概述，阐述数据挖掘的意义与实际应用。第2～8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术（如HTTP、HTML、XML、JSON、AJAX、SQL等），并讲解用于查询网络文档和数据集的基本技术（XPath和正则表达式）。第9～11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成：第9章讲解多种网络抓取技术，涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术；第10章深入介绍用于统计性文本处理的技术；第11章给出关于用R管理数据的项目中常见问题的一些见解。第12～17章介绍实际案例分析，涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。

编辑推荐

《基于R语言的自动数据收集:网络抓取和文本挖掘实用指南》由机械工业出版社出版。

作者简介

作者：（德国）西蒙·蒙策尔特（Simon Munzert）（德国）克里斯蒂安·鲁巴（Christian Rubba）（德国）彼得·迈博纳（Peter Meipner）（德国）多米尼克·尼胡斯（Dominic Nyhuis）译者：吴今朝

译者序
前言
第1章概述
1.1案例研究：濒危世界遗产地
1.2有关网络数据质量的一些讨论
1.3传播、提取和保存网络数据的技术
1.3.1在网络上传播内容的技术
1.3.2从Web文档中提取信息的技术
1.3.3数据保存的技术
1.4本书的结构
第一部分网络和数据技术入门
第2章HTML
2.1浏览器显示及源代码
2.2语法规则
2.2.1标签、元素和属性
2.2.2树形结构
2.2.3注释
2.2.4保留字符和特殊字符
2.2.5文档类型定义
2.2.6空格和换行
2.3标签和属性
2.3.1锚标签＜a＞
2.3.2元数据标签＜meta＞
2.3.3外部引用标签＜link＞
2.3.4强调标签＜b＞、＜i＞和＜Strong＞
2.3.5段落标签＜p＞
2.3.6标题标签＜h1＞、＜h2＞、＜h3＞等
2.3.7通过＜u1＞、＜o1＞和＜d1＞列举内容
2.3.8组织型标签＜div＞和＜Span＞
2.3.9＜form＞标签及其同伴
2.3.10外部脚本标签＜script＞
2.3.11表格标签＜table＞、＜tr＞、＜td＞和＜th＞
2.4解析
2.4.1解析简介
2.4.2丢弃节点
2.4.3在创建过程中提取信息
小结
延伸阅读
习题
第3章XML和JSON
3.1XML文档示例
3.2XML语法规则
3.2.1元素和属性
3.2.2XML结构
3.2.3命名及特殊字符
3.2.4注释及字符数据
3.2.5XML语法总结
3.3结构良好或合法的XML文档的条件
3.4XML扩展与技术
3.4.1命名空间
3.4.2XML的扩展
3.4.3示例：RSS
3.4.4示例：可缩放矢量图
3.5XML和R的实践
3.5.1解析XML
3.5.2对XML文档的基本操作
3.5.3从XML获取数据框或列表
3.5.4事件驱动的解析
3.6JSON文档示例
3.7JSON语法规则
3.8JSON和R的实践
小结
延伸阅读
习题
第4章XPath
4.1XPath：一种网页查询语言
4.2用XPath确定节点集
4.2.1XPath查询的基本结构
4.2.2节点关系
4.2.3XPath谓语
4.3提取节点元素
4.3.1扩展fun参数
4.3.2XML命名空间
4.3.3XPath的辅助性小工具
小结
延伸阅读
习题
第5章HTTP
5.1HTTP基础知识
5.1.1和Web服务器的简短对话
5.1.2URL的语法
5.1.3HTTP消息
5.1.4请求方法
5.1.5状态码
5.1.6标头字段
5.2HTTP的高级特性
5.2.1身份识别
5.2.2身份验证
5.2.3代理
5.3HTTP之外的协议
5.3.1HTTP安全协议
5.3.2FTP
5.4HTTP实战
5.4.1libcurl库
5.4.2基本请求方法
5.4.3RCurl的底层函数
5.4.4在多个请求里保持连接
5.4.5选项
5.4.6调试
5.4.7错误处理
5.4.8用RCurl还是httr呢
小结
延伸阅读
习题
第6章AJAX
6.1JavaScript
6.1.1JavaScript的使用方式
6.1.2DOM操作
6.2XHR
6.2.1加载外部HTML／XML
文档
6.2.2加载JSON
6.3利用Web开发者工具探索AJAX
6.3.1初试Chrome的Web开发者工具
6.3.2元素面板
6.3.3网络面板
小结
延伸阅读
习题
第7章SQL和关系型数据库
7.1概况及术语
7.2关系型数据库
7.2.1在表中保存数据
7.2.2规范化
7.2.3关系型数据库和DBMS的高级特性
7.3SQL：一种与数据库通信的语言
7.3.1SQL概述
7.3.2数据控制语言——DCL
7.3.3数据定义语言——DDL
7.3.4数据操作语言——DML
7.3.5子句
7.3.6事务控制语言——TCL
7.4数据库实战
7.4.1管理数据库的R组件
7.4.2通过基于DBI的组件在R里执行SQL
7.4.3通过RODBC在R里执行SQL
小结
延伸阅读
习题
第8章正则表达式和基本字符串函数
8.1正则表达式
8.1.1严格的字符匹配
8.1.2正则表达式的广义化
8.1.3重新分析入门例子
8.2字符串处理
8.2.1stringr组件
8.2.2其他实用函数
8.3字符编码简介
小结
延伸阅读
习题
第二部分网络抓取和文本挖掘实用工具箱
第9章网络抓取
9.1数据检索的场景
9.1.1下载现成的文件
9.1.2从FTP索引下载多个文件
9.1.3操作URL访问多个页面
9.1.4从HTML网页采集链接、列表和表格的便利函数
9.1.5处理HTML表单
9.1.6HTTP身份验证
9.1.7通过HTTPS进行的连接
9.1.8使用cookie
9.1.9利用Selenium／Rwebdriver从AJAX增强的网页抓取数据
9.1.10从API检索数据
9.1.11用OAuth进行身份验证
9.2数据提取策略
9.2.1正则表达式
9.2.2XPath
9.2.3应用编程接口
9.3网络抓取：良好实践
9.3.1网络抓取是否合法
9.3.2robots.txt简介
9.3.3做个友好的（机器）人
9.4有价值的灵感来源
小结
延伸阅读
习题
第10章统计性文本处理
10.1实例：对英国政府的新闻公告进行分类
10.2处理文本数据
10.2.1大规模文本操作：tm组件
10.2.2构建一个词条—文档矩阵
10.2.3数据清理
10.2.4稀疏度和n元文法
10.3有监督的学习技术
10.3.1支持向量机
10.3.2随机森林
10.3.3最大熵
10.3.4RTextTools组件
10.3.5应用：政府新闻公告
10.4无监督的学习技术
10.4.1隐含狄式分布及相关主题模型
10.4.2应用：政府新闻公告
小结
延伸阅读
第11章管理数据项目
11.1与文件系统交互
11.2处理多个文档或链接
11.2.1使用for循环
11.2.2使用while循环和控制结构
11.2.3使用plyr组件
11.3组织抓取程序
11.3.1进度反馈的实现：消息和进度条
11.3.2错误和异常处理
11.4定期执行R脚本
11.4.1在MacOS和Linux上安排定时任务
11.4.2在Windows平台上安排定时任务
第三部分一组案例分析
第12章美国参议院里的合作网络
12.1有关法案的信息
12.2有关参议员的信息
12.3分析网络结构
12.3.1描述性统计
12.3.2网络分析
12.4结论
第13章从半结构化文档解析信息
13.1从FTP服务器下载数据
13.2解析半结构化文本数据
13.3把气象站和气温数据视觉化
第14章利用Twitter预测2014年奥斯卡奖
14.1TwitterAPI概述
14.1.1RESTAPI
14.1.2数据流API
14.1.3采集并预处理数据
14.2基于Twitter的2014年奥斯卡奖预测
14.2.1对数据进行视觉化
14.2.2挖掘推文进行预测
14.3结论
第15章绘制姓氏地理分布图
15.1制定一套数据采集策略
15.2查看网站
15.3数据检索和信息提取
15.4映射姓氏
15.5处理过程自动化
小结
第16章采集关于手机的数据
16.1页面探索
16.1.1查找指定品牌的手机
16.1.2提取产品信息
16.2抓取程序
16.2.1提取有关多个生产商的数据
16.2.2数据清理
16.3图形分析
16.4数据存储
16.4.1总体思路
16.4.2用于存储的表的定义
16.4.3考虑未来存储的数据表定义
16.4.4方便数据访问的视图定义
16.4.5保存数据的函数
16.4.6数据存储和检查
第17章分析产品评论里的情绪
17.1介绍
17.2采集数据
17.2.1下载文件
17.2.2信息提取
17.2.3数据库存储
17.3分析数据
17.3.1数据预处理
17.3.2基于字典的情绪分析
17.3.3挖掘评论的内容
17.4结论
参考文献

我来说两句

本书评论

共有 0 条评论

kindle电子书

kindle电子书下载

网站首页

电子书库

排行榜

新闻速递

帮助