kindle电子书

资源下载,尽在我的书库!
首页 > kindle电子书库 > 工业|计算机|互联网 > 电子、计算机、网络

数据科学:R语言实现 (数据科学与工程技术丛书)

  • 作者:[中] 丘祐玮
  • 体积:52.04 MB
  • 语言:中文
  • 日期:2019-01-27
  • 推荐:

简介:数据科学:R语言实现 (数据科学与工程技术丛书)

电子书详细介绍

TAG():R R语言

 本书介绍了R语言在数据科学领域应用的方方面面,包括数据处理、数据操作、数据可视化、概率模拟、序列预测、频繁项集挖掘、监督式算法和非监督式算法等。本书注重对R语言程序包的介绍和使用,可操作性强,并且提供了关于高级技术的扩展阅读资料,供学有余力的读者钻研探讨。本书适合数据科学相关专业的本科生和研究生使用,也可作为数据领域从业人员的参考书。

本书通过简单直观的R代码、逐渐深入的讲解以及省时省力的方法,提供了大量数据分析样例,终帮助你高效地解决各类数据问题。第1章介绍了如何创建R函数,避免不必要的代码重复。你会学到如何借助R程序包在各种数据源上准备、处理和执行复杂的ETL操作。后面的章节介绍了财务数据的时间序列分析,同时还介绍了机器学习的几个热点,例如数据分类、回归、聚类、关联规则挖掘、降维等。本书的结尾中,你会学到如何解决实际问题,并能够在数据分析过程中轻松地给出解决方案。

编辑推荐

《数据科学:R语言实现》适合数据科学相关专业的本科生和研究生使用,也可作为数据领域从业人员的参考书。

作者简介

丘祐玮(David Chiu),Largit Data公司创始人,资深数据科学家,之前曾就职于趋势科技公司,主要负责为商务智能及客户关系管理系统构建大型数据处理平台。他专注于在数据分析中使用Spark和Hadoop技术来实现海量数据挖掘。同时,他还是一位资深讲师,在各类Python、R、Hadoop及相关会议上多次发表演讲。此外,David还撰写了《机器学习与R语言实战》(机械工业出版社,2016)。
魏博,欧普拉软件科技(北京)有限公司新闻推荐高级算法工程师。本科毕业于武汉大学数学系,博士毕业于中国科学院数学与系统科学研究院计算机软件与理论专业。曾任中航工业软件工程师、阿里巴巴优酷事业部视频搜索算法专家。长期关注于用户需求建模、用户行为建模和自动推理,是数据挖掘、机器学习和数据可视化爱好者,尤其热衷于海量数据中用户视角和用户行为模式的刻画和推断。

 

目录

推荐序
译者序
前言
第1章R中的函数1
1.1引言1
1.2创建R函数2
1.3匹配参数3
1.4理解环境5
1.5使用词法域8
1.6理解闭包10
1.7执行延迟计算12
1.8创建中缀操作符13
1.9使用替代函数15
1.10处理函数中的错误17
1.11调试函数21
第2章数据抽取、转换和加载28
2.1引言28
2.2下载公开数据28
2.3读取和写入CSV文件31
2.4扫描文本文件32
2.5使用Excel文件34
2.6从数据库中读取数据36
2.7爬取网络数据38
2.8获取Facebook数据44
2.9使用twitteR49
第3章数据预处理和准备53
3.1引言53
3.2重命名数据变量53
3.3转换数据类型55
3.4使用日期格式57
3.5添加新的记录58
3.6过滤数据60
3.7舍弃数据63
3.8合并数据64
3.9排列数据65
3.10重塑数据67
3.11检测缺失数据69
3.12估计缺失数据71
第4章数据操作74
4.1引言74
4.2使用data.table加强data.frame74
4.3使用data.table管理数据77
4.4使用data.table执行快速聚合82
4.5使用data.table合并大型数据集85
4.6使用dplyr进行数据抽取和切片88
4.7使用dplyr进行数据抽样91
4.8使用dplyr选取列92
4.9使用dplyr进行链式操作94
4.10使用dplyr整理行95
4.11使用dplyr消除重复行97
4.12使用dplyr添加新列98
4.13使用dplyr汇总数据99
4.14使用dplyr合并数据102
第5章使用ggplot2可视化数据105
5.1引言105
5.2使用ggplot2创建基础图形106
5.3改变美学映射109
5.4引入几何对象112
5.5执行变换116
5.6调整图形尺度118
5.7分面120
5.8调整主题122
5.9组合图形124
5.10创建地图126
第6章制作交互式报告131
6.1引言131
6.2创建RMarkdown报告131
6.3学习markdown语法135
6.4嵌入R代码块137
6.5使用ggvis创建交互式图形140
6.6理解基础语法143
6.7控制坐标轴和图例148
6.8使用尺度153
6.9给ggvis图形添加交互154
6.10创建RShiny文档159
6.11发布RShiny报告164
第7章概率分布模拟169
7.1引言169
7.2生成随机样本169
7.3理解均匀分布171
7.4生成二项随机变量173
7.5生成泊松随机变量175
7.6从正态分布中抽样177
7.7从卡方分布中抽样183
7.8理解学生t—分布185
7.9从数据集中抽样187
7.10模拟随机过程188
第8章R中的统计推断191
8.1引言191
8.2获取置信区间191
8.3执行Z—检验196
8.4执行学生T—检验199
8.5执行精确二项检验202
8.6执行Kolmogorov—Smirnov检验203
8.7使用Pearson卡方检验205
8.8理解Wilcoxon秩和检验207
8.9执行单因素方差分析209
8.10执行双因素方差分析212
第9章R语言规则和模式挖掘216
9.1引言216
9.2把数据转换为事务216
9.3展示事务和关联218
9.4使用Apriori规则挖掘关联关系220
9.5对冗余规则剪枝223
9.6可视化关联规则224
9.7使用Eclat挖掘频繁项集226
9.8使用时序信息创建事务228
9.9使用cSPADE挖掘频繁序列模式231
第10章R语言时间序列挖掘235
10.1引言235
10.2创建时间序列数据235
10.3绘制时间序列对象238
10.4分解时间序列241
10.5平滑时间序列243
10.6预测时间序列247
10.7选取ARIMA模型251
10.8创建ARIMA模型255
10.9使用ARIMA模型预测257
10.10使用ARIMA模型预测股票价格260
第11章监督式机器学习264
11.1引言264
11.2使用lm拟合线性回归模型264
11.3汇总线性模型拟合266
11.4使用线性回归来预测未知值268
11.5度量回归模型的性能270
11.6执行多元回归分析272
11.7使用逐步回归选取最优拟合回归模型274
11.8应用高斯模型泛化线性回归276
11.9执行逻辑斯谛回归分析277
11.10使用递归分割树构建分类模型280
11.11可视化递归分割树282
11.12使用混淆矩阵度量模型性能283
11.13使用ROCR度量预测性能285
第12章非监督式机器学习288
12.1引言288
12.2使用层次聚类法对数据聚类288
12.3切割树成聚类291
12.4使用k—means方法对数据聚类293
12.5使用基于密度的方法对数据聚类294
12.6从聚类中抽取轮廓信息296
12.7比较多种聚类方法298
12.8使用基于密度的聚类识别数字299
12.9使用k—means聚类方法分组相似文本文档301
12.10使用主成分分析法进行数据降维303
12.11使用陡坡图确定主成分数量305
12.12使用Kaiser方法确定主成分数量306
12.13使用双标图可视化多变元数据308

我来说两句

本书评论

共有 0 条评论
图书分类
我的书库手机端
帮助中心
会员登录 ×
新用户注册 ×