kindle电子书

资源下载,尽在我的书库!
首页 > kindle电子书库 > 工业|计算机|互联网 > 电子、计算机、网络

Spark大数据分析技术与实战

  • 作者: 经管之家
  • 体积:37.26 MB
  • 语言:中文
  • 日期:2018-10-30
  • 推荐:

简介:Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。 本书着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析。 全书共分8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核上的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。 本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合大数据技术初学者阅读,还适合于所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。

电子书详细介绍

TAG():算法 大数据

 Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。 本书着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析。 全书共分8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核上的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。 本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合大数据技术初学者阅读,还适合于所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。

编辑推荐

《Spark大数据分析技术与实战》适合:
大数据技术初学者阅读;
作为高等院校计算机相关专业的研究生学习参考资料;
所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。

作者简介

经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。

目录

第1章Spark导论1
1.1Spark的发展2
1.2什么是Spark3
1.3Spark主要特征3
1.3.1快速3
1.3.2简洁易用5
1.3.3通用6
1.3.4多种运行模式8
第2章Spark集群部署9
2.1运行环境说明9
2.1.1软硬件环境9
2.1.2集群网络环境10
2.2安装VMwareWorkstation1110
2.3安装CentOS616
2.4安装Hadoop21
2.4.1克隆并启动虚拟机21
2.4.2网络基本配置24
2.4.3安装JDK27
2.4.4免密钥登录配置28
2.4.5Hadoop配置29
2.4.6配置从节点33
2.4.7配置系统文件33
2.4.8启动Hadoop集群33
2.5安装Scala35
2.6安装Spark36
2.6.1下载并解压Spark安装包36
2.6.2配置Spark—env.sh37
2.6.3配置Spark—defaults.conf37
2.6.4配置Slaves38
2.6.5配置环境变量38
2.6.6发送至Slave1、Slave239
2.7启动Spark39
第3章RDD编程42
3.1RDD定义42
3.2RDD的特性43
3.2.1分区43
3.2.2依赖44
3.2.3计算45
3.2.4分区函数45
3.2.5优先位置46
3.3创建操作46
3.3.1基于集合的创建操作47
3.3.2基于外部存储的创建操作47
3.4常见执行操作49
3.5常见转换操作49
3.5.1一元转换操作50
3.5.2二元转换操作53
3.6持久化操作56
3.7存储操作58
第4章Spark调度管理与应用程序开发59
4.1Spark调度管理基本概念59
4.2作业调度流程60
4.2.1作业的生成与提交61
4.2.2阶段的划分62
4.2.3调度阶段的提交62
4.2.4任务的提交与执行62
4.3基于IntelliJIDEA构建Spark应用程序64
4.3.1安装IntelliJIDEA64
4.3.2创建Spark应用程序70
4.3.3集群模式运行Spark应用程序81
第5章GraphX87
5.1GraphX概述87
5.2GraphX基本原理89
5.2.1图计算模型处理流程89
5.2.2GraphX定义90
5.2.3GraphX的特点90
5.3GraphX设计与实现91
5.3.1弹性分布式属性图91
5.3.2图的数据模型92
5.3.3图的存储模型94
5.3.4GraphX模型框架97
5.4GraphX操作97
5.4.1创建图97
5.4.2基本属性操作100
5.4.3结构操作102
5.4.4转换操作103
5.4.5连接操作105
5.4.6聚合操作106
5.5GraphX案例解析107
5.5.1PageRank算法与案例解析107
5.5.2TriangleCount算法与案例解析110
第6章SparkSQL113
6.1SparkSQL概述113
6.2SparkSQL逻辑架构116
6.2.1SQL执行流程116
6.2.2Catalyst117
6.3SparkSQLCLI117
6.3.1硬软件环境117
6.3.2集群环境118
6.3.3结合Hive118
6.3.4启动Hive118
6.4DataFrame编程模型119
6.4.1DataFrame简介119
6.4.2创建DataFrames120
6.4.3保存DataFrames126
6.5DataFrame常见操作127
6.5.1数据展示127
6.5.2常用列操作128
6.5.3过滤131
6.5.4排序132
6.5.5其他常见操作134
6.6基于Hive的学生信息管理系统的SQL查询案例与解析137
6.6.1SparkSQL整合Hive137
6.6.2构建数据仓库138
6.6.3加载数据141
6.6.4查询数据142
第7章SparkStreaming146
7.1SparkStreaming概述146
7.2SparkStreaming基础概念147
7.2.1批处理时间间隔147
7.2.2窗口时间间隔148
7.2.3滑动时间间隔148
7.3DStream基本概念149
7.4DStream的基本操作150
7.4.1无状态转换操作150
7.4.2有状态转换操作152
7.4.3输出操作153
7.4.4持久化操作154
7.5数据源154
7.5.1基础数据源154
7.5.2高级数据源155
7.6SparkStreaming编程模式与案例分析156
7.6.1SparkStreaming编程模式156
7.6.2文本文件数据处理案例(一)157
7.6.3文本文件数据处理案例(二)160
7.6.4网络数据处理案例(一)164
7.6.5网络数据处理案例(二)171
7.6.6stateful应用案例175
7.6.7window应用案例180
7.7性能考量185
7.7.1运行时间优化185
7.7.2内存使用与垃圾回收186
第8章SparkMLlib187
8.1SparkMLlib概述187
8.1.1机器学习介绍187
8.1.2SparkMLlib简介189
8.2MLlib向量与矩阵190
8.2.1MLlib向量190
8.2.2MLlib矩阵192
8.3SparkMLlib分类算法196
8.3.1贝叶斯分类算法197
8.3.2支持向量机算法201
8.3.3决策树算法204
8.4MLlib线性回归算法208
8.5MLlib聚类算法212
8.6MLlib协同过滤215

我来说两句

本书评论

共有 0 条评论
图书分类
我的书库手机端
帮助中心
会员登录 ×
新用户注册 ×