kindle电子书

资源下载,尽在我的书库!
首页 > kindle电子书库 > 工业|计算机|互联网 > 电子、计算机、网络

企业大数据处理:Spark、Druid、Flume与Kafka应用实践

  • 作者:[中] 肖冠宇
  • 体积:4.54 MB
  • 语言:中文
  • 日期:2018-05-11
  • 推荐:

简介:本书将详细介绍上述技术的原理,通过实践演示每种技术的实际应用场景。希望通过理论与实践相结合的方式使内容更通俗易懂,帮助读者根据实际的业务场景选择合适的技术方案,相信大数据在未来的发展中还会创造更多的价值。

电子书详细介绍

TAG():大数据

 本书分为三大部分,共九章。第壹部分(第1章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。

编辑推荐

 

《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》由机械工业出版社出版。

作者简介

肖冠宇 
目前就职于乐视网智能中心大数据部,曾就职于人民在线大数据团队,主要进行广告数据分析、大数据产品研发等工作,具有多年大数据产品研发、高性能分布式框架、实时计算等经验,对整个Hadoop生态系统的各项技术都非常了解,有丰富的实践经验。

目录

前言
第一部分准备工作
第1章基础环境准备2
1.1软件环境准备2
1.2集群环境准备4
1.2.1Zookeeper集群部署4
1.2.2Hadoop部署6
1.3小结15
第二部分核心技术
第2章Spark详解18
2.1Spark概述18
2.1.1Spark概述18
2.1.2Shuff?le详解25
2.2SparkSQL29
2.2.1SparkSession29
2.2.2DataFrame30
2.2.3DataSet35
2.3Structured Streaming35
2.3.1数据源36
2.3.2输出到外部存储38
2.3.3WordCount示例40
2.4Spark优化42
2.4.1数据优化42
2.4.2代码优化44
2.4.3参数优化46
2.5小结48
第3章Druid原理及部署49
3.1架构设计49
3.1.1节点类型49
3.1.2Segment介绍57
3.1.3容错处理59
3.1.4路由节点60
3.2集群部署63
3.2.1集群规划63
3.2.2配置安装64
3.3小结72
第4章Druid数据摄入73
4.1模式设计73
4.1.1设计概述73
4.1.2数据解析75
4.1.3Segment分区79
4.1.4模式更改81
4.2批量数据摄入81
4.3流数据摄入87
4.3.1Tranquility88
4.3.2StreamPush91
4.3.3从Kafka中摄取数据92
4.4数据更新94
4.5小结95
第5章Druid客户端96
5.1涉及组件96
5.1.1查询相关96
5.1.2过滤器99
5.1.3聚合粒度101
5.1.4聚合器105
5.2查询类型109
5.2.1时间序列查询109
5.2.2TopN查询111
5.2.3分组查询113
5.2.4元数据查询117
5.2.5搜索查询121
5.3查询API125
5.3.1RESTful介绍125
5.3.2Jersey客户端126
5.4小结129
第6章日志收集130
6.1Flume介绍130
6.1.1基本架构131
6.2Flume应用实践144
6.2.1拦截器、选择器实践144
6.2.2负载均衡、故障转移实践149
6.2.3设计与实践150
6.3小结154
第7章分布式消息队列155
7.1Kafka介绍155
7.1.1基本架构155
7.1.2高吞吐的实现157
7.1.3高可用的实现160
7.2安装部署161
7.2.1Broker配置参数161
7.2.2分布式部署162
7.3客户端API163
7.3.1Producer API164
7.3.2Consumer API165
7.4小结169
第三部分项目实践
第8章数据平台172
8.1需求分析172
8.2功能实现173
8.2.1架构设计173
8.2.2关键功能实现175
8.3小结184
第9章监控系统185
9.1InfluxDB185
9.1.1InfluxDB简介186
9.1.2InfluxDB安装186
9.1.3InfluxDB操作188
9.1.4InfluxDB客户端191
9.2JMXTrans192
9.2.1JMXTrans介绍192
9.2.2JMXTrans安装194
9.2.3JMXTrans使用195
9.3Grafana198
9.3.1Grafana安装198
9.3.2Grafana使用199
9.4小结208

我来说两句

本书评论

共有 0 条评论
图书分类
我的书库手机端
帮助中心
会员登录 ×
新用户注册 ×