kindle电子书

资源下载,尽在我的书库!
首页 > kindle电子书库 > 经济管理 > 管理、投资理财

大数据架构商业之路:从业务需求到技术方案 (大数据技术丛书)

  • 作者:[中] 黄申
  • 体积:20.04 MB
  • 语言:中文
  • 日期:2018-05-25
  • 推荐:

简介:本书先介绍大数据商业架构需要的各种技术知识,然后通过介绍一个虚拟的互联网创业案例,逐步展开介绍各个阶段可能遇到的业务需求,以及相对应的技术方案,甚至是技术难度。为了达到深入浅出,通俗易懂的效果,实战章节一般是从业务需求的描述入手,然后进行需求分析,根据需求的特点,对备选技术方案进行科普、概述和探讨,最后是技术方案确定和结论。

电子书详细介绍

 本书先介绍大数据商业架构需要的各种技术知识,然后通过介绍一个虚拟的互联网创业案例,逐步展开介绍各个阶段可能遇到的业务需求,以及相对应的技术方案,甚至是技术难度。为了达到深入浅出,通俗易懂的效果,实战章节一般是从业务需求的描述入手,然后进行需求分析,根据需求的特点,对备选技术方案进行科普、概述和探讨,最后是技术方案确定和结论。

编辑推荐

 

《大数据架构商业之路:从业务需求到技术方案》由机械工业出版社出版。

作者简介

黄申,博士,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献,2015年获得美国政府颁发的“美国杰出人才”称号。

目录

推荐序一 
推荐序二 
前言 
第1章抉择 1 
第2章数据收集 4 
2.1互联网数据收集 4 
2.1.1网络爬虫 5 
2.1.2Apache Nutch简介 11 
2.1.3Heritrix简介 14 
2.2内部数据收集 15 
2.2.1Apache Flume简介 17 
2.2.2Facebook Scribe和Logstash 21 
2.3本章心得 21 
2.4参考资料 22 
第3章数据存储 23 
3.1持久化存储 23 
3.1.1Hadoop和HDFS 25 
3.1.2HBase简介 28 
3.1.3MongoDB 35 
3.2非持久化存储 37 
3.2.1缓存和散列 37 
3.2.2Memcached和BerkeleyDB简介 41 
3.2.3Redis简介 41 
3.3本章心得 44 
3.4参考资料 44 
第4章数据处理 46 
4.1离线批量处理 46 
4.1.1Hadoop的MapReduce 47 
4.1.2Spark简介 52 
4.1.3Hive简介 53 
4.1.4Pig、Impala和Spark SQL 56 
4.2提升及时性:消息机制 58 
4.2.1ActiveMQ简介 60 
4.2.2Kafka简介 61 
4.3在线实时处理 63 
4.3.1Storm简介 63 
4.3.2Spark Streaming简介 66 
4.4本章心得 66 
4.5参考资料 67 
第5章信息检索 69 
5.1基本理念 70 
5.2相关性 70 
5.2.1布尔模型 70 
5.2.2基于排序的布尔模型 71 
5.2.3向量空间模型 74 
5.2.4语言模型 75 
5.3及时性 77 
5.4与数据库查询的对比 81 
5.5搜索引擎 82 
5.5.1Web搜索中的链接分析 83 
5.5.2电子商务中的商品排序 86 
5.5.3多因素和基于学习的排序 88 
5.5.4系统框架 89 
5.5.5Lucene简介 93 
5.5.6Solr简介 98 
5.5.7Elasticsearch简介 104 
5.6推荐系统 108 
5.6.1推荐的核心要素 109 
5.6.2推荐系统的分类 110 
5.6.3混合模型 115 
5.6.4系统架构 116 
5.6.5Mahout 116 
5.7在线广告 119 
5.7.1在线广告的类型 120 
5.7.2广告投放机制 124 
5.7.3广告的拍卖机制 125 
5.7.4广告系统架构 126 
5.8本章心得 127 
5.9参考资料 128 
第6章数据挖掘 130 
6.1基本理念 131 
6.2数据的表示和预处理 133 
6.2.1数据的表示 133 
6.2.2数据的预处理 135 
6.3机器学习算法 136 
6.3.1监督学习—分类 137 
6.3.2监督学习—回归 152 
6.3.3非监督学习—聚类 153 
6.4挖掘工具 157 
6.4.1Mahout简介 157 
6.4.2R简介 159 
6.5本章心得 165 
6.6参考资料 165 
第7章效能评估 167 
7.1效果评估 168 
7.1.1离线评估 169 
7.1.2非离线的评估 183 
7.2性能评估 190 
7.2.1计算复杂度 191 
7.2.2应用系统性能 193 
7.2.3JMeter工具 197 
7.3本章心得 202 
7.4参考资料 202 
第8章大数据技术全景 204 
第9章商品太多啦!需要搜索引擎 207 
9.1业务需求 207 
9.2产品设计和技术选型 208 
9.3实现方案 211 
9.3.1数据定义和配置 211 
9.3.2集群搭建 213 
9.3.3DIH配置 216 
第10章能否更主动?还需要推荐引擎 223 
10.1业务需求 223 
10.2产品设计和技术选型 225 
10.3实现方案 230 
10.3.1基于内容特征的衡量 230 
10.3.2基于行为特征的衡量 233 
10.3.3提供在线服务 236 
第11章这样做的效果如何 241 
11.1业务需求 241 
11.2产品设计和技术选型 242 
11.3实现方案 243 
11.3.1行为数据的定义和记录 243 
11.3.2Flume和HDFS的集成 246 
11.3.3通过Hive进行分析 252 
11.3.4Kafka和Storm的集成 254 
第12章这个搜索有点逊 258 
12.1业务需求:还要搜得更多 258 
12.2“还要搜得更多”:产品设计和技术选型 259 
12.3“还要搜得更多”的方案实现 261 
12.3.1HBase的部署 261 
12.3.2HBase和Solr的集成 264 
12.4业务需求:还要搜得更准 265 
12.5“还要搜得更准”:产品设计和技术选型 266 
12.5.1提升搜索排序的相关性 266 
12.5.2提升搜索排序的整体效果 268 
12.6“还要搜得更准”的方案实现 271 
12.7业务需求:还要更快 273 
12.8还要“变”得更快:产品设计和技术选型 274 
12.9还要“搜”得更快:产品设计和技术选型 275 
12.10业务需求:给点提示吧 280 
12.11给点提示吧:产品设计和技术选型 282 
第13章支持更高效的运营 287 
13.1业务需求:互联网时代的CRM 287 
13.2互联网时代的CRM:产品设计和技术选型 288 
13.3业务需求:抓住捣蛋鬼 291 
13.4抓住捣蛋鬼:产品设计和技术选型 292 
13.4.1识别分类错放 292 
13.4.2识别SEO作弊 294 
13.5业务需求:销售之战 295 
13.6销售之战:产品设计和技术选型 296 
13.6.1设置合理的价格 296 
13.6.2识别黄牛 298 
后记 299

我来说两句

本书评论

共有 0 条评论
图书分类
我的书库手机端
帮助中心
会员登录 ×
新用户注册 ×