《大数据架构商业之路从业务需求到技术方案》

[复制链接]
online_admin aixure 发表于 2023-1-21 21:21:09 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
212101ull9o4x9lpooby3c
售 价: ¥5¥89加入会员,免费下载
库 存:9999
销 量:12
源 址:
卖家服务:  
客 服:QQ(早10点-晚6点)
资源详情
内容提要[url=]编辑[/url][url=] 播报[/url]
为什么要写这本书?
李克强总理提出“大众创业,万众创新”。在如此美好的大环境下,互联网创业如火如荼。各种模式的O2O,各种精彩的移动App,突然之间都冒了出来,正所谓“忽如一夜春风来,千树万树梨花开”。而在其中,大数据因为蕴含着巨大的商业价值,成为这个时代的趋势之一。众人都希望利用好这个“魔棒”,为自己的事业开疆扩土。可是,就笔者在业界的经历来看,真正能挖掘大数据潜力的公司少之又少。笔者一直很好奇,中国的相关人才如此之多,商业市场又如此之大,何以至如此境地呢?为了找到答案,笔者阅读了不少观察性文章,也走访了一些业内的从业者,发现一大窘境是:大数据技术、产品和商业的结合度还远远不够。导致这个现状的原因有很多,具体分析主要有以下几点:
涉及范围广:“大数据”本身是一个比较抽象的概念,任何关乎大规模数据的处理,都可以称为“大数据”。因此它既包括了很多已有的技术,如数据挖掘、机器学习、商业智能等,又包括了诞生的新技术,如NoSQL相关的生态系统。而且,一个商业需求也可能会涉及多个相关技术。
技术含量高:数据挖掘和机器学习之类的算法和大规模数据处理的架构,相对于普通的应用开发而言,需要更多的理论知识和实践经验积累。而商业价值的挖掘程度却往往取决于使用的技术深度。越是钻研得深入,所产生的价值就会越大。
发展速度快:算法方面有不少的创新,如深度学习(Deep Learning);系统架构也在不断升级,如Hadoop的第二代框架Yarn、Storm、Spark等实时流式计算,技术的更新换代非常频繁。但是,商业的发展需要技术系统能够随时应变,快速响应,这与技术的飞速发展本身又存在冲突。
成熟方案少:大数据的技术多数是免费的,这对于盈利模式而言无疑是有利的,不过代价就是存在一定的稳定性和易用性问题。有一些大型的技术公司提供了更成熟的解决方案,但是价格不菲,对于经费并不宽裕的初创公司而言选择余地太少。
以上这些因素都会形成进入大数据领域的门槛,而高门槛势必会导致大数据在工业界应用的步伐放缓。为了解决这个问题,企业需要培养自己的复合型人才,要求业务人员懂技术、技术人员懂业务。只有如此才能让公司使用合适的工具、获得准确的数据、制定合理的方案。
然而,激烈的市场竞争,膨胀的用户需求,不会给创业公司太多的时间去挥霍。在黑夜之中不断摸索的人们,需要明灯指引前进的方向。虽然市面上已有一些相关图书做了不错的尝试,但是它们大多数偏向两个极端:一端是面向金融、经济、社会和管理类等非技术型读者,讲述概念、定义、背景和业界的成功案例等;另一端是面向程序员、算法工程师、架构师和数据科学家等纯技术型读者,讲述具体的技术框架、编程范例、系统调试等。能同时覆盖两者的图书可谓凤毛麟角。因此,笔者萌生了通过一本书来帮助企业快速地建立复合型团队,将合理的业务需求尽快转化为实际产品的想法。笔者在写作过程中,力求:
易读易懂。通过生动的案例和形象的比喻来解读难点,降低技术理解的门槛。这样就能够让偏向业务的人员更容易理解大数据背后的运作原理,促进他们和技术人员的沟通及协作。
可实践性强。通过分享需要大量实践才能积累的宝贵经验,最大程度地针对业务需求和技术方案之间的空白进行弥补。这将有利于技术人员针对不同的业务需求,规划更为合理的技术方案。
本书通过讲述一个虚拟的(如有雷同纯属巧合)互联网O2O创业故事,逐步展开介绍各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析。让读者身临其境,一起来探寻大数据的奥秘。对于想进一步深入研究技术实现细节的读者,也给出了继续阅读的方向和指导性建议。笔者衷心希望,无论是技术专家、产品经理,还是业务人员,只要阅读了本书便都能愉快地遨游在大数据的海洋中。
读者对象
根据本书撰写的起心动念,笔者觉得其内容适合如下读者:
中小互联网创业公司的CIO、CTO和技术骨干。他们可以获知常见的互联网公司从创业初期到中期这个阶段里,数据平台需要满足怎样的业务需求(当然,也包括业务方和产品经理所说的“XXOO”了),技术上通常会面临哪些挑战,以及如何解决。
中小互联网创业公司的产品经理和项目经理。个人认为,在不久的将来,最炙手可热的产品经理或项目经理一定是懂一些技术的。技术背景将帮助产品经理和项目经理更好地理解哪些是技术上可以实现的,如果可以实现又大致需要多少开发资源。此外,本书所提及的案例也许能提供一些产品设计上的灵感和启发。
中小互联网创业公司的CEO、合伙人。读懂这本书, CIO、CTO和产品VP的招募,不用靠第三方和人力资源,因为你可以自己来选。这绝对可以帮助公司少走弯路,加速发展。
刚刚起步的算法和架构工程师。很多刚刚毕业或工作没多久的朋友,学了一身本领,对新技术也很有热情,苦于没有太多实践的机会。书中的故事浓缩了不少业界实践的经验和心得,如能融会贯通对他们将很有裨益。同时,覆盖面较广的技术课题概述也为他们继续深入研究提供了方向和指导。
梦想家。最后的最后,本书也献给那些希望通过大数据技术进行互联网创业的人们。也许你既不是“CXO”(CEO、CIO、CTO、CPO、COO等的统称),也不是产品经理或项目经理,可是你有自己的创业梦想,那么这本书也献给你。
当然,由于侧重点不同,因此本书并不适合钻研技术细节的程序员和编程专家,不过仍然可以在书中找到重要的参考图书指导。同时,本书也不适合关注宏观行业发展的商务人士。
如何阅读本书
为了达到深入浅出、通俗易懂的效果,本书的第一大部分概述了大数据的主要技术,包括大数据的获取、存储、处理,还有架构设计的基本理念,以及常用的消息和缓存机制。这一部分你会发现关于Nutch、Flume、Hadoop、HBase、Redis、Hive、Kafka、Spark、Storm等的简介。对于数据处理的高级技术,本书着墨不少,但不乏对于信息检索和数据挖掘课题的探讨。例如站内搜索引擎、推荐系统、广告系统、聚类、分类和线性回归等。由于商业需求尤其看重实际产出,因此第一部分的最后还会分析常见的效果和性能评估。相信这部分对于构建读者的大数据知识体系会很有帮助。在每一章的最后,我们还会给出重要的参考图书,以便于读者继续深入学习。
第二大部分的每个章节都是从业务需求的描述入手,然后进行需求分析,根据需求的特点,对第一大部分所涉及的备选技术进行筛选,最后是技术方案和架构的确定。不同的商业需求可能会使用类似的技术点。但是具体使用方式不会雷同,根据不同的数据集合、不同的应用场景和不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。

作者简介[url=]编辑[/url][url=] 播报[/url]
黄申,博士,IBM Almaden研究院科学家,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献,2015年获得美国政府颁发的“美国杰出人才”称号。

图书目录[url=]编辑[/url][url=] 播报[/url]
推荐序一
推荐序二
前 言
第1章 抉择 1
第2章 数据收集 4
2.1 互联网数据收集 4
2.1.1 网络爬虫 5
2.1.2 Apache Nutch简介 11
2.1.3 Heritrix简介 14
2.2 内部数据收集 15
2.2.1 Apache Flume简介 17
2.2.2 Facebook Scribe和Logstash 21
2.3 本章心得 21
2.4 参考资料 22
第3章 数据存储 23
3.1 持久化存储 23
3.1.1 Hadoop和HDFS 25
3.1.2 HBase简介 28
3.1.3 MongoDB 35
3.2 非持久化存储 37
3.2.1 缓存和散列 37
3.2.2 Memcached和Berkeley DB简介 41
3.2.3 Redis简介 41
3.3 本章心得 44
3.4 参考资料 44
第4章 数据处理 46
4.1 离线批量处理 46
4.1.1 Hadoop的MapReduce 47
4.1.2 Spark简介 52
4.1.3 Hive简介 53
4.1.4 Pig、Impala和Spark SQL 56
4.2 提升及时性:消息机制 58
4.2.1 ActiveMQ简介 60
4.2.2 Kafka简介 61
4.3 在线实时处理 63
4.3.1 Storm简介 63
4.3.2 Spark Streaming简介 66
4.4 本章心得 66
4.5 参考资料 67
第5章 信息检索 69
5.1 基本理念 70
5.2 相关性 70
5.2.1 布尔模型 70
5.2.2 基于排序的布尔模型 71
5.2.3 向量空间模型 74
5.2.4 语言模型 75
5.3 及时性 77
5.4 与数据库查询的对比 81
5.5 搜索引擎 82
5.5.1 Web搜索中的链接分析 83
5.5.2 电子商务中的商品排序 86
5.5.3 多因素和基于学习的排序 88
5.5.4 系统框架 89
5.5.5 Lucene简介 93
5.5.6 Solr简介 98
5.5.7 Elasticsearch简介 104
5.6 推荐系统 108
5.6.1 推荐的核心要素 109
5.6.2 推荐系统的分类 110
5.6.3 混合模型 115
5.6.4 系统架构 116
5.6.5 Mahout 116
5.7 在线广告 119
5.8 本章心得 127
5.9 参考资料 128
第6章 数据挖掘 130
6.1 基本理念 131
6.2 数据的表示和预处理 133
6.3 机器学习算法 136
6.4 挖掘工具 157
6.5 本章心得 165
6.6 参考资料 165
第7章 效能评估 167
7.1 效果评估 168
7.2 性能评估 190
7.3 本章心得 202
7.4 参考资料 202
第8章 大数据技术全景 204
第9章 商品太多啦!需要搜索引擎 207
9.1 业务需求 207
9.2 产品设计和技术选型 208
9.3 实现方案 211
第10章 能否更主动?还需要推荐引擎 223
10.1 业务需求 223
10.2 产品设计和技术选型 225
10.3 实现方案 230
第11章 这样做的效果如何 241
11.1 业务需求 241
11.2 产品设计和技术选型 242
11.3 实现方案 243
第12章 这个搜索有点逊 258
12.1 业务需求:还要搜得更多 258
12.2 “还要搜得更多”:产品设计和技术选型 259
12.3 “还要搜得更多”的方案实现 261
12.4 业务需求:还要搜得更准 265
12.5 “还要搜得更准”:产品设计和技术选型 266
12.6 “还要搜得更准”的方案实现 271
12.7 业务需求:还要更快 273
12.8 还要“变”得更快:产品设计和技术选型 274
12.9 还要“搜”得更快:产品设计和技术选型 275
12.10 业务需求:给点提示吧 280
12.11 给点提示吧:产品设计和技术选型 282
第13章 支持更高效的运营 287
13.1 业务需求:互联网时代的CRM 287
13.2 互联网时代的CRM:产品设计和技术选型 288
13.3 业务需求:抓住捣蛋鬼 291
13.4 抓住捣蛋鬼:产品设计和技术选型 292
13.5 业务需求:销售之战 295
13.6 销售之战:产品设计和技术选型 296
后记 299 [1]

温馨提示:
1、如果下载地址失效,请尽快反馈给我们,我们尽快修复。点此反馈>>
2、全站资源高清无密,课程百分百高清,完整,原画,包含所有的视频+素材+课件+源码,官方同步体验!每天更新,成为vip后可免费下载本站IT课程。点此办理会员>>
3、有任何问题,请咨询QQ:87887023
4、支持7*24小时自助购买,购买后自动发货,链接永久有效,自动更新
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

专注资源整合与知识分享
客服QQ

87887023

周一至周日9:00-23:00

反馈建议

点此进行反馈 kfs 在线QQ咨询
ftqrcode

扫描二维码关注我们

label_sm_90020

Powered by 优百课栈 X3.4© 2019-2025