缘起
- 这本书其实2017年1月就想看了,图书馆被人借走了,一直没预约到,直到20170313我才收到图书馆邮件。
- 20170314开始第1个番茄钟,P1-P37/374,全书计划10个番茄钟。
- 2017-05-12全书读完,全书用掉8个番茄钟读完。
- 因为还书时间问题,一直控制在6月初才还,序和前言内容2017-06-06花了1个番茄钟看完,并于当天去图书馆还掉。
- 2016年8月第1版,2016年9月第5次印刷,中信出版社,作者是吴军
内容
-
序
- 一、大数据与机器智能催生智能时代(邬贺铨院士)
- 《智能时代》一书回顾了科学研究发展的四个范式
- 描述自然现象的实验科学
- 以牛顿定律和麦克斯韦方程等为代表的理论科学
- 模拟复杂现象的计算科学
- 今天的数据密集型科学
- 《智能时代》一书回顾了科学研究发展的四个范式
- 二、智能时代、未来已来(李善友)
- 大数据是解决不确定性的良药
- “用不确定的眼光看待世界,再用信息来消除这种不确定性”。解决智能问题,就是将问题转化为消除不确定性的问题。
- 现有产业+新技术=新产业
- 智能革命带来前所未有的不连续性挑战
- 机器智能革命的发生来自大数据量的积累达到质变的奇点。
- 几千年以来,我们人类的知识都建立在归纳法之上,归纳法隐含的假设是“未来将继续和过去一样”,换句话说应该叫连续性假设。
- 大数据是解决不确定性的良药
- 一、大数据与机器智能催生智能时代(邬贺铨院士)
-
前言:人类的胜利(吴军2016年4月25日)
- AlphaGo
- 计算机之所以能战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。
- 具体到下棋的策略,AlphaGo里面有两个关键技术
- 第一个关键技术:把棋盘上当前的状态变成一个获胜概率的数学模型,这个模型里面没有任何人工的规则,而是完全靠前面所说的数据训练出来的。
- 第二个关键技术:启发式搜索算法--蒙特卡罗树搜索算法(Monte Carlo Tree Search),它能将搜索的空间限制在非常有限的范围内,保证计算机能够快速找到好的下法。
- 未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。
- 书中的核心内容来自吴军在研习社和一些大学商学院讲课的讲义。
chap1 数据-人类建造文明的基石 1/374
- 现象、数据、信息和知识
- 信息是关于世界、人和事的描述,它比数据来得抽象。
- 数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将它们挖掘出来。
- 知识比信息更高一个层次,也更加抽象,它具有系统性的特征。
- 数据的作用:文明的基石
- 早期数据的来源:对现象的观察。
- 获取数据->分析数据->建立模型->预测未知。
- 相关性:使用数据的钥匙
- 19世纪70年代,日本人通过人民日报上登出的王进喜的照片,判断了大庆油田的位置以及油井直径,成功中标石油设备。
- Amit Patel的研究被工程师开发出了google trends产品。
- 统计学:点石成金的魔棒
- 强调统计学中数据采集上的两个要点--量和质。
- 数学模型:数据驱动方法的基础
- Chebyshev切比雪夫不等式
- 回到数学模型上,其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。
- 数据驱动方法,是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。
chap2 大数据和机器智能 37/374
- 其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。
- 什么是机器智能
- 满足图灵测试
- 鸟飞派:人工智能1.0
- 人工智能 首先在1956年夏天的“达特茅斯夏季人工智能研究会议”提出。
- 机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。
- 1968年明斯基觉得人工智能没有解决之道,于是人工智能学术界有了20年的低谷。
- 另辟蹊径:统计+数据
- 20世纪70年代,人类开始尝试机器智能的另一条发展道路,即采用数据驱动和超级计算的方法,这个尝试始于工业。
- 贾里尼克
- 数据创造奇迹:量变到质变
- 2005年是大数据元年,google的机器翻译参加NIST的测评。(Franz Och博士是机器翻译专家)
- 大数据的特征
- 大数据一词的出现在媒体上是2007了。
- 2012年Nade Silver预测对了美国总统。
- 大数据是一种思维方式的改变。
- 变智能问题为数据问题
- google已经开始解决7W1H的问题,比如输入“why is the sky blue”,谷歌也能回答。
chap3 思维的革命 87/374
- 在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
- 本章描述大数据对社会的影响。以前的思维方式是机械思维。
- 思维方式决定科学成就:从欧几里得、托勒密到牛顿
- 托勒密的方法论;
- 人们将牛顿的方法概括为机械思维,核心思想是以下几句话:
- 世界变化的规律是确定的
- 因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚的。
- 规律是放之四海皆准的,可以用于其它领域
- 工业革命,机械思维的结果
- 瓦特是通过科学原理直接改进蒸汽机,而不是靠长期经验的积累。
- 18世纪的英国月光社
- 遵循“分析找到原因,根据原因得到结果”的思维方式
- 世界的不确定性
- 有以下两方面的原因
- 影响世界的变量非常多
- 客观世界本身(用概率模型来描述)
- 信息论不仅是通信的理论,也给人们一种看待世界和处理问题的新思路。
- 有以下两方面的原因
- 熵—一种新的世界观
- 香农除了给出对信息和互信息的量化度量之外,还给出了香农第一定律和香农第二定律。
- 最大熵原理它要求不引入主观的假设
- 大数据的本质
- 大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。
- 从因果关系到强相关关系
- 美国检查长告倒烟草公司
- 在大数据时代,我们能够得益于一种新的思维方法--从大量的数据中直接找到答案,即使不知道原因。
- 数据公司Google
- AdWords每次播放什么广告,不是由任何规则决定的,而完全是利用数据、挖掘相关性的结果。
chap4 大数据与商业 143/374
- 在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
- 大数据思维不是抽象的,而是有一整套方法让人们能够通过数据寻找相关性,最后解决各种各样的难题。
- 从大数据中找规律
- 用电数据;商业消费习惯;
- 巨大的商业利好:相关性、时效性和个性化的重要性
- 大数据出现后,找到信息之间的关联性的成本和时间被大大缩短。
- 大数据商业的共同点—尽在数据流中
- Google和amazon收集数据的过程:从枝末的局部到整体
- 当然每个的个性化:就是从整体到每一个细节
- 把控每一个细节
- 万物联网“Internet of Things”(简称IoT)的应用
- 戴维专注于利用大数据改进传统的酒吧行业
- 中国的金风公司
- 重新认识穷举法—完备性带来的结果 177
- 《劳工新种类》
- 从历史经验看大数据的作用
- 在整个19世纪,美国主要供电的公司只有两家,即通用电气和西屋电气。
- 技术改变商业模式 197
- 安迪-比尔定律
- 加(+)大数据缔造新产业
- 原有的产业加上新技术就成为新产业,否则将被淘汰。
chap5 大数据和智能革命的技术挑战 215/374
- 大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术和工程上采用与过去不同的方法。
- 技术的拐点
- 我们从数据的产生、存储、传输和处理四个角度来分析一下大数据形成的技术条件。
- 数据的产生
- 第一个来源是电脑本身。
- 第二个来源是传感器。(RFID、摄像头)
- 第三个来源是将那些过去已经存在的、以非数字化形式存储的信息数字化。
- 信息的存储
- 信息的传输
- 数据怎样才能从采集端传到存储设备上
- 信息的处理
- 将一个大的计算任务分到很多台便宜的服务器上去做并行计算。
- 数据收集:看似简单的难题
- 过去我们是通过少量的采样获得所谓具有代表性的数据。这些数据被称为样本。
- google收购了nest和Dropcam两家公司,主要是为了获取数据。
- 数据存储的压力和数据表示的难题
- 信息存储相关技术并不局限在研究如何节省存储量上,还需要研究怎样存储信息才能便于使用。
-
大数据面临的另一个技术难题:就是如何标准化数据格式,以便共享。
- google提供的Protocol Buffer的数据格式。
- 并行计算和实时处理:并非增加机器那么简单
- 问题1:任何一个问题总有一部分计算是无法并行的,这类计算占比越大,并行处理的效率越低。
- 问题2:影响并行计算效率的因素在于无法保证每个小任务的计算量是相同的。
- 问题3:对实时性的要求。(Dremel的工具用于保存新的东西)
- 数据挖掘:机器智能的关键
- 第一步:对数据的过滤和整理,去除与要解决的问题无关的维度,将与问题有关的数据内容进行格式化的整理。
- 数据安全的技术
- 保证用户的数据不损坏、不丢失
- 保证数据不会被偷走或者盗用
- 保护隐私:靠大数据长期挣钱的必要条件
- 双向监视
chap6 未来智能化产业 273/374
- 现有产业+机器智能=新产业,未来的农业、制造业、体育业、医疗、律师,甚至编辑记者行业都将迎来崭新形态,新产业将取代旧产业满足人类的个性化需求,大数据将导致我们整个社会的升级和变迁。
- 现有产业+新技术=新产业。
- 未来的农业
- 跳出定式思维来考虑农业用水的问题,我们首先要问“种田是否需要那么多水,那么多土地?”【google员工复制了以色列的农业技术】
- 自动浇水的机器人Droplet
- 未来的体育
- 2009年左右硅谷的投资人[Joe Lacob]花4.5亿美元收购了金州勇士,工程师们利用大数据制定球队发展战略和比赛战术(三分投篮),以4年1270万签下了Stephen Curry,在2015-2016赛季夺冠并获得了73胜。
- 大数据对体育训练的帮助还在于分析和总结优秀选手的动作姿势,纠正其他运动员的动作。
- 未来的制造业
- tesla颠覆了汽车业本身(定位一家IT公司)外,还取消了存在一个世纪的汽车代理商制度。
- 未来的医疗
- 做手术的机器人达芬奇手术系统,研制单位是约翰.霍普金斯大学的Russell Taylor。
- 2013年Google宣布成立独资的IT医疗公司Calico,请阿瑟.李文森担任CEO。
- 发明基因编辑技术而获得突破奖多德娜和卡彭特尔。
- 未来的律师业
- 利用自然语言处理和信息检索技术,发明让计算机阅读和分析法律文献的软件,可以取代很多人工。
- 未来的记者和编辑
- 计算机也能开始写作了。
chap7 智能革命和未来社会 317/374
- 在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入智能浪潮,成为前2%的人,要么观望徘徊,被淘汰。
- 智能化社会
- 在时间上优化一个城市的交通资源,就必须做到统筹每一个人每天的出行状况甚至是活动安排了。
- 为了保护用户隐私,X团队从来不保存使用者在起点和终点0.5英里范围内的活动路径。
- 精细化的社会
- 追踪每一次交易
- 区块链:Block即??椤⒌ピ囊馑?,它像一个账户存储信息;Chain是链条的意思,即表示一连串的交易;交易的细节就存在Block中。
- 从标准化到个性化的服务
- 追踪每一次交易
- 无隐私的社会
- 机器抢掉人的饭碗
- 从工业革命到黄金时代
- 英国花了大约两代人的时间消化工业革命带来的负面影响。工业革命的副作用解决的方法如下:
- 资本输出,开拓全球殖民地,推行自由贸易。
- 第一阶段,只有发明家和工厂主受益
- 第二阶段,英国民众受益,世界范围没有
- 第三阶段,世界范围受益
- 英国花了大约两代人的时间消化工业革命带来的负面影响。工业革命的副作用解决的方法如下:
- 从第二次工业革命到镀金时代
- 第二次工业革命的核心是电的使用。
- 20世纪20年代被称为美国的镀金时代,或者“柯立芝繁荣”
- 依然没有消化完的信息革命 348/374
- 中国的成功有多重原因,最根本的是它的起点比较低,生产力和创造力在被压制了几百年后被释放了出来,在短时间里爆发出巨大的能量,再加上同时完成了工业化和信息化。
- 信息时代是人类历史上第二个创造财富的高峰年代。
- 解决问题只有靠时间
- 必须承认一个并不愿意承认的事实,那就是被淘汰的产业的从业人员能够进入新行业中的其实非常少。
- 智能革命的冲击
- 过高的税收意味着投入再生产的钱减少了。
- 很多人被社会进步抛弃了。随着技术革命的发展,并非每个人的发展机会都是越来越多的,反而可能是越来越少。
- 从工业革命到黄金时代
- 争当2%的人
- 踏上智能革命的浪潮。
- 小结
- 任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长的时间里都将是迷茫的一代。
参考文献 370/374
- 《福特传》
- 《Blueprint for a New Economy》
- 《Daily Life in Victorian England》
- 《西方将主宰多久》
- 《Data Science for Business》
- 《The Industrial Revolutionaries》
- 《信息论基础》
- 《自然哲学之数学原理》
- 《Semantic Information Processing》
收获
- 这是看的吴军博士的第二本书,第一本书是《浪潮之巅》。
- 主要的内容我觉得是chap2和chap3不错,有点像论文的综述,讲到了智能时代的发展之路。
- 本质上还是个畅销书,面向的受众主要还是混沌研习社的人,本身也是根据演讲内容整理成书的。
- 类似于论文的写书方法,还是值得学习的,作者比较严谨,各种参考文献比较给力,但各种例子都只是作为论点的。