您正在使用IE低版浏览器,为了您的FUTUREAI账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
FUTUREAI 智能新品
发私信给FUTUREAI
发送

《主算法:寻求终极学习机将如何重塑我们的世界》第一章

本文作者:FUTUREAI 2018-09-13 17:02
导语:机器学习革命

机器学习革命

我们生活在算法时代。只有一两代以前,提到算法这个词就会从大多数人那里得到一个空白。今天,算法处于文明的每个角落。它们融入了日常生活的结构。它们不仅存在于手机或笔记本电脑中,还存在于汽车,房屋,电器和玩具中。你的银行是一个巨大的算法混乱,人类在这里和那里转动旋钮。算法安排飞行然后飞行飞机。算法运行工厂,交易和路线货物,兑现收益,并保留记录。如果每个算法突然停止工作,那将是我们所知道的世界末日。算法是一系列指令,告诉计算机该做什么。计算机由数十亿个称为晶体管的微小开关组成,和算法每秒数十亿次打开和关闭这些开关。最简单的算法是:翻转开关。一个晶体管的状态是一位信息:一个是晶体管导通,一个是零关断。银行电脑中的某个位置会说明您的帐户是否透支。社交中的某个地方

 安全管理局的计算机显示你是活着还是死了。第二个最简单的算法是:组合两个比特。克劳德香农,

9780465065707-text.indd 1 7/16/15 12:44 PM

2 | 大师的算法

更为人所知的是信息理论之父,是第一个意识到晶体管正在做什么,因为它们响应其他晶体管而开关,这是推理。(这是他在麻省理工学院的硕士论文 - 有史以来最重要的硕士论文。)如果晶体管A仅在晶体管B和C都导通时导通,那么它正在进行一小部分逻辑推理。如果在B或C打开时A打开,那是另一个微小的逻辑操作。如果A在B关闭时打开,反之亦然,那是第三次操作。信不信由你,每个算法,无论多么复杂,都可以简化为这三个操作:AND,OR和NOT。简单算法可以用图表表示,使用AND,OR和NOT操作的不同符号。例如,如果发烧可能由流感或疟疾引起,

通过结合许多这样的操作,我们可以执行非常精细的逻辑推理链。人们通常认为计算机都是关于数字的,但事实并非如此。计算机都是关于逻辑的。数字和算术由逻辑构成,计算机中的其他所有内容也是如此。想要添加两个号码?晶体管的组合可以做到这一点。想要击败人类的危险!冠军?这也是晶体管的组合(更大,自然)。但是,如果我们不得不为我们想要做的每件事建造一台新计算机,那将是非常昂贵的。相反,现代计算机是一个巨大的晶体管组件,可以做很多不同的事情,这取决于哪些晶体管被激活。米开朗基罗说,他所做的只是看到大理石块内的雕像,并雕刻掉多余的石头,直到雕像被揭开。同样,算法会扫除计算机中多余的晶体管,直到

9780465065707-text.indd 2 7/16/15 12:44 PM

机器学习革命| 3

无论是客机的自动驾驶仪还是新的皮克斯电影,都会显示预期的功能。算法不仅仅是任何一组指令:它们必须精确且明确,足以由计算机执行。例如,烹饪配方不是算法,因为它没有准确地指定执行操作的顺序或每个步骤的确切内容。一匙糖到底有多少糖?每个曾经尝试过新食谱的人都知道,跟着它可能会产生美味或混乱。相反,算法总是产生相同的结果。即使配方精确地指定了半盎司的糖,我们仍然没有走出困境,因为计算机不知道糖是什么,或者是一盎司。如果我们想要一个厨房机器人来制作蛋糕,我们必须告诉它如何识别视频中的糖,如何拿起一把勺子,等等。(我们仍在努力。)计算机必须知道如何执行算法一直到打开和关闭特定的晶体管。所以烹饪配方离算法很远。另一方面,以下是用于玩tic-tac-toe的算法:

如果你或你的对手连续两次,则在剩下的方格上进行比赛。否则,如果有一个连续创建两行的移动,则播放该行。否则,如果中心广场是免费的,那就玩吧。否则,如果你的对手在角落里打球,则在对角进行比赛。否则,如果有空角,请在那里玩。否则,在任何空方块上玩。

这个算法有一个很好的属性,它永远不会丢失!当然,它仍然缺少许多细节,比如电路板在计算机内存中的表示方式以及移动如何改变这种表示。例如,每个方块可以有两个位,值为00

9780465065707-text.indd 3 7/16/15 12:44 PM

4 | 大师的算法

如果正方形是空的,如果它有一个零,则变为01,如果它有一个十字,则变为10。但它的确切和毫不含糊,任何有能力的程序员都可以填补空白。这也有助于我们不必一直指定一个算法直到单个晶体管; 我们可以使用预先存在的算法作为构建块,并且有大量的算法可供选择。算法是一个严格的标准。人们常说,除非你能将其表达为算法,否则你并不会真正理解它。(正如Richard Feynman所说,“我无法创造,我不明白。”)方程式,物理学家和工程师的面包和黄油,实际上只是一种特殊的算法。例如,牛顿第二定律,可以说是有史以来最重要的等式,告诉您通过将其质量乘以其加速度来计算对象上的净力。它还隐含地告诉你,加速度是力除以质量,但明确表示本身就是一个算法步骤。在任何科学领域,如果理论不能表达为算法,那么它并不完全严谨。(更不用说你不能使用计算机来解决它,这实际上限制了你可以用它做什么。)科学家制造理论,工程师制造设备。计算机科学家制作算法,既是理论又是设备。设计算法并不容易。陷阱比比皆是,没有什么可以被视为理所当然。你的一些直觉会被证明是错误的,你必须找到另一种方式。除了设计算法之外,你必须用计算机可以理解的语言写下来,像Java或Python(在这一点上它被称为程序)。然后你必须调试它:找到每个错误并修复它,直到计算机运行你的程序而不搞砸。但是,一旦你有一个你想要的程序,你就可以去城里。计算机将以极高的速度进行数百万次竞标,无需投诉。世界上的每个人都可以使用你的创作。如果您选择,或者足以使您成为亿万富翁,如果您解决的问题非常重要,那么成本可以为零。程序员 - 创建算法并对其编码的人 - 是一个小神,随意创建宇宙。你甚至可以说创世记之神本身就是一个程序员:语言,但是,一旦你有一个你想要的程序,你就可以去城里。计算机将以极高的速度进行数百万次竞标,无需投诉。世界上的每个人都可以使用你的创作。如果您选择,或者足以使您成为亿万富翁,如果您解决的问题非常重要,那么成本可以为零。程序员 - 创建算法并对其编码的人 - 是一个小神,随意创建宇宙。你甚至可以说创世记之神本身就是一个程序员:语言,但是,一旦你有一个你想要的程序,你就可以去城里。计算机将以极高的速度进行数百万次竞标,无需投诉。世界上的每个人都可以使用你的创作。如果您选择,或者足以使您成为亿万富翁,如果您解决的问题非常重要,那么成本可以为零。程序员 - 创建算法并对其编码的人 - 是一个小神,随意创建宇宙。你甚至可以说创世记之神本身就是一个程序员:语言,程序员 - 创建算法并对其编码的人 - 是一个小神,随意创建宇宙。你甚至可以说创世记之神本身就是一个程序员:语言,程序员 - 创建算法并对其编码的人 - 是一个小神,随意创建宇宙。你甚至可以说创世记之神本身就是一个程序员:语言,

9780465065707-text.indd 4 7/16/15 12:44 PM

机器学习革命| 

不是操纵,是他的创造工具。言语成为世界。今天,坐在沙发上用你的笔记本电脑,你也可以成为一个神。想象一个宇宙,让它成为现实。物理定律是可选的。随着时间的推移,计算机科学家们在彼此的工作基础上发展并为新事物发明算法。算法与其他算法结合使用其他算法的结果,反过来为更多算法产生结果。数十亿计算机中的数十亿晶体管每秒钟都会切换数十亿次。算法形成了一种新的生态系统 - 不断增长,其丰富程度仅与生命本身相当。然而,不可避免地,这个伊甸园里有一条蛇。它被称为复杂怪物。像Hydra一样,复杂怪物有很多头。其中之一是空间复杂性:算法需要存储在计算机内存中的信息位数。如果算法需要的内存比计算机所能提供的内存多,那么它就没用了,必须丢弃。然后是邪恶的姐妹,时间的复杂性:算法运行多长时间,也就是说,在产生所需结果之前,使用和重复使用晶体管需要多少步骤。如果它比我们等待的时间长,那么算法再次无用。但复杂怪物最可怕的面孔是人类的复杂性。当算法变得太复杂而不能让我们的人类大脑无法理解时,当算法的不同部分之间的相互作用过多且涉及太多,错误蔓延,我们无法找到它们并修复它们时,算法也不会我们想要什么。即使我们以某种方式使它工作,对于使用它的人而言,它变得不必要地复杂化,并且与其他算法不能很好地兼容,为以后存储麻烦。每个计算机科学家每天都会与复杂的怪物战斗。当计算机科学家失去战斗时,复杂性渗透到我们的生活中。你可能已经注意到许多战斗已经失败。然而,我们继续构建我们的算法塔,其难度越来越大。每一代新算法都必须建立在以前的算法之上,并且除了自己的算法之外还必须处理它们的复杂性。塔越来越高,它覆盖了整个世界,但它也越来越脆弱,像一个纸牌屋 每个计算机科学家每天都会与复杂的怪物战斗。当计算机科学家失去战斗时,复杂性渗透到我们的生活中。你可能已经注意到许多战斗已经失败。然而,我们继续构建我们的算法塔,其难度越来越大。每一代新算法都必须建立在以前的算法之上,并且除了自己的算法之外还必须处理它们的复杂性。塔越来越高,它覆盖了整个世界,但它也越来越脆弱,像一个纸牌屋 每个计算机科学家每天都会与复杂的怪物战斗。当计算机科学家失去战斗时,复杂性渗透到我们的生活中。你可能已经注意到许多战斗已经失败。然而,我们继续构建我们的算法塔,其难度越来越大。每一代新算法都必须建立在以前的算法之上,并且除了自己的算法之外还必须处理它们的复杂性。塔越来越高,它覆盖了整个世界,但它也越来越脆弱,像一个纸牌屋 每一代新算法都必须建立在以前的算法之上,并且除了自己的算法之外还必须处理它们的复杂性。塔越来越高,它覆盖了整个世界,但它也越来越脆弱,像一个纸牌屋 每一代新算法都必须建立在以前的算法之上,并且除了自己的算法之外还必须处理它们的复杂性。塔越来越高,它覆盖了整个世界,但它也越来越脆弱,像一个纸牌屋

9780465065707-text.indd 5 7/16/15 12:44 PM

6 | 大师的算法

等待崩溃。算法中的一个小错误和一个十亿美元的火箭爆炸,或者数百万的电力消失。算法以意想不到的方式相互作用,股票市场崩溃。如果程序员是小神,复杂的怪物本身就是魔鬼。它一点一点地赢得了战争。一定有更好的方法。

进入学习者每个算法都有一个输入和一个输出:数据进入计算机,算法按照它的方式运行,然后输出结果。机器学习转变了这个问题:在数据和期望的结果中,出来的算法将一个变为另一个。学习算法 - 也称为学习者 - 是制作其他算法的算法。通过机器学习,计算机可以编写自己的程序,所以我们没有必要。哇。计算机编写自己的程序。现在这是一个强大的想法,甚至可能有点可怕。如果计算机开始自己编程,我们将如何控制它们?事实证明,我们可以很好地控制它们,正如我们将要看到的那样。更直接的反对意见是,这听起来好得令人难以置信。当然,编写算法需要智慧,创造力,解决问题的东西 - 计算机没有的东西?机器学习如何与魔术区别开来?实际上,截至今天,人们可以编写许多计算机无法学习的程序。但是,更令人惊讶的是,计算机可以学习人们无法编写的程序。我们知道如何驾驶汽车和破译手写,但这些技能是潜意识的; 我们无法向计算机解释如何做这些事情。但是,如果我们给每个学习者提供足够数量的例子,那么它将很乐意找出如何自己完成它们,此时我们可以将它变得松散。这就是邮局如何阅读邮政编码,这就是自动驾驶汽车即将推出的原因。机器学习的力量可能最好用低科技类比来解释:农业。在工业社会中,货物是制造的 截至今天,人们可以编写许多计算机无法学习的程序。但是,更令人惊讶的是,计算机可以学习人们无法编写的程序。我们知道如何驾驶汽车和破译手写,但这些技能是潜意识的; 我们无法向计算机解释如何做这些事情。但是,如果我们给每个学习者提供足够数量的例子,那么它将很乐意找出如何自己完成它们,此时我们可以将它变得松散。这就是邮局如何阅读邮政编码,这就是自动驾驶汽车即将推出的原因。机器学习的力量可能最好用低科技类比来解释:农业。在工业社会中,货物是制造的 截至今天,人们可以编写许多计算机无法学习的程序。但是,更令人惊讶的是,计算机可以学习人们无法编写的程序。我们知道如何驾驶汽车和破译手写,但这些技能是潜意识的; 我们无法向计算机解释如何做这些事情。但是,如果我们给每个学习者提供足够数量的例子,那么它将很乐意找出如何自己完成它们,此时我们可以将它变得松散。这就是邮局如何阅读邮政编码,这就是自动驾驶汽车即将推出的原因。机器学习的力量可能最好用低科技类比来解释:农业。在工业社会中,货物是制造的 但这些技能是潜意识的; 我们无法向计算机解释如何做这些事情。但是,如果我们给每个学习者提供足够数量的例子,那么它将很乐意找出如何自己完成它们,此时我们可以将它变得松散。这就是邮局如何阅读邮政编码,这就是自动驾驶汽车即将推出的原因。机器学习的力量可能最好用低科技类比来解释:农业。在工业社会中,货物是制造的 但这些技能是潜意识的; 我们无法向计算机解释如何做这些事情。但是,如果我们给每个学习者提供足够数量的例子,那么它将很乐意找出如何自己完成它们,此时我们可以将它变得松散。这就是邮局如何阅读邮政编码,这就是自动驾驶汽车即将推出的原因。机器学习的力量可能最好用低科技类比来解释:农业。在工业社会中,货物是制造的 机器学习的力量可能最好用低科技类比来解释:农业。在工业社会中,货物是制造的 机器学习的力量可能最好用低科技类比来解释:农业。在工业社会中,货物是制造的

9780465065707-text.indd 6 7/16/15 12:44 PM

机器学习革命| 7

工厂,这意味着工程师必须弄清楚如何从零件中组装它们,如何制造这些零件,等等 - 一直到原材料。这是很多工作。计算机是有史以来发明的最复杂的产品,设计它们,制造它们的工厂以及运行它们的程序是一项繁重的工作。但是,我们可以通过另一种更古老的方式获得我们需要的一些东西:让大自然创造它们。在农业中,我们种下种子,确保他们有足够的水和养分,并收获种植的作物。为什么技术不能更像这样?它可以,而且这是机器学习的承诺。学习算法是种子,数据是土壤,学习的程序是种植的植物。机器学习专家就像一个农民,播下种子,灌溉和施肥土壤,并密切关注农作物的健康状况,但不要忘记。一旦我们以这种方式看待机器学习,就会立即跳出两件事。首先,我们拥有的数据越多,我们学到的就越多。没有数据?没什么好学的。大数据?有很多东西需要学习。这就是为什么机器学习在任何地方都出现了,这是由指数级增长的大量数据驱动的。如果机器学习是你在超市购买的东西,它的纸箱会说:“只需添加数据。”第二件事是机器学习是用来杀死复杂怪物的剑。有了足够的数据,只有几百行的学习程序可以很容易地生成一个包含数百万行的程序,并且它可以针对不同的问题一次又一次地执行此操作。程序员的复杂性降低是惊人的。当然,就像Hydra一样,复杂的怪物一旦我们切断旧的头发就会萌发新的头脑,但是它们开始变小并且需要一段时间才能成长,所以我们仍然会得到一个大腿。我们可以将机器学习视为编程的逆,就像平方根是平方的倒数一样,或者积分是微分的倒数。正如我们可以问“什么数字平方给出16?”或“什么是其衍生物的函数

 x + 1?“我们可以问,”产生此输出的算法是什么?“

9780465065707-text.indd 7 7/16/15 12:44 PM

8 | 大师的算法

我们很快就会看到如何将这种洞察力转化为具体的学习算法。有些学习者学习知识,有些学习技能。“所有人都是凡人”是一种知识。骑自行车是一种技巧。在机器学习中,知识通常采用统计模型的形式,因为大多数知识都是统计学的:所有人都是凡人,但只有4%是美国人。技能通常采用程序的形式:如果道路向左弯曲,则向左转动车轮; 如果一只鹿跳到你面前,猛踩刹车。(不幸的是,在撰写本文时,谷歌的自动驾驶汽车仍然将风吹塑料袋与鹿混淆。)通常,这些程序非常简单,而且核心的知识很复杂。如果您可以分辨哪些电子邮件是垃圾邮件,您就知道要删除哪些电子邮件。如果你能说出国际象棋中的棋盘位置有多好,你知道要做出哪一步(导致最佳位置的那一步)。机器学习有许多不同的形式,有许多不同的名称:模式识别,统计建模,数据挖掘,知识发现,预测分析,数据科学,自适应系统,自组织系统等。这些中的每一个都被不同的社区使用并且具有不同的关联。有些人的半衰期很长,有些则不那么长。在本书中,我使用术语机器学习来广泛地引用它们。机器学习有时与人工智能(或简称AI)相混淆。从技术上讲,机器学习是人工智能的一个子领域,但它已经变得如此庞大和成功,现在它已经超越了它自豪的父母。人工智能的目标是教计算机做人类目前做得更好的事情,学习可以说是最重要的事情:如果没有它,任何计算机都不能长久跟上人类; 随之而来的是其余的。在信息处理生态系统中,学习者是超级策略者。数据库,爬虫,索引器等是食草动物,耐心地在无休止的数据领域进行修改。统计算法,在线分析处理等是捕食者。草食动物是必要的,因为没有动物,其他动物就不可能存在,但是超级动物的生命会更加刺激。爬虫就像一头牛,网络就是它的全球 统计算法,在线分析处理等是捕食者。草食动物是必要的,因为没有动物,其他动物就不可能存在,但超级动物的生命会更加刺激。爬虫就像一头牛,网络就是它的全球 统计算法,在线分析处理等是捕食者。草食动物是必要的,因为没有动物,其他动物就不可能存在,但超级动物的生命会更加刺激。爬虫就像一头牛,网络就是它的全球

9780465065707-text.indd 8 7/16/15 12:44 PM

机器学习革命| 9

草地,每页都是一片草。当爬虫完成重复操作时,Web的副本就位于其硬盘上。然后索引器会显示每个单词出现的页面列表,就像书末的索引一样。像大象这样的数据库既庞大又沉重,永远不会忘记。在这些患者中,飞镖统计和分析算法,压缩和选择,将数据转化为信息。学习者吃掉这些信息,消化它,并将其变成知识。机器学习专家(又名机器学习者)甚至是计算机科学家中的精英神职人员。许多计算机科学家,尤其是老一代的计算机科学家,并不了解他们所希望的机器学习。这是因为计算机科学传统上一直都是确定性地思考,但机器学习需要统计思考。例如,将电子邮件标记为垃圾邮件的规则准确度为99%,这并不意味着它的错误; 它可能是你能做的最好的,也足够有用。这种思维差异很大一部分原因是为什么微软在追赶Google方面比在Netscape方面遇到更多麻烦。在一天结束时,浏览器只是一个标准的软件,但搜索引擎需要不同的思维模式。机器学习者是超级极客的另一个原因是,即使是已经严峻的计算机科学标准,世界上的人数远远少于它所需要的。根据技术专家Tim O'Reilly的说法,“数据科学家”是硅谷最热门的职位。麦肯锡全球研究所估计,到2018年,仅美国将需要140,000至190,将有超过000名机器学习专家,以及150万名精通数据的管理人员。机器学习的应用程序突然爆发,教育无法跟上,并且它以成为一门难题而闻名。教科书有可能给你数学消化不良。然而,这种困难比实际更明显。机器学习中的所有重要思想都可以用数学表达。在您阅读本书时,您甚至可能会发现自己正在发明自己的学习算法,并且看到了一个等式。工业革命自动化手动工作和信息革命在脑力劳动和机器学习方面也是如此 它以成为一门难题而闻名。教科书有可能给你数学消化不良。然而,这种困难比实际更明显。机器学习中的所有重要思想都可以用数学表达。在您阅读本书时,您甚至可能会发现自己正在发明自己的学习算法,并且看到了一个等式。工业革命自动化手动工作和信息革命在脑力劳动和机器学习方面也是如此 它以成为一门难题而闻名。教科书有可能给你数学消化不良。然而,这种困难比实际更明显。机器学习中的所有重要思想都可以用数学表达。在您阅读本书时,您甚至可能会发现自己正在发明自己的学习算法,并且看到了一个等式。工业革命自动化手动工作和信息革命在脑力劳动和机器学习方面也是如此

9780465065707-text.indd 9 7/16/15 12:44 PM

10 | 大师的算法

自动化自动化。没有它,程序员就会成为阻碍进步的瓶颈。有了它,进步的步伐就会加快。如果你是一个懒惰且不太聪明的计算机科学家,那么机器学习是理想的职业,因为学习算法可以完成所有的工作但是让你获得所有的荣誉。另一方面,学习算法可能会使我们摆脱工作,这只会是诗意的正义。通过将自动化推向新的高度,机器学习革命将引起广泛的经济和社会变革,就像互联网,个人电脑,汽车和蒸汽机在他们的时代所做的那样。这些变化已经很明显的一个领域是商业。

为什么企业接受机器学习为什么Google比雅虎价值更高?他们都是通过在网络上展示广告赚钱,而且他们都是顶级目的地。两者都使用拍卖来销售广告和机器学习来预测用户点击广告的可能性(概率越高,广告越有价值)。但谷歌的学习算法比雅虎好得多。当然,这不是市场上限差异的唯一原因,但这是一个很大的原因。每次预测的未发生的点击都是广告客户浪费的机会和网站的收入损失。谷歌每年的收入为500亿美元,点击预测每增加1%就可能意味着该公司每年还有5亿美元。难怪谷歌是机器学习的忠实粉丝,而雅虎和其他人正在努力追赶。网络广告只是更大现象的一种表现形式。在每个市场中,生产者和消费者需要在交易发生之前进行连接。在互联网之前的日子里,主要障碍是身体上的。您只能从当地书店购买书籍,而您当地的书店的货架空间有限。但是,当您随时可以将任何书籍下载到电子阅读器时,问题就变成了绝大多数的选择。你如何浏览拥有数百万件待售书店的书架?同样的道理 您只能从当地书店购买书籍,而您当地的书店的货架空间有限。但是,当您随时可以将任何书籍下载到电子阅读器时,问题就变成了绝大多数的选择。你如何浏览拥有数百万件待售书店的书架?同样的道理 您只能从当地书店购买书籍,而您当地的书店的货架空间有限。但是,当您随时可以将任何书籍下载到电子阅读器时,问题就变成了绝大多数的选择。你如何浏览拥有数百万件待售书店的书架?同样的道理

9780465065707-text.indd 10 7/16/15 12:44 PM

机器学习革命| 11

其他信息商品:视频,音乐,新闻,推文,博客,普通旧网页。它还适用于可以远程采购的每种产品和服务:鞋子,鲜花,小工具,酒店房间,辅导,投资。它甚至适用于寻找工作或约会的人。你怎么找到对方?这是信息时代的决定性问题,机器学习是解决方案的重要组成部分。随着公司的发展,它们经历了三个阶段。首先,他们手动完成所有工作:一家小型流行商店的业主亲自了解他们的客户,并相应地订购,展示和推荐商品。这很好,但它不能扩展。在第二个也是最不开心的阶段,公司变得足够大,需要使用计算机。来自程序员,顾问和数据库经理,并且编写了数百万行代码来自动化可以自动化的公司的所有功能。服务的人数更多,但不是很好:决策是基于粗略的人口统计类别,而计算机程序太僵硬,无法与人类的无限多功能性相匹配。在一点之后,没有足够的程序员和顾问来完成所需的一切,公司不可避免地转向机器学习。亚马逊无法在计算机程序中巧妙地编码所有客户的口味,Facebook也不知道如何编写一个程序来选择向每个用户显示的最佳更新。沃尔玛销售数百万种产品,每天都有数十亿的选择; 如果沃尔玛的程序员试图编写一个程序来制作所有这些程序,他们就永远不会完成。代替,这些公司所做的是将学习算法放在他们积累的大量数据上,让他们认为客户想要的是什么。学习算法是匹配者:他们找到彼此的生产者和消费者,切断信息过载。如果他们足够聪明,那么你将获得两全其美:大规模的巨大选择和低成本,以及小巧的个性化触感。学习者并不完美,决定的最后一步通常仍然是人类制造的,但学习者会聪明地减少对人类可以管理的事物的选择。如果他们足够聪明,那么你将获得两全其美:大规模的巨大选择和低成本,以及小巧的个性化触感。学习者并不完美,决定的最后一步通常仍然是人类制造的,但学习者会聪明地减少对人类可以管理的事物的选择。如果他们足够聪明,那么你将获得两全其美:大规模的巨大选择和低成本,以及小巧的个性化触感。学习者并不完美,决定的最后一步通常仍然是人类制造的,但学习者会聪明地减少对人类可以管理的事物的选择。

9780465065707-text.indd 11 7/16/15 12:44 PM

12 | 大师的算法

回想起来,我们可以看到从计算机到互联网再到机器学习的发展是不可避免的:计算机启用互联网,这会产生大量数据和无限选择的问题; 机器学习使用大量数据来帮助解决无限选择问题。互联网本身并不足以将需求从“一刀切”转移到无限多样化的长尾。Netflix可能有10万张DVD游戏,但如果客户不知道如何找到他们喜欢的DVD游戏,他们将默认选择点击。只有当Netflix有学习算法来确定你的品味并推荐长尾真正起飞的DVD时。一旦不可避免的事情发生并且学习算法成为中间人,权力就会集中在他们身上。Google的算法在很大程度上决定了您找到的信息,亚马逊您购买的产品以及您约会的Match.com。最后一英里仍然是你的 - 从算法提供的选项中进行选择 - 但99.9%的选择是由他们完成的。公司的成败现在取决于学习者喜欢其产品的程度,以及整个经济的成功 - 每个人是否以最优惠的价格获得最好的产品 - 取决于学习者的优秀程度。公司确保学生喜欢其产品的最佳方式是自行运行。谁拥有最好的算法和最多的数据获胜。一种新型的网络效应成为现实:拥有最多客户的人积累了最多的数据,学习了最好的模型,赢得了最多的新客户,在一个良性循环中(或者如果你是竞争对手的恶性循环)。从Google切换到Bing可能比从Windows切换到Mac更容易,但实际上你并不这样做,因为谷歌凭借其领先优势和更大的市场份额,更清楚你想要什么,即使Bing的技术同样出色。并且怜惜一个新进入搜索业务的人,从零数据开始,他们背后有十多年的学习经验。您可能会认为,经过一段时间后,更多的数据会更加相同,但饱和点无处可见。长尾巴继续前进。如果你看看亚马逊或Netflix给你的建议,那就是 凭借其先声夺人和更大的市场份额,即使Bing的技术同样出色,也能更好地了解您的需求。并且怜惜一个新进入搜索业务的人,从零数据开始,他们背后有十多年的学习经验。您可能会认为,经过一段时间后,更多的数据会更加相同,但饱和点无处可见。长尾巴继续前进。如果你看看亚马逊或Netflix给你的建议,那就是 凭借其先声夺人和更大的市场份额,即使Bing的技术同样出色,也能更好地了解您的需求。并且怜惜一个新进入搜索业务的人,从零数据开始,他们背后有十多年的学习经验。您可能会认为,经过一段时间后,更多的数据会更加相同,但饱和点无处可见。长尾巴继续前进。如果你看看亚马逊或Netflix给你的建议,那就是

9780465065707-text.indd 12 7/16/15 12:44 PM

机器学习革命| 13

很明显,他们仍然非常粗暴,谷歌的搜索结果仍然有很多不足之处。使用机器学习可以改进产品的每个功能,网站的每个角落。页面底部的链接应该是红色还是蓝色?尝试两者,看看哪一个点击次数最多。更好的是,让学习者保持运行并不断调整网站的各个方面。在任何有大量选择和大量数据的市场中都会出现同样的动态。比赛开始了,谁学得最快就赢了。更好地了解客户并不止于此:公司可以将机器学习应用于其运营的各个方面,只要数据可用,数据从计算机,通信设备和更便宜,更普遍的传感器涌入。“数据是新油”是一种流行的副作用,与石油一样,提炼它是一项大生意。IBM以及任何人都融入企业界,围绕为公司提供分析,组织了其增长战略。企业将数据视为战略资产:我的竞争对手没有哪些数据?我怎样才能利用它?我的竞争对手有哪些数据我没有?与没有数据库的银行无法与拥有它们的银行竞争的方式相同,没有机器学习的公司无法跟上使用它的公司。虽然第一家公司的专家编写了一千条规则来预测其客户的需求,但第二家公司的算法会学习数十亿条规则,为每个客户提供一整套规则。它与机枪的矛一样公平。机器学习是一项很酷的新技术,但这并不是企业接受它的原因。

增强科学方法机器学习是类固醇的科学方法。它遵循生成,测试,丢弃或改进假设的相同过程。但是,虽然科学家可能会花费他或她的整个生命来测试几百个假设,但机器学习系统可以在几分之一秒内完成同样的工作。机器学习自动化

9780465065707-text.indd 13 7/16/15 12:44 PM

14 | 大师的算法

发现。因此,毫不奇怪,它正在彻底改变科学,同时也正在改变业务。为了取得进步,每个科学领域都需要有与其所研究现象的复杂性相称的数据。这就是为什么物理学是第一个起飞的科学原因:第谷布拉赫关于行星位置的记录以及伽利略对钟摆和倾斜平面的观察足以推断出牛顿定律。这也是为什么分子生物学虽然比神经科学更年轻,却超过了它:DNA微阵列和高通量测序提供了神经科学家唯一希望的大量数据。这就是为什么社会科学研究如此艰难的原因:如果你拥有的只是一百个人的样本,每个人都有十几个测量,你所能模拟的只是一些非常狭窄的现象。但即便是这种狭隘的现象也不是孤立存在的; 它受到无数其他人的影响,这意味着你还远未理解它。今天的好消息是曾经数据贫乏的科学现在数据丰富。通过在亚马逊的机械土耳其人上发布任务,心理学家可以获得他们想要的任意数量的课程,而不是支付五十个睡眼惺in的本科生来完成实验室的任务。(这也是一个更加多样化的样本。)它变得越来越难以记住,但十多年前,研究社交网络的社会学家感到遗憾的是,他们无法获得拥有超过几百名成员的网络。现在有Facebook,超过十亿。这些成员中的很大一部分几乎都是对他们生活的描述; 这就像在地球上拥有社交生活的直播。在神经科学中,连接组学和功能磁共振成像为大脑打开了一个非常详细的窗口。在分子生物学中,基因和蛋白质的数据库呈指数增长。即使在像物理学和天文学这样的“老”科学中,由于从粒子加速器和数字天空测量中涌出的大量数据,进展仍在继续。如果不能将大数据转化为知识,那么大数据是没有用的,世界上没有足够的科学家来完成这项任务。埃德温哈勃通过研究照相印版发现了新的星系,但你可以 由于从粒子加速器和数字天空测量中涌出的大量数据,进展仍在继续。如果不能将大数据转化为知识,那么大数据是没有用的,世界上没有足够的科学家来完成这项任务。埃德温哈勃通过研究照相印版发现了新的星系,但你可以 由于从粒子加速器和数字天空测量中涌出的大量数据,进展仍在继续。如果不能将大数据转化为知识,那么大数据是没有用的,世界上没有足够的科学家来完成这项任务。埃德温哈勃通过研究照相印版发现了新的星系,但你可以

9780465065707-text.indd 14 7/16/15 12:44 PM

机器学习革命| 15

打赌斯隆数字巡天中的5亿个天空物体没有被识别出来。这就像试图手工计算沙滩上的沙粒一样。您可以编写规则来区分星系与恒星和噪声对象(如鸟类,飞机,超人),但它们并不十分准确。相反,SKICAT(天空图像编目和分析工具)项目使用了学习算法。从用正确的类别标记对象的板开始,它找出每个对象的特征并将结果应用于所有未标记的板。更好的是,它可以将对人类来说过于微弱的物体进行分类,这些对象构成了大部分调查。通过大数据和机器学习,您可以理解比以前更复杂的现象。在大多数领域,传统上,科学家只使用非常有限的模型,如线性回归,其中适合数据的曲线总是一条直线。不幸的是,世界上大多数现象都是非线性的。(或者幸运的是,因为否则生活会非常无聊 - 事实上,没有生命。)机器学习开辟了一个巨大的非线性模型新世界。这就像打开房间里的灯光一样,之前只有一小部分月光被过滤掉了。在生物学中,学习算法可以找出基因位于DNA分子中的位置,其中多余的RNA在合成蛋白质之前被拼接出来,蛋白质如何折叠成其特征形状,以及不同条件如何影响不同基因的表达。学习者不是在实验室中测试成千上万的新药,而是预测它们是否会起作用,并且只有最有前途的测试。他们还清除了可能具有令人讨厌的副作用的分子,如癌症。这避免了昂贵的失败,例如候选药物仅在人体试验开始后才被解除。然而,最大的挑战是将所有这些信息汇集成一个连贯的整体。影响心脏病风险的所有因素是什么?它们如何相互作用?所有牛顿需要的是三个运动定律和一个引力定律,但是细胞,生物体或社会的完整模型比任何人都能发现的更多。随着知识的增长,科学家们越来越专注,但没有人 然而,最大的挑战是将所有这些信息汇集成一个连贯的整体。影响心脏病风险的所有因素是什么?它们如何相互作用?所有牛顿需要的是三个运动定律和一个引力定律,但是细胞,生物体或社会的完整模型比任何人都能发现的更多。随着知识的增长,科学家们越来越专注,但没有人 然而,最大的挑战是将所有这些信息汇集成一个连贯的整体。影响心脏病风险的所有因素是什么?它们如何相互作用?所有牛顿需要的是三个运动定律和一个引力定律,但是细胞,生物体或社会的完整模型比任何人都能发现的更多。随着知识的增长,科学家们越来越专注,但没有人

9780465065707-text.indd 15 7/16/15 12:44 PM

16 | 大师的算法

因为有太多的碎片,所以能够把碎片放在一起。科学家合作,但语言是一种非常缓慢的交流媒介。科学家试图跟上别人的研究,但出版物的数量如此之高,以至于它们落得越来越远。通常,重做实验比找到报告它的论文更容易。机器学习得到了拯救,在文献中搜索相关信息,将一个区域的行话翻译成另一个区域,甚至建立了科学家们都不知道的联系。机器学习越来越多地成为一个巨大的枢纽,通过这个中心,在一个领域发明的建模技术会进入其他领域。如果没有发明计算机,科学将在二十世纪下半叶停滞不前。科学家们可能不会立即明白这一点,因为他们本来可以专注于他们仍然可以取得的有限进展,但这种进步的上限要低得多。同样,如果没有机器学习,许多科学将在未来几十年内面临收益递减的问题。为了了解科学的未来,请看看曼彻斯特生物技术研究所的一个实验室,在那里,一个名叫亚当的机器人正在努力研究哪些基因编码酵母中的哪些酶。亚当有一个酵母代谢模型和基因和蛋白质的一般知识。它做出假设,设计实验来测试它们,实际执行它们,分析结果,并提出新的假设,直到它满意为止。今天,

十亿比尔克林顿机器学习是2012年总统大选的制造者。通常决定总统选举的因素 - 经济,候选人的可爱性等等 - 加起来就是一个洗牌,结果归结为一些关键的摇摆州。米特罗姆尼的竞选活动

9780465065707-text.indd 16 7/16/15 12:44 PM

机器学习革命| 17

遵循传统的民意调查方法,将选民分为大类,并针对每一类。罗姆尼的民意调查员尼尔·纽豪斯说,“如果我们能够在俄亥俄州赢得独立选手,我们就可以赢得这场比赛。”罗姆尼以7%的比分赢得了他们,但仍然失去了州和选举。相比之下,奥巴马总统聘请了机器学习专家Rayid Ghani作为其竞选活动的首席科学家,而Ghani则开始将政治史上最伟大的分析操作整合在一起。他们将所有选民信息整合到一个数据库中; 将它与社交网络,营销和其他来源的结合起来; 并着手为每个选民预测四件事:他或她支持奥巴马的可能性,出现在民意调查中,回应竞选活动的提醒,并根据有关特定问题的对话改变他们对选举的看法。根据这些选民模型,每天晚上该活动都进行了66,000次选举模拟,并使用结果指导其军队

 志愿者:谁打电话,哪些门可以敲门,说什么。在政治方面,如在商业和战争中,没有什么比看到你的对手做出你不理解的动作并且不知道该做什么更糟糕的事情,直到为时已晚。这就是罗姆尼战役中发生的事情。他们可以看到对方在特定城镇的特定有线电视台购买广告,但无法说明原因; 他们的水晶球太模糊了。最终,除了最准确的民意测验者预测,奥巴马赢得了除北卡罗来纳州之外的所有战场状态以及更大的利润。反过来,最准确的民意测验者就是那些使用最先进的预测技术的人(如Nate Silver); 他们没有奥巴马竞选准确,因为他们的资源较少。但它们比传统权威人士准确得多,其预测基于他们的专业知识。你可能会认为2012年的大选是侥幸的:大多数选举都不足以让机器学习成为决定性因素。但机器学习将导致更多选举在未来接近。在政治中,就像在一切事物中一样,学习就是军备竞赛。在前直接营销人员和数据挖掘者卡尔罗夫的时代,共和党人领先。

9780465065707-text.indd 17 7/16/15 12:44 PM

18 | 大师的算法

到2012年,他们落后了,但现在他们再次迎头赶上。我们不知道在下一个选举周期中谁会领先,但双方都将努力争取胜利。这意味着更好地了解选民并调整候选人的投球 - 甚至自己选择候选人。在选举周期期间和选举周期之间,这同样适用于整个政党平台:如果基于硬数据的详细选民模型表明一方当前的平台是失败的,那么该方将改变它。因此,除了重大事件之外,民意调查中候选人之间的差距将更小,更短。在其他条件相同的情况下,拥有更好选民模式的候选人将获胜,选民将更好地为其服务。政治家可以拥有的最伟大的人才之一是能够理解选民,无论是个人还是小团体,并直接与他们说话(或似乎)。在最近的记忆中,比尔克林顿是这方面的范例。机器学习的效果就像每个选民都有一个专门的比尔克林顿。这些mini-Clintons中的每一个都与真正的它相差甚远,但它们具有数字的优势; 甚至比尔克林顿也不知道美国的每一位选民都在想什么(尽管他肯定会喜欢)。学习算法是最终的零售政治家。当然,与公司一样,政治家可以将他们的机器学习知识用于不良用途以及良好用途。例如,他们可能会对不同的选民做出不一致的承诺。但选民,媒体和监督组织可以进行自己的数据挖掘,并揭露跨越界限的政治家。军备竞赛不仅在候选人之间,而且在民主进程的所有参与者之间。更大的结果是民主运作得更好,因为选民和政治家之间的沟通带宽大大增加。在高速互联网的这些日子里,你当选代表从你那里得到的信息量仍然是十九世纪:每两年一百左右,就像投票一样。这可以通过民意调查以及偶尔的电子邮件或市政厅会议来补充,但这仍然很少。大数据和机器学习改变了这个等式。在将来,提供选民 你当选代表从你那里获得的信息量仍然是十九世纪:每两年一百左右,就像投票一样。这可以通过民意调查以及偶尔的电子邮件或市政厅会议来补充,但这仍然很少。大数据和机器学习改变了这个等式。在将来,提供选民 你当选代表从你那里获得的信息量仍然是十九世纪:每两年一百左右,就像投票一样。这可以通过民意调查以及偶尔的电子邮件或市政厅会议来补充,但这仍然很少。大数据和机器学习改变了这个等式。在将来,提供选民

9780465065707-text.indd 18 7/16/15 12:44 PM

机器学习革命| 19

模型是准确的,民选官员将能够每天向选民询问他们想要的一千次并采取相应的行动 - 而不必纠缠实际的血肉之躯。

一个是陆地,两个如果通过网络空间的互联网输出,学习算法是国家的城墙。每天,外国袭击者都试图闯入五角大楼,国防承包商以及其他公司和政府机构的计算机。他们的战术不断变化; 对昨天的攻击起作用的是对今天的无能为力。编写代码以检测和阻止每一个代码与马其诺防线一样有效,而五角大楼的网络司令部也知道这一点。但是,如果攻击是同类中的第一次,并且之前没有任何可以学习的示例,那么机器学习会遇到问题。相反,学习者建立正常行为的模型,其中有很多,并标记异常。然后他们召集骑兵(又称系统管理员)。如果网络战已经过去,将军将是人类,但步兵将是算法。人类太慢而且太少,很快就会被一大批机器人淹没。我们需要自己的机器人军队,机器学习就像机器人学习西点。网络战是不对称战争的一个例子,一方不能与另一方的常规军事力量相匹敌,但仍然可以造成严重的破坏。少数恐怖主义分子只需要一箱砍刀就可以击倒双子塔并杀死成千上万的无辜者。当今美国安全面临的所有最大威胁都存在于非对称战争领域,并且有一种有效武器可以对抗所有这些:信息。如果敌人无法隐藏,他就无法生存。好消息是我们有大量的信息,这也是坏消息。国家安全局(NSA)因其无穷无尽的数据需求而臭名昭着:据估计,它每天都会拦截全球超过十亿个电话和其他通信。除了隐私问题,它没有数百万的工作人员窃听所有这些电话和电子邮件,甚至只是跟踪谁的

9780465065707-text.indd 19 7/16/15 12:44 PM

20 | 大师的算法

跟谁说话。绝大多数的电话是完全无辜的,编写一个程序来挑选少数可疑的电话是非常困难的。在过去,NSA使用了关键字匹配,但这很容易解决。(只需将轰炸称为“婚礼”,将炸弹称为“婚礼蛋糕”。)在二十一世纪,它是机器学习的一项工作。保密是美国国家安全局的商标,但其主管已向国会证实,采集电话日志已经制止了数十项恐怖主义威胁。恐怖分子可以在足球比赛中躲藏在人群中,但学习者可以挑选他们的脸。他们可以制造异国情调的炸弹,但学习者可以嗅出它们。学习者也可以做一些更微妙的事情:在个别看似无害的事件之间连接点,但加起来不祥的模式。这种方法可能会阻止9/11。还有一个变化:一旦学会了一个学习的程序,坏人就会改变他们的行为来打败它。这与自然世界形成鲜明对比,自然世界总是以同样的方式运作。解决方案是将机器学习与博弈论结合起来,这是我过去曾经做过的事情:不要只是学会打败你的对手现在做的事情; 学会嘲笑他可能会对你的学习者做些什么。正如博弈论所做的那样,考虑不同行为的成本和收益,也有助于在隐私和安全之间取得适当的平衡。在英国战役期间,英国皇家空军尽管人数众多,仍然阻止了德国空军。德国飞行员无法理解,无论他们走到哪里,他们总是跑进英国皇家空军。英国有一个秘密武器:雷达,它在进入英国领空之前就已经发现了德国飞机。机器学习就像拥有一个可以看到未来的雷达。不要仅仅对你对手的动作做出反应; 预测它们并抢占它们。这种离家较近的一个例子就是所谓的预测性警务。通过预测犯罪趋势并战略性地将巡逻重点放在他们最有可能需要的地方,以及采取其他预防措施,城市的警察部队可以有效地完成更大规模的工作。在许多方面,执法类似于非对称战争,许多相同的学习技术都适用,无论是在欺诈检测中,揭露犯罪网络,还是普通的老式警察。通过预测犯罪趋势并战略性地将巡逻重点放在他们最有可能需要的地方,以及采取其他预防措施,城市的警察部队可以有效地完成更大规模的工作。在许多方面,执法类似于非对称战争,许多相同的学习技术都适用,无论是在欺诈检测中,揭露犯罪网络,还是普通的老式警察。通过预测犯罪趋势并战略性地将巡逻重点放在他们最有可能需要的地方,以及采取其他预防措施,城市的警察部队可以有效地完成更大规模的工作。在许多方面,执法类似于非对称战争,许多相同的学习技术都适用,无论是在欺诈检测,揭露犯罪网络,还是普通的老式警务。

9780465065707-text.indd 20 7/16/15 12:44 PM

机器学习革命| 21

机器学习在战场上也扮演着越来越重要的角色。学习者可以帮助消除战争迷雾,通过侦察图像筛选,处理行动后报告,并为指挥官拼凑出情况图。学习为军事机器人的大脑提供动力,帮助他们保持自己的方位,适应地形,将敌方车辆与民用车辆区分开来,并在目标上居住。DARPA的AlphaDog为他们提供士兵装备。无人机可以借助学习算法自主飞行; 虽然它们仍然部分由人类飞行员控制,但是一个飞行员的趋势是监督越来越大的群体。在未来的军队中,学习者将大大超过士兵,挽救无数生命。

我们要去哪儿?技术趋势一直在变化。机器学习的不寻常之处在于,通过所有这些变化,通过繁荣与萧条,它不断增长。它的第一个重大打击是金融,预测股票起伏,从20世纪80年代末开始。下一波浪潮是挖掘企业数据库,这些数据库在20世纪90年代中期开始变得非常大,并且在直接营销,客户关系管理,信用评分和欺诈检测等领域。然后是网络和电子商务,自动个性化很快成为必需品。当互联网泡沫破灭暂时缩减时,网络搜索和广告投放的学习使用起飞了。无论好坏,9/11袭击使机器学习成为反恐战争的第一线。Web 2.0带来了大量新应用,从挖掘社交网络到弄清楚博主对你的产品的看法。与此同时,各种各样的科学家越来越多地转向大规模建模,分子生物学家和天文学家领导这项工作。房屋泡沫几乎没有登记; 其主要影响是欢迎华尔街向硅谷转移人才。2011年,“大数据”模因受到重创,使机器学习成为全球经济未来的中心。今天,机器似乎几乎没有人类努力的领域 其主要影响是欢迎华尔街向硅谷转移人才。2011年,“大数据”模因受到重创,使机器学习成为全球经济未来的中心。今天,机器似乎几乎没有人类努力的领域 其主要影响是欢迎华尔街向硅谷转移人才。2011年,“大数据”模因受到重创,使机器学习成为全球经济未来的中心。今天,机器似乎几乎没有人类努力的领域

9780465065707-text.indd 21 7/16/15 12:44 PM

22 | 大师的算法

学习,包括看似不太可能的候选人,如音乐,体育和品酒。尽管这种增长非常显着,但它只能预示未来的发展。尽管它有用,但目前在工业中工作的学习算法的生成实际上是非常有限的。当现在实验室中的算法进入前线时,比尔盖茨说机器学习的突破将值十个微软看起来似乎是保守的。如果真正让研究人员眼前一亮的想法结出硕果,那么机器学习不仅会带来文明的新时代,也会带来地球生命进化的新阶段。是什么让这成为可能?学习算法如何运作?他们目前不能做什么,下一代会是什么样子?机器学习革命将如何展开?你应该注意哪些机会和危险?这就是本书的内容 - 阅读

声明:景智AI网尊重行业规范,任何转载稿件皆标注作者和来源;景智AI网的原创文章,请转载时务必注明文章作者和"来源:景智AI网", 不尊重原创的行为将受到景智AI网的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至:mailto:813501038@qq.com

分享:
相关文章
最新文章