您正在使用IE低版浏览器,为了您的FUTUREAI账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
FUTUREAI 智能新品
发私信给FUTUREAI
发送

《主算法:寻求终极学习机将如何重塑我们的世界》第三章第二节

本文作者:FUTUREAI 2018-09-16 16:11
导语:“天下没有免费的午餐”定理休谟提出爆炸性问题之后的250年,大卫·沃尔珀特(David Wolpert)赋予了这个问题优雅的数学形式。沃尔珀特原来是一名物理学家,后来成为机器学习者。他

“天下没有免费的午餐”定理 休谟提出爆炸性问题之后的250年,大卫·沃 尔珀特(David Wolpert)赋予了这个问题优雅的 数学形式。沃尔珀特原来是一名物理学家,后来 成为机器学习者。他的研究结果被人们称为“天 下没有免费的午餐”定理,规定“怎样才算是好的 学习算法”。这个规定要求很低:没有哪个学习 算法可以比得上随意猜测。好吧,那我们就不用 找终极算法,可以回家了:终极算法只是用抛硬 币来做决定的算法。说真的,如果没有哪个学习 算法可以比抛硬币更管用,那会怎样?而且如果 真的是那样,为什么这个世界——从垃圾邮件过 滤(随时都在进行)到自动驾驶汽车——到处都 是非常成功的学习算法呢? “天下没有免费的午餐”这个定理和帕斯卡尔 赌注失败的原因非常相似。帕斯卡尔的《思想 录》于1669年出版,他在书中提到我们应该相信 基督教中的神,因为如果神存在,他就会给我们 永生,而如果他不存在,我们的损失也很小。这 在当时是非常复杂的论点,但正如狄德罗指出的 那样,伊玛目也可以同样的理由让人们来相信真 主安拉的存在。如果你选错了要信的神,代价就 是永世在地狱。总而言之,在考虑各种各样可能 相信的神时,选择特定的神来信仰,还不如选择 其他的神。因为,有说“这样做”的神,也会有 说“不,那样做”的神。你也许应该把神忘了,好 好享受没有宗教限制的生活。 用“学习算法”来代替“神”,用“准确的预 测”来代替“永生”,你就遵守“天下没有免费的午 餐”这个定理了。选择你最喜欢的学习算法(在 本书中你会看到很多算法)。如果存在学习算法 比随机猜测好用的领域,我(一个喜欢唱反调的 人)会构建一个学习算法没有随机猜测好用的领 域。我要做的就是把所有“未知”例子的标签翻过 来。因为“经过观察”的标签表明,你的学习算法 绝无可能区分世界和反物质世界。在这两个世界 中的平均表现,学习算法和随机猜测一样好用。 因此,在所有可能的世界中,把每个世界与其反 物质世界配对,你的学习算法的作用就和抛硬币 的作用一样。 虽然如此,别马上就对机器学习或终极算法 失望。我们不关心所有可能存在的世界,而只关 心我们生存的这个世界。如果我们对这个世界有 所了解,然后把了解的知识输入我们的学习算 法,那么现在和随机猜测相比,学习算法就可以 发挥优势了。休谟可能会回应说,知识本身必须 由归纳得来,152712458523074240.jpg因此知识也是有问题的。没错,虽 然知识是通过进化编入我们的大脑的,但我们不 得不冒这个险。我们也可以这样问,有没有小部 分毋庸置疑、非常基础的宝贵知识,让我们可以 在其基础上进行所有归纳(有点像笛卡儿的“我 思故我在”,虽然很难明白,如何将这句话输入 学习算法中)。我觉得回答是肯定的,在第九 章,我们就会知道那些宝贵的知识是什么。 同时,“天下没有免费的午餐”这个实际的结 论表明,不靠知识进行学习,这样的事不存在。 只有数字也不够。从零开始只会让你一无所获。 机器学习就像知识泵,我们可以用它来从数据中 提取大量的知识,但首先我们得先对泵进行预 设。 数学家认为机器学习这个问题是一个不适定 问题(ill–posed problem):这个问题没有唯一 解。下面是一个简单的不适定问题:哪两个数相 加的得数是1000?假设这两个数都是正数,答案 就有500种……1和999,2和998等等。解决不适 定问题的唯一办法就是引入附加假设。如果我告 诉你,第二个数是第一个数的三倍,那么答案就 是250和750。 汤姆·米切尔(Tom Mitchell)是典型的符号 学者,称机器学习体现“无偏见学习的无用性”。 在日常生活中,“偏见”是一个贬义词:预设观念 不太好。但在机器学习中,预设观念是必不可少 的;没有这些观念,你就无法进行学习。实际 上,预设观念对人类认知来说,也是必不可少 的,这些观念是“直线布入”人脑的。对于它们, 我们也觉得是理所当然的。超出那些观念的偏见 才值得质疑。 亚里士多德曾经说过,在知识领域,没有什 么东西不是首先凭借感觉来形成的。莱布尼茨又 加了一句,“除了知识本身”。人类的大脑不是一 张白纸,因为它不是一块石板。石板是被动的, 你可以在上面写东西,但大脑可以主动处理它接 收到的东西。记忆就是大脑用来写东西的石板, 而且记忆不是一开始就是空白的。另一方面,计 算机在你给它编程之前,就是一张白纸;在用计 算机做事之前,这个积极的过程需写入记忆。我 们的目标是找到最简单的、我们能编写的程序, 这样写好的程序就可以无限制地通过阅读数据来 自行编程,直到该程序掌握所有能掌握的知识。 机器学习不可避免地含有投机的因素。在 《警探哈里》(第一集)中,克林特·伊斯特伍德 追逐一名银行抢劫犯,同时不断向他开枪。最 后,抢劫犯躺在一把装有子弹的枪旁边,不确定 要不要把它拿起来。哈里开了6枪还是只开了5 枪?哈里同情地说(可以这么说):“你得问自 己一个问题:‘我足够走运吗?’你真的走运吗, 小子?”这也是机器学习算法每天运作时必须问 自己的问题:“今天我幸运吗?”就像进化的过程 一样,机器学习不是时时刻刻都知道自己是否可 以准确无误地运行。实际上,误差是常有的事, 并不意外。但没关系,因为我们放弃误差的部 分,主要靠没有误差的部分,而计算结果才是最 重要的。我们一旦掌握新的知识,基于前面的步 骤,就可以得出更多的知识。唯一的问题就是, 从哪里开始。 对知识泵进行预设 在《自然哲学的数学原理》一书及三大运动 定律中,牛顿阐述了推理的四条法则。虽然这些 法则没有那些物理定律那么著名,但可以说很重 要。其中第三条是关键法则,我们可以这样表 述: 我们见过的所有真实的东西,在宇宙中也是 真实的。 可以毫不夸张地说,这句听起来无伤大雅的 话就是牛顿革命以及现代科学的核心。开普勒定 律适用于6个实体:那个年代太阳系中已知的6颗 行星。牛顿定律适用于宇宙中的每一个微粒。这 两个定律之间的共性如此之大,让人感到吃惊, 而这也是牛顿法则的直接结果。这个法则本身就 是拥有非凡动力的知识泵。没有这个法则,也就 没有什么自然法则,有的也只是永远无法完整 的、小规律的集合体。 牛顿法则是机器学习的第一个不成文规则。 我们归纳自己能力范围内、应用最广泛的规则, 只有在数据的迫使下,才缩小规则的应用范围。 乍一看,这看起来可能过于自信甚至近乎荒谬, 但这种做法已经为科学服务了300余年。当然也 可以想象出一个变化无常的宇宙,在那里牛顿法 则不起作用,但那并不是我们的宇宙。 然而,牛顿法则仅仅是第一步。还得弄明白 我们见到的哪些是真实的——如何从原始数据中 找出规律。标准的解决方法就是假设我们知道真 理的形式,而算法的任务就是把这个形式具体 化。例如,在之前提到的约会问题中,你可以假 设你朋友的回复由单个因素来决定。在这种情况 下,算法就只包括看看每个已知的因素(时间、 约会方式、天气、晚间电视节目),确定该因素 是否每次都能准确预测她的回答。可问题就在 于,每个因素都无法预测她的回答!你打赌了, 然后输了。所以你把假设放宽了一点。如果你朋 友的回答是由两个因素一起决定的呢?总共四个 因素,每个因素有两种可能的值,那么总共有24 种可能(总共有6对因素组合,即12乘以因素的 两种可能)。数字太多,我们遇到尴尬:两个因 素的四种组合准确预测了结果!接下来怎么办? 如果你觉得运气还行,可以选其中的一种,然后 祈祷最好的结果。但更明智的选择是采取民主的 做法:对每个选项进行选择,然后选最后赢的预 测。 如果所有两个因素组合的预测都失败了,你 可以尝试任意个数因素的组合,机器学习者和心 理学家称之为“合取概念”(conjunctive concept)。字典对词的定义就属于合取概念:椅 子是有靠背、若干条腿的坐具。把任意一个描述 去掉,就不再是椅子。托尔斯泰在写《安娜·卡列 尼娜》的开篇时,出现在他脑海里的就是合取概 念:“所有幸福的家庭都是相似的,每个不幸的 家庭各有各的不幸。”对于个人来说,也是这样 的。为了感到幸福,你需要健康、爱、朋友、 钱、你喜欢的工作等。把这些东西的任意一个拿 走,痛苦也会随之而来。 在机器学习中,概念性的例子成为正面例 子,而与概念例子相反的则是负面例子。如果你 在尝试通过图片来认出猫,那么猫的图片就是正 面例子,而狗的图片则是负面例子。如果你对世 界文学中描述的家庭进行汇总,并编成数据库, 那么卡列尼娜一家就是幸福家庭的负面例子,而 且正面例子寥寥无几。 首先做有条件的假设,如果这样无法解释数 据,再放松假设的条件,这就是典型的机器学 习。这个过程通常由算法自行进行,不需要你的 帮助。首先,算法会尝试所有单一因素,然后尝 试所有两个因素的组合,之后就是所有三个因素 的组合等。但现在我们遇到一个问题:合取概念 太多,没有足够的时间对其逐个尝试。 约会的例子有点欺骗性,因为它太小(4个 变量,4个例子)。但假设你提供在线约会服 务,你就需要知道要对哪些人进行配对。如果你 的每个会员都填写了一份问卷,问卷包含50 个“是或否”的问题,这样就有100种特点,这100 种特点涵盖了每对可能配对成功的情侣的特点, 每对情侣中的一方都有50个特点。这些情侣出去 约会之后,会汇报结果,在此基础上,你能找 到“佳偶”这个定义的合取概念吗?总共有3100种 可能的定义(每个问题有三种选择,分别 为“是”、“否”、“与该品质无关”)。即使由世界 上最快速的计算机来做这项工作,这些情侣也会 老得去世了(你的公司也破产了)。等你计算出 来,除非你走运,可以找出很短的一条关于“佳 偶”的定义。规则太多,而时间太少,我们得做 点更精明的事。 这里有一种方法:暂且假设每个配对都合 适,然后排除所有不含有某品质的搭配,对每种 品质重复同样的做法,然后选择那个排除了最多 不当搭配和最少适当搭配的选项。现在你的定义 看起来就像“只有他开朗,这对才合适”。现在反 过来试着把其他品质加进去,然后选择那个排除 了剩下最多的不当搭配和剩下最少的适当搭配的 选项。现在的定义可能是“只有他和她都开朗, 这对才合适”。然后试着往那两个特点里加入第 三个品质,以此类推。一旦排除了所有不合适的 搭配,你就成功了:就有了这个概念的定义,这 个概念排除了所有的正面例子和所有的负面例 子。例如,“每对中的两个人都开朗,这对才合 适,他爱狗,而她不爱猫”。现在你可以丢掉所 有数据,然后只把这个定义留下,因为这个定义 概括了所有和你的目标相关的东西。这个算法保 证能在合理的时间内完成运算,而这也是我们在 本书中见过的第一个真实的学习算法。

声明:景智AI网尊重行业规范,任何转载稿件皆标注作者和来源;景智AI网的原创文章,请转载时务必注明文章作者和"来源:景智AI网", 不尊重原创的行为将受到景智AI网的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至:mailto:813501038@qq.com

分享:
相关文章
最新文章