您正在使用IE低版浏览器,为了您的FUTUREAI账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
FUTUREAI 智能新品
发私信给FUTUREAI
发送

主算法:寻求终极学习机将如何重塑我们的世界第三章

本文作者:FUTUREAI 2018-09-16 16:06
导语:你是理性主义者还是经验主义者?理性主义者认为,感官会欺骗人,而逻辑推理是通往知识的唯一可靠的道路。经验主义者认为所有推理都是不可靠的,知识必须来源于观察及实验。法

你是理性主义者还是经验主义者? 理性主义者认为,感官会欺骗人,而逻辑推 理是通往知识的唯一可靠的道路。经验主义者认 为所有推理都是不可靠的,知识必须来源于观察 及实验。法国人是理性主义者,盎格鲁–撒克逊 人(法国人就这样称呼他们)是经验主义者。评 论员、律师、数学家是理性主义者,记者、医 生、科学家是经验主义者。《女作家与谋杀案》 是关于犯罪的电视剧,属于理性主义,《犯罪现 场调查》则属于经验主义。在计算机科学领域, 理论家和知识工程师属于理性主义者,黑客和计 算机学习者属于经验主义者。 理性主义者喜欢在迈出第一步前,就提前规 划好一切。经验主义者喜欢尝试新事物,然后看 看结果会怎样。我不知道理性主义和经验主义是 否都有专门的基因,但我看了看自己的计算机科 学家同事,经过反复观察,发现理性主义者和经 验主义者的个性特点几乎一样:有些人以理性主 义为核心,而且绝不会改变;其他人则是彻底的 经验主义者,未来也不会改变。这两方可以彼此 进行对话,而且有时候还可以利用彼此的定论, 但他们对彼此了解仅限这么多。实际上,每方都 会认为对方做什么并不重要,而且也没什么意 思。 自从智人的黎明到来,理性主义和经验主义 也许就已经出现。在去狩猎之前,原始人鲍勃会 花很长时间坐在洞里,思考要去哪里打猎。同 时,穴居女人爱丽丝正在外面系统地调查领土。 这两种方法我们都还在使用,保守地说这两种方 法没有哪个更好。你也许会认为,机器学习就是 经验主义最终胜利的产物,但我们很快会看到, 真理总是比我们想的更加微妙。 理性主义与经验主义是哲学家最热衷讨论的 问题。柏拉图是早期的理性主义者,而亚里士多 德是早期的经验主义者。关于这个问题的辩论, 真正开始于启蒙运动时期,每方有三位伟大的思 想家:笛卡儿、斯宾诺莎、莱布尼茨是理性主义 的代表,洛克、贝克莱、休谟则是经验主义的代 表。因为相信自己的推理能力,理性主义者编造 出宇宙理论(委婉地说),这经不住时间的考 验,但他们也创造了基本的数学知识,比如微积 分和解析几何。经验主义总体来说更为实际,而 且它们随处可见,从科学方法到美国宪法都有它 们的身影。 大卫·休谟是最伟大的经验主义者,以及有史 以来最伟大、以英语为母语的哲学家。诸如亚当· 斯密、查尔斯·达尔文之类的思想家都深受其影 响。你也可以说他是符号学派的守护神。他1711 年生于苏格兰,大半辈子都生活在18世纪的爱丁 堡(一个思想活跃的繁荣城市)。他虽然性情温 和,却是一个严格的怀疑论者,花了大半辈子来 解开他那个时代的难题。为了得出符合逻辑的论 断,休谟借用了洛克开创的经验主义思想,并提 出一个问题,这个问题在所有领域的知识中就像 一把达摩克利斯之剑,从最琐碎的领域到最先进 的领域,都是一个时刻存在的问题:在概括我们 见过的东西以及没见过的东西时,怎样才能做到 合理?从某种意义上说,每种学习算法都在尝试 回答这个问题。 休谟的问题也正是我们开启寻找终极算法之 旅的开始。首先,我们会通过日常生活中的例子 来解释这个问题,并通过现在人人皆知的“天下 没有免费的午餐”这个定理来体现这个问题。然 后我们会看到符号学者对休谟的回答。这把我们 引向机器学习中最重要的问题:不真实存在的过 拟合或幻觉模式。我们会看到符号学者如何解决 它。机器学习本质上是一种炼金术,在魔法石的 辅助下把数据变成知识。对于符号学者来说,魔 法石就是知识。在接下来的4章中,我们还会研 究其他学派的“炼金术”。 约不约 你有一个很喜欢的朋友,想找她出来约会。 如果遭到拒绝,你会很难过,但是如果你想知道 她会不会答应,也只能去问她。现在是周五傍 晚,你拿着手机坐在那里考虑要不要给她打电 话。你记得上次你问过她,但她拒绝了。但是为 什么上次的前两次你约她,她都答应了,而这两 次的前一次她却拒绝了?可能有时候只是她不想 出门?也可能她喜欢泡吧而不喜欢吃饭?为了理 出头绪,你先放下了手机,写下了前几次的情况 (见表3–1)。 表3–1 约会记录 那么答案是什么?答应还是不答应?有没有 什么模型可以区分肯定和否定?更重要的是,这 个模型会如何决定今天的情况? 很明显,没有哪个因素可以单独准确预测出 答案:有的周末她喜欢出去约会,而有的周末她 却不想出去;有时她喜欢去泡吧,而有时她又不 喜欢……把所有因素综合起来会怎样?可能周末 她喜欢去泡吧?并不是,第四次约会就排除了这 种情况,或者可能她只喜欢天气暖和的周末晚上 出去约会?是的!这个说法符合之前的情况!看 了看外面寒冷的天气,好像今晚不合适。可是等 一下!电视不好看的晚上她会不会想去泡吧?好 像这也符合前几次的情况,也就是说今天可以约 会!快,快点打给她,不然就迟了。再等等。你 怎么知道这是对的模型?你已经找到两种情况和 之前的情况相符,但这两次的预测都是否定。细 想一下,如果她只想天气好的时候去泡吧,那怎 么办?或者她只是在没什么电视好看时的周末才 会出去?或者…… 这时,你灰心地把画好的表揉成一团,丢到 垃圾桶里。没有办法知道她会不会答应!你能做 什么?休谟的灵魂伤心地在你的肩膀上点头。你 没有任何依据选择这个而不是另外一个。对 于“她会说什么”这个问题,回答“是”或“否”的可 能性都一样。时钟嘀嗒作响,最后你准备抛硬币 来决定。 你不是唯一身处窘境的人——我们都是。我 们才开始寻找终极算法之旅,似乎就已经遇到无 法克服的困难了。有没有什么办法可以从过去的 经历中掌握规律,然后信心满满地运用到未来的 事情中?如果没有,那么机器学习不就是一个没 有希望的事业了吗?就此而言,所有学科甚至所 有人类的知识,不就随时可能会被推翻吗? 这种情况不是大数据能解决的问题。你可以 像卡萨诺瓦那样放荡,有无数个可以约会数几千 次的女人,但你的主数据库还是不知道这次这个 女人会说什么。即使今天和前几次她答应约会的 情况一样(都是周末、一样的约会方式、一样的 天气、一样的电视节目),这也并不意味着这次 她会答应你出去约会。正如你所知道的那样,她 的回答由一些你不知道或者无法知道的原因决 定。也或者她的回答没有什么别的原因,只是随 口回答,而你也只是白费力气地从之前的情况中 找规律。 自休谟提出归纳问题,哲学家就已经对此进 行辩论,但还没有人能给出一个满意的答案。伯 特兰·罗素喜欢用“归纳主义者火鸡”这个故事来阐 述这个问题。故事的主人公是一只火鸡,它来到 农场的第一个早晨,主人在早上9点喂它们,但 作为实实在在的归纳法优越论者,它不想过早下 结论:主人每天都9点喂它们。首先它在不同情 况下观察了很多天,收集了许多观察数据。主人 连续多天都是9点喂它们,最终它得出结论,认 为主人每天早上9点喂火鸡,那么主人一直会在 早上9点给它喂食。接下来是平安夜那天的早 晨,主人没有喂它,因为它被宰了。 如果休谟问题仅仅是一个我们可以忽略的哲 学小难题,就太好了,但事实并非如此。例如, 谷歌的业务就是在你往搜索框输入一些关键字 时,猜测你在寻找哪些网页。过去搜索查询的人 所输入关键字的大量记录,以及他们点击的、相 应查询结果页面的链接,都是谷歌的重要资产。 如果某个人输入一组关键字,而这些关键字却不 在记录里面,你该怎么办?即便关键字在记录 中,你怎么能肯定当前用户想要的搜索结果和之 前的一样? 如果我们只是假设未来和昨天一样,那么会 怎样呢?这当然是一个有风险的假设(这对归纳 主义者火鸡就不会奏效)。另外,没有这样的假 设,所有知识将不复存在,生活也是如此。虽然 有很多不确定性,但我们还是宁可活下来。遗憾 的是,虽然有那样的假设,但我们还是尚未走出 困境。这个假设还得应付这些“微不足道的”例 子:如果我是一名医生,患者B和患者A有一模一 样的症状,我假设两人的诊断结果都一样。但如 果患者B的症状和其他人都不一样,我就仍然不 知道如何做诊断。这属于机器学习问题:将某结 果推广到我们没有见过的事件中。 也许这也不是什么大问题?有了足够的数 据,大多数事件不就变得“微不足道”了吗?不是 的。我们在前面的章节中了解到,为什么记忆不 能当作通用学习算法,我们现在可以用更量化的 方式来解释这个问题。假设你现在有一个数据 库,含有1万亿条记录,每条记录有1000个布尔 字段(也就是说,每个字段回答一个是或否的问 题)。这个数据库真的好大。你认为有多少种可 能的事件?往下读之前好好猜一猜。每个问题可 能的答案有两个,两个问题就是2乘以2(是— 是、是—否、否—是、否—否),三个问题就是 2的三次方(2×2×2=2 3 ),如果是1000个问题, 就是2的1000次方(2 1000 )。你的数据库中1万亿 条记录,可能性就是分子是1、分母是无限大的 数乘以1%,然后再乘以2 1000 ,“分子是1、分母 是无限大的数”指的是“小数点前是0,小数点后 是286个0,后面跟着1的小数”。结果就是:无论 有多少数据——多少兆、多少千兆、多少千兆 兆、多少泽或多少尧字节,你基本上什么也看不 到。你要决定的新事件已经存在于数据库中,而 数据库非常大,这件事发生的概率低到可以忽 略,所以如果不进行一般化,对你就不会有任何 帮助。 如果这些听起来有点抽象,那么假设你是一 个邮件服务提供商,要将每封收到的邮件进行分 类,分为垃圾邮件或非垃圾邮件。你也许有一个 包含1万亿封过去邮件的数据库,而且每封邮件 都已经被分为垃圾邮件或非垃圾邮件,但那样做 并不会让你省事,因为每封新邮件和之前邮件一 模一样的概率几乎是0。你没有选择,只能以大 概的概率来区分垃圾邮件和非垃圾邮件,而根据 休谟的观点,这根本做不到1528089473178871838.jpg

声明:景智AI网尊重行业规范,任何转载稿件皆标注作者和来源;景智AI网的原创文章,请转载时务必注明文章作者和"来源:景智AI网", 不尊重原创的行为将受到景智AI网的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至:mailto:813501038@qq.com

分享:
相关文章
最新文章