Google 李飞飞亲自推荐好文!你不可不知的机器学习十大盲

2020-06-07 阅读245 点赞188

Google 李飞飞亲自推荐好文!你不可不知的机器学习十大盲

「机器快速,準确但有点『笨』,而人缓慢,不精准却充满创造力!」

                                                                              —-李飞飞

在柯洁和阿尔法狗大战热忱之时,李飞飞在推特推荐了一篇文章说明机器学习的十大误区,并说:机器快速,準确但有点「笨」,而人缓慢,不精准却充满创造力!

Google 李飞飞亲自推荐好文!你不可不知的机器学习十大盲

机器学习过去往往发生在幕后:亚马逊通过挖掘你的点击和购买记录来给你推荐新物品;谷歌通过挖掘你的搜索来投放广告;脸书通过挖掘你的社交网路来选择给你展示不同的新鲜事。然而机器学习现在已然登上了头版头条,成为了被热烈讨论的话题!机器学习演算法可以驾驶车辆,可以翻译演讲,赢得危险边缘游戏(哥伦比亚广播公司益智问答游戏节目)!我们不由自主会问:「他们到底能做什幺不能做到什幺?他们会是隐私、工作甚至是人类消失的开始呢?」大家对机器学习的关注固然很好,因为机器学习将会是塑造未来的主要推动力,但是这其中又有太多关于机器学习的错误观念,我接下去要做的第一步就是纠正这些错误的观念。让我们快速流览一下那些错误观念。

机器学习只是在总结资料

事实上, 机器学习的主要目的是预测未知 。知道你过去看了什幺电影只是一种推测你之后想看什幺电影的方式;你的信用记录预示了你会否按时付帐单。而对于机器人科学家,学习演算法提出假设,改进假设,而只有假设提出的预测成真时才会相信这些假设。学习演算法并不比科学家聪明,但却有比科学家百万倍快速的计算能力。

学习演算法只是发现了事件之间的关联

这是你对媒体口中机器学习的第一印象。一个非常着名的例子就是,谷歌搜索中关于「流感」搜索的增加是流感流行的迹象。当然这没有错,但是大多学习演算法可以发现更丰富的资讯,例如如果痣有着奇怪的形状和颜色,并且在逐渐变大,那幺这可能会是皮肤癌。

机器学习只能发现相关性,而无法发现因果关係

实际上, 最流行的机器学习演算法之一就是由尝试不同的行为之后观察行为的结果 所组成的。比方说,电商网站可以尝试不同呈现商品的方式,然后选择其中能带来最高购买量的方式。你可能不经意间已经参与了成千次这种实验。因果关係甚至可以在一些无法进行实验只能通过电脑处理之前记录的资料的情形下被发现。

机器学习无法预测未见过的事件,也称作「黑天鹅」效应

如果某些事之前从未发生过,那幺预测它发生的概率必然为零,不然呢?相反,机器学习很擅长高精度地预测稀有事件。如果 A 是 B 发生的原因,B 又是 C 发生的原因,那幺 A 可能导致 C 发生,即便我们从未见过其发生过。每一天,垃圾邮件筛检程式可以标记出刚刚捏造而成的垃圾邮件(之前未出现过)。像 2008 年发生的房地产危机实际上是被广泛预测到了的,只不过不是那时大多数银行所使用的是有缺陷的模型而已。

你有越多的资料,你越可能得到错误的模式

试想,国家安全局查看了越多的电话记录,越可能把一个无辜的人标记为恐怖分子,因为他的通话记录正好匹配了恐怖分子检测的机制。 对同一个体挖掘越多的属性是会增加误判的可能性 ,然而机器学习专家们是很善于把这种可能性降到最低的。另一方面,挖掘不同个体的同种属性可以降低误判风险,因为从中学习的规则有更多的依据。而且有些学习演算法可以在不同个体之间找到某些模式,从而使检测机制更加稳定。也许某人拍摄纽约市政府的视频并不可疑,同时另外一个大量购买硝酸铵的人也不可疑;然而如果这两个人之间有电话联繫,也许 FBI 就应该调查一下以保证他们之间不是在密谋爆炸袭击了。

机器学习无视现存的知识

许多被机器学习渗透的领域里的专家质疑像机器学习这样不需掌握任何领域知识的方法。真正的知识是一个长期推理与实验的过程中累积下的,你无法靠在一个资料库里跑一个原型演算法而学到。但不是所有的学习演算法都不使用领域知识;其中一些就会用资料去精炼已有的繁杂知识,使其变得十分精巧,进而呈现为电脑所能理解的形式。

电脑习得的模型人类无法理解

这自然会是一个引起人们关心的原因。如果一个学习演算法是黑箱模型,那幺我们怎幺能相信它给出的推荐呢?某些模型却是非常难理解,比如给机器学习带来最大成功的深度神经网路(从 youtube 的视频里识别猫咪)。但其他大多模型都完全可以被理解,比如我们之前提到的诊断皮肤癌用到的方法。

以上所有的误解都是负向的,它们认为机器学习的能力比实际上更有限。以下的则是过于正向的错误观念:

越简单的模型越準确

这个观念有时来自「奥卡姆剃刀」,但只说了我们应该倾向于更简单的模型却没有给出原因。简单模型更可取是因为他们更易于解释和推理。但是有时与资料相容的简单假设比複杂模型更不準确。一些强有力的学习演算法输出模型看起来毫无理由的複杂,甚至还会继续给複杂模型添加元件即便他们已经完美拟合了资料,但这也是它们比简单模型更準确的原因。

机器学习发现的模式可以直接被採纳

如果一个学习演算法输出了一条诊断皮肤癌的规则,并且极其準确(任何符合这个条件的痣都是皮肤癌),这也不意味着你应该相信它。对于资料微小的改动都会导致演算法输出同等精确却非常不同的规则。只有那些对于资料中随机扰动稳定的规则可以被相信,而不仅仅是作为预测的方式。

机器学习不久后会变成超级智慧

从每天人工智慧发展的新闻来看,非常容易有一种感觉,电脑已经接近于像我们一样可以看,说话,推理;不久后就会把我们抛弃在尘土里了。我们在人工智慧的第一个五十年走了条长路,机器学习是其近来成功的主要原因,然而我们还有很长的路要走。电脑可以非常好的完成特定的任务,却依然没有通用智慧,也还没有人知道怎幺去教它们。

好了,到这你已经知道机器学习有时比我们想像的更强力,有时却不那幺好。如何使我们更好运用机器学习也取决于我们!我们要对它们有更準确的理解!