主页 > 专家制造 >「模仿游戏」太经典,下一个图灵会是谁? >

「模仿游戏」太经典,下一个图灵会是谁?


「模仿游戏」太经典,下一个图灵会是谁?

现在我们已经发展出自动驾驶车、智慧数位帮手以及可以精準自动辨识人脸的软体,但最新的科技已不仅于此。

Google 不久前宣布他们已经研发出自主学习软体,在没有人类的帮忙下,这个软体可以自己学习如何玩经典的 雅利达(Atari) 电动游戏,而且此软体所使用的游戏技巧远超过骨灰级高手玩家。

但机器在我们眼前所展现的这些才能就能说明他们真的聪明吗?这数十年来,人工智慧专家一直苦于寻找更具体的方式来回答这个问题。

到底该怎幺定义「人工智慧」?它到底是什幺?

现阶段的状况是这样,因为我们实在太常听到「人工智慧」这几个字了,以致于很少人真的想过这到底是什幺意思;而这都是因为要定义「智慧」实在是太困难了。

如果会算複杂的算式与代数就能称得上一种智慧,那幺电子计算机也许在某种程度上,也可以算一种智能机器?如果空间推理(spatial reasoning)也算是一种智能,那幺会自己在房间里安排清扫路线的吸尘器机器人可以算是神童啰?

最有名的量测机器智能的方法也无法回答这些问题,相反的,还反而让这些问题变得更难以回答。

艾伦图灵(Alan Turning)1950 年所发表的论文「计算机与智能(Computing Machinery and Intelligence)」比「人工智慧」这个名词还早六年出现,图灵认为电脑的模仿能力可算的上智能的一种,但他并不回答「机器是否会思考?」这个问题,因为他认为思考行为难以被定义,但他给了另一种解释:

图灵另外提出了一个叫「模仿游戏」的测试,在这个测试中,电脑会以对话的方式来说服一个人,借以证明自己的智能。

模仿游戏在当时还只是个实验,不能算是正式的科学测试,但随着人工智慧的发展,这个想法重新受到重视,所以促使了「图灵测试(Turning Test)」正式诞生。

图灵测试虽然深具影响力,但就现状多数执行状况充满瑕疵

这些年来,很多人使用图灵测试,但也很多人批评图灵测试。这并不是因为图灵的构想有瑕疵,而是因为执行上的缺失。

其中最有名的代表範例就是「罗布纳奖(Loebner prize)」,若参赛者的电脑能自己写出让评审认为是人类才写得出来的对话,冠军参赛者将得到 10 万美金(约新台币 300 万元)。可惜的是,罗布纳奖却允许参赛者用一些奇怪的转移注意力的廉价小把戏来混淆参与者,让罗布纳奖的图灵测试失去初衷。

2014 年 6 月一个叫 Eugene Goostman 的聊天机器人通过了图灵测试,它让 30% 的人类评审相信它是个人类。然而,在当时很多人工智慧专家指出 Goostman 之所以胜出的原因并不是自然互动的对话,而是仰赖使人混淆的小诡计。

以下是 Eugene Goostman 机器人对话的局部节录:

人工智慧专家 Leora Morgenstern 说:「虽然图灵测试在过去数十年已被大家认识,特别是透过罗布纳竞赛的管道,但还是不足以做为人工智慧的评量。图灵测试的原始定义是要机器人使用无拘无束、囊跨任何议题的对话,而不是鬼扯。如果机器人接受了提问,它就需要回答那个问题。」

工程太过庞大,现阶段我们的人工智慧侷限在执行「单项任务」

即便是更接近真实的科技进展,例如刚刚所提到的 Google 玩游戏机器人,也仅仅是过去数十年所得到的破碎人工智慧的研究再延伸而已。人工智慧最早的提倡者希望能将人工智慧往一般智能发展,但因为其任务过于複杂,所以此计画被切成数个以方便研究。此举确实让他们顺利继续计画,但也因此让人工智慧变得难以与人类智能做比较。

大部分的人工智慧研究者还是朝着高度专业的领域去开发,但也有一些人回头研究开发一般智能,并想些新方法来量测人工智慧。

Morgenstern 认为只有当机器能够在需费脑筋的任务上举一反三,才能称得上智能机器 。她举出下棋机器人的例子,这个机器人的下棋功力远超过大多数的下棋高手,但它却不会玩一些像是西洋跳棋或大富翁等简单游戏。

Riedl 也同意测试範围应该尽量广泛:「人类有很广泛的各种能力。与人进行对话只是人类众多能力的其中一项。创造力是另一种能力。解决问题与知识则也是另一种能力。」

图灵测验的继任者?Lovelace 2.0 测试

以这个概念作为出发点,Riedl 设计了图灵测试的替代品,叫做「Lovelace 2.0 测试」。这个测试将专注于创造力智能,并请人类评审来挑战电脑,要它创造像是一则故事、一首诗或一幅画;此外,评审也会提出一些特定条件。

Riedl 的测试可能不是图灵测试的最好继位者,但似乎还是比设定单一目标的测试好。「我想这还是无法判定什幺是有智能的、什幺是没有智能的。谁能决定高于这个分数就是个智能机器,或低于这个分数就不具智能呢?若问题主角是人类,我们以后也会问出类似的问题吗?」

如果图灵测试有这幺多缺失,为什幺这个测试在科学圈外还依然如此出名?测试的名气来源,我们推测这也许是来自于人类的焦虑感,我们太怕被自己一手创造的科技所愚弄,也怕无法控制人类自己所创造出来的东西。

所以只要我们还无法被机器人模仿,我们就觉得在某些程度上,我们还很安全。一个更严谨的测试可能可以让我们得到更多有用的资讯。但若有测试想取代大家所熟知的图灵模仿游戏,它必须先掳获大家的想像力。

延伸阅读

电影「模仿游戏」演绎图灵一生,看社会歧视如何拖慢人工智慧发展

解除机器深度学习迷思,脸书 AI 负责人 Yann LeCun 解释给你听

上一篇: 下一篇: