1、王元卓中国科学院计算技术研究所李子健中国科学院计算技术研究所陆 源竞技世界(北京)网络技术有限公司在影片钢铁侠3中,女主角小辣椒无法分辨出托尼是否在战甲中,在跟战甲对话了很久后才发现托尼并不在,还为此生了气。同样,如图1所示,在影片蜘蛛侠:英雄归来中,蜘蛛侠帕克也没能看出托尼是否在战甲中。那么,当人们无法分辨出人工智能与真实人类的区别时,是否能够认为人工智能实现了真正的智能呢?人工智能之父图灵给出了他的看法。图 1 蜘蛛侠:英雄归来中的图灵测试片段1950年,英国数学家图灵在计算机器与智能中提出了“图灵测试”。所谓的“图灵测试”,就是在不接触对方的情况下,通过特殊方式与对方进行一系列问答。如果
2、在相当长的时间内,无法根据问题和回答判断对方是人还是计算机,就可以认为这个计算机具有人类的思维能力。1952年,图灵在一次BBC广播中提出了一项具体的图灵测试方法。这个方法通过实际测试判断机器是否具有人类智能。这项测试将人与机器分隔开,通过一个特殊的装置(如键盘),让人们向机器多次随意提问。如果有超过30%的人无法确定测试对象是人还是机器,那么这台机器就通过了测试,被认为具有人类智能。从这以后,30%成为图灵测试的及格线,虽然30%的及格标准要求不高,但直到今天,这一测试仍被作为检验人工智能的标准之一。那么,真的有计算机通过图灵测试了吗?2014年6月7日,在英国皇家学会举行的“2014图灵测
3、试大学术科普漫威电影中的图灵测试Turing test in Marvel Cinematic Universe会”上,俄罗斯科学家开发的聊天程序“尤金古斯特曼”冒充一个13岁男孩,成功骗过了三分之一的评委。按照图灵当初的定义,它通过了图灵测试,成为有史以来首台通过图灵测试的计算机。既然已经有一台计算机通过了图灵测试,那么是否代表它具有了真正意义上的人工智能?遗憾的是,即使一个计算机通过了图灵测试,也不能代表它真的具有人工智能。图灵测试的核心准则是“计算机在智力行为上表现得和人无法区分”,可是在实际测试中,程序设计者们会竭尽所能地找规则的漏洞,让计算机在对话中骗过人类,而非计算机真正拥有了智能
4、。比如,在“2014图灵测试大会”上,计算机科学家斯科特 亚伦森和聊天程序“尤金 古斯特曼”的对话测试中就出现了这样一段对话。斯科特问:“一头骆驼有几条腿?”尤金回答:“2到4条吧,或许是3 条?顺便问一句,我不知道你的专业是什么,或者刚刚我漏看了?”从这次对话中,我们可以看出“尤金 古斯特曼”无法回答“骆驼有几条腿”这样的常识性问题。它在对话中没有直接给出答案,而是通过询问测试者的专业来转移话题,这就是人们常说的“顾左右而言他”。网友们总结出通过现今图灵测试的三字真言:“呆、萌、傻”。简单地说,就是伪装成一个来自偏远地区没怎么接受过教育的小孩子,降低测试者对其智能水平和知识积累的要求,从而提
5、高通过测试的可能性。“尤金古斯特曼”将自己伪装成一个来自较小城市、非英语母语的13岁男孩。这样就可以解释自己为什么不知道骆驼有几条腿,也为自己不流利的回答找好了理由。另外,如图2所示,计算机也会使用一些特定的语言技巧来迷惑提问者。一方面,计算机程序可以选择用背景知识来回避问题;另一方面,计算机会故意不好好回答问题,避免测试者发现回答套路。比如测试者问:谁送了谁战甲?计算机程序可以回答:这套战甲可真不错。或者,计算机程序可以有意或无意地保持沉默,从而混淆测试者的判断。如果测试者继续追问:谁送了谁战甲?计算机可以回答:你都问了第三遍了。图 2 图灵测试讲解图(选自科幻电影中的科学:科学家奶爸的 A
6、I手绘)现在流行的微软小冰、苹果Siri、小度和小爱同学等人工智能产品都运用了类似的语言技巧,似乎它们基本能与人沟通了,但实际上它们离真正的智能还有一定距离。实际上,今天所有的实用人工智能产品都只能实现弱人工智能。简单来说,它们只能通过凑答案的方式来解决问题:提前准备好一大堆标注好的数据,然后用大量机器进行快速检索,直到凑出个差不多的答案。至于问题的内在逻辑和简约规律,今天的人工智能无心顾及,也无力解读。既然计算机程序会想尽办法骗过人类,那么人类可以问哪些问题来难倒计算机程序?比如我们知道“托尼和小辣椒一起与几套战甲合影,但他们看起来像是玩具收藏家”,可以问程序,像玩具收藏家的是谁?又或者我们
7、知道“蜘蛛侠对钢铁侠表示感谢,是因为送了他一套战甲”,可以问程序,谁送给谁战衣?像这种依据“代词回指”语言现象设计的问题,小孩都可以轻易说出答案,但程序很难给出正确的回答。这是因为人类日常对话中经常包含诸多常识,应答者要对人类语言的细微之处和人类社会交际本质有足够深刻的理解,而这些目前仍很难用计算机程序来描述。图灵测试的主要目的是区分人和机器,因此不仅是科学研究,生活中也有很多简单的应用可以被称作图灵测试。验证码就是一种简化版的图灵测试,其被广泛地应用于网络购物、登录验证中,用于区分操作者是人类还是机器人,是一场机器向人提问的“反图灵测试”。验证码还有一个充满科学气息的学名“全自动区分计算机和
8、人类的图灵测试”。最后,让我们设想一下,如果一台计算机真的拥有了与人类相近的智能水平,那么它们会不会把自己伪装起来,让自己通过不了图灵测试?由于技术在不断地发展,图灵测试也有它本身的局限性,在人工智能真的发展到一定程度,而人类在研发过程中没有发现的情况下,如果仍然将图灵测试当作唯一的评判标准,会不会出现故意不通过图灵测试的人工智能?通过图灵测试在一定程度上意味着人工智能的出现,但是它一旦出现,人类一定会进行更进一步的研究改造,这对于人工智能来说不一定是好事。当有一天真的出现故意不通过图灵测试的人工智能时,对于人类来说,也许后果会很严重。作者简介王元卓(1978-),男,博士,中国科学院计算技术研究所研究员、博士生导师,中科大数据研究院院长,中国科普作家协会副理事长,中国计算机学会科学普及工作委员会主任,主要研究方向为大数据与人工智能。陆源(1990-),男,现就职于竞技世界(北京)网络技术有限公司,从事数据产品工作,主要研究方向为大数据与社交网络。热心科普创作,科普畅销书科幻电影中的科学:科学家奶爸的宇宙手绘 科幻电影中的科学:科学家奶爸的AI手绘作者之一。中图分类号:TP399 文献标志码:E doi:10.11959/j.issn.2096-0271.2023026李子健(1998-),男,中国科学院计算技术研究所硕士生,主要研究方向为社交知识图谱。