思维的边界：认知智能.pdf

资源描述

1、目录企业人工智能从技术战略到行业落地论坛3一、从感知智能到认知智能的挑战4二、人工智能研究领域最需要哪些突破？7三、人工智能在场景应用中的突出表现和挑战8四、关于阿里研究院10基于超大规模预训练模型的小样本和零样本学习12一、人工智能进入三轮同时驱动的时代12二、M6：中文多模态预训练模型15三、M6 超大规模预训练模型的应用场景15四、超大规模中文预训练语言模型 PLUG16五、大规模预训练模型 AliceMind 在 VQA 任务上的突破17六、从弱人工智能（Narrow AI)到通用人工智能(Artificial General Intelligence)19面向知识的可解释认知推理20

2、一、Complex QA and Explainable Cognitive Reasoning20二、Knowledge Oriented Programming Language(KoPL)28三、KQA Pro:A Dataset for Complex KBQA with Reasoning Programs35四、Conclusions423企业人工智能从技术战略到行业落地论坛企业人工智能从技术战略到行业落地论坛【编者按】CCF C是由中国计算机协会 CCF CTO Club 发起、面向企业技术专家的热门技术和战略分享会。活动旨在联结企业 CTO 及高级技术人才和资深学者，每次以一个

3、技术话题为核心，走进一家技术领先企业。2021 年 9 月 24 日，CCF C第十期“认知智能”分享会在北京阿里研究院举行，来自各行业的企业 CTO、高级技术人才和资深学者，共同探讨企业人工智能从感知智能向认知智能阶段发展的意义。本次活动由 CCF 副秘书长、亿邦动力 CEO 王超主持，CCF 副理事长、创新工场首席科学家、澜舟科技创始人周明做了开场致辞，并代表 CCF 为活动承办方阿里研究院颁发 CCF C活动承办单位感谢牌。分享会上，阿里研究院副院长安筱鹏代表承办方致辞，清华大学长聘教授、清华大学人工智能研究院知识智能中心主任李涓子和 CCF 人工智能与模式识别专委会常委、阿里巴巴研究院

4、数字技术研究部高级总监苏中在活动中分别作了题为面向知识的可解释认知推理和基于超大规模预训练模型的小样本和零样本学习的报告。企业人工智能从技术战略到行业落地论坛企业人工智能从技术战略到行业落地论坛人工智能进入三轮同时驱动的时代图片引自主持人苏中基于超大规模预训练模型的小样本和零样本学习人的智能是可以交互的，可以把简单的问题换一个角度重新阐述，但在大数据海量运算中是无法实现的。所以人工智能的发展方向是将知识系统代入三轮中以便更好的推理和训练模型。那么从感知智能到认知智能面临哪些挑战呢？周明 CCF 副理事长、创新工场首席科学家、澜舟科技创始人企业人工智能从技术战略到行业落地论坛企业人工智能从技术战

5、略到行业落地论坛但现在的 end-to-end 预训练忽略了基础技能的存在而永远是从零开始设计，这就导致数据样本量持续不足的现象（Few-shot）。foundation skill 可以是数据的也可以是知识的，也可以是融合的，我们需要做的是将每一个基础技能做好，然后设法将它们连成一片，让每一次新任务出现时都可以进行快速调整输出。不同于李飞飞提出的 foundation model（基础模型），同一模型可以管很多事，skill（技能）适用于任何 model，而 foundation model 过于强调 model，周明认为是不对的。那么面对众多行业，foundation skills 是通用

6、的还是专用的？首先，人作为一个人智能体有一些 foundation skills，比如语文数学英语，生活常识，等等这些不分领域的技能是最底层，这就像现在预训练模型，无论你干什么具体任务，都是可以通用的。当深入到某个领域的时候，由于领域的特点，又有一些领域独有的底层 foundation skill，比如电工、交通警察、医生。如果我们把这些知识体系都建立好以后，当有新任务的时候就可以自由的调用不同领域的知识体系来使用，也很容易从一个领域扩展到另一个领域。周明的设想是首先由我们把最基础的技能整理建立一个类似 SaaS 平台，然后提供一个应用手册给每个领域的专家来建立领域知识库，这样老员工可以通过

7、wiki 的形式将自己的知识加入进去，新员工就可以看到这些知识，然后这些知识体能自动的串联起来，把人类的知识传承下去。二、人工智能研究领域最需要哪些突破？李涓子清华大学长聘教授、清华大学人工智能研究院知识智能中心主任企业人工智能从技术战略到行业落地论坛企业人工智能从技术战略到行业落地论坛如何把大量的简单重复的问题用机器来解决，这大大提升了效率。而在风控领域，比如假冒伪劣商品的筛选，对于有十亿种商品的阿里平台来说，这个工作单凭人工是无法完成的，所以也需要引入人工智能来解决。人工智能的应用场景还有很多，比如优酷在 2018 年世界杯期间推出了“精彩片段集锦”，使用人工智能技术实时制作赛事精彩片段

8、呈现给球迷们；阿里鹿班智能设计平台，其智能生成、创作助手、智能排版、设计拓展等功能模块，无须专业设计人员操作，可以帮助企业快速、批量、自动化的进行图片设计。再比如庭审的场景，是感知智能的典型应用，法庭记录的时候，这不光是一个语音识别的问题，还包括对法庭上不同角色人物的识别和判断。不同的场景会对人工智能提出不同层次的应用需求，这些需求推动人工智能技术的发展和迭代。程璟认为现阶段人工智能实践中的挑战主要体现在三个方面：1、首先是对准确率的要求。对准确率要求高的场景对人工智能的挑战更大，就比如钢铁厂的例子，钢材的评级会直接影响钢材的价格，如果使用人工智能来识别钢材就要保证很高的准确性。反之对于网店客

9、服的场景，在人工客服应接不暇的时候使用智能客服，可以极大的缓解客户打客服电话打不进的问题，这时对回答问题的准确性就不做过高的要求了。同理在现阶段疫情流调的场景下，先通过人工智能进行第一轮的筛选，就会很大程度节约人力成本。2、第二是鲁棒性。人工智能的鲁棒性较弱，很多在测试阶段表现良好的数据，在实际场景应用中由于加入了一些随机噪音而变得很不稳定。企业人工智能从技术战略到行业落地论坛企业人工智能从技术战略到行业落地论坛阿里研究院的前身是 2007 年成立的阿里研究中心和 2012 年成立的集团政策研究室，是国内互联网企业中第一家内设研究智库。十多年来，阿里研究院秉承“开放、分享、透明、责任”的互联网

10、精神，依托阿里巴巴不断的科技创新，扎根阿里巴巴数字经济体丰富的商业生态、数据和案例，见证了电子商务、数字经济和云计算的发展，已经成为在国内外数字经济和数字治理研究领域，具有广泛影响力的生态型研究平台。基于超大规模预训练模型的小样本和零样本学习基于超大规模预训练模型的小样本和零样本学习人工智能有三个轮子，分别是数据、算力和算法。这些年在自然语言领域里预训练的技术，给我们提供了一个特别好的场景，就是可以给机器无穷无尽的数据，不用做标注。比如，我们可以把全世界历史上所有的诗词歌赋全部交给计算机去读。我们还发明了一些很好的技术，比如基于注意力模式有很多方式可以从语言的内容里找到关联，把人类所有的知识融

11、在深度学习模型里，构建出一个非常庞大的语言模型。基于超大规模预训练模型的小样本和零样本学习基于超大规模预训练模型的小样本和零样本学习二、M6：中文多模态预训练模型(Multi-Modality to Multi-Modality Multitask Mega-transformer)阿里在这方面做了一些工作，比如 M6。M6 项目于 2020 年起步，从最初几亿的规模到 2021 年 5 月份万亿的规模，最近又突破了十万亿的大关，这个过程经历了很多挑战。为了让几百片显卡能够很好地工作，这里面不光涉及到人工智能的算法，也涉及到很多计算机体系架构，海量计算、绿色计算等的能力。有了这样的万亿模型，我

12、们能干什么？三、M6 超大规模预训练模型的应用场景和 Google 的模型不一样，M6 项目组做了多模态，把图片和文本放在一起学习。比如大家去淘宝网站上，可以看到任何产品都会有照片，照片旁边会有一段说明。我们可以把信息放到模型里，机器从当中去抽取一些规律，得到的结果令人惊诧。基于超大规模预训练模型的小样本和零样本学习基于超大规模预训练模型的小样本和零样本学习预训练语言模型 PLUG 把这些可以拿到的所有数据，比如把菜谱放进去让机器去学习，学完了以后机器就掌握了一些规律，输入西红柿炒胡萝卜，它就给我们一个菜谱，再点击一下还可以得到其他西红柿炒胡萝卜的菜谱。预训练语言模型还有一个比较有意思的能力是

13、小说续写，比如我们给它一段红楼梦，它可以往后续写。该模型不光是把语言本身的规律找到了，甚至找到了语言之间的关联，将故事串起来，类似于一个小朋友学会了讲故事，这一点是大模型计算机比普通人强的地方。如果我们把海量的数据给到模型，它从中找到规律，通过这个规律去扩展，这上面就可以延伸出很多应用。比如让人头疼的各种报告汇报的撰写，在未来也许我们只需要给几个关键词，机器就可以帮我们写得很好。五、大规模预训练模型 AliceMind 在 VQA 任务上的突破接下来看一下大规模预训练模型 AliceMind 在 VQA 任务上最新的进展。基于超大规模预训练模型的小样本和零样本学习基于超大规模预训练模型的小样本

14、和零样本学习六、从弱人工智能（Narrow AI)到通用人工智能(ArtificialGeneral Intelligence)以前我在研究机构树立的目标是要做通用的人工智能，就是让机器可以像人一样学习思考，解决一些复杂问题，不局限于像电子拍摄违章等场景，而是能帮人做决策，可以像人一样主动发现问题，找到问题，甚至定义问题，最终目标是从感知到认知，真正实现从弱人工智能到通用人工智能。面向知识的可解释认知推理面向知识的可解释认知推理通过图灵测试，可以从以下几方面来研究人工智能，分知识表示、推理机器学习、计算机视觉自然语言处理和机器人。我们这里主要介绍的就是知识表示和推理。为什么知识是和认知非常相关

15、的？实际上它就是认知的一个定义，是人怎么去获得知识和应用知识的过程，我们把它称为认知。我们主要介绍的就是用认知来做推理，用知识去做推理knowledge oriented and reason。（二）The Third Generation of AI现阶段，我们已经从感知的智能到了认知的智能，这也是达成的共识。比如第三代的人工智能是可解释的，是安全可信的，它也提出了知识+数据+算法算力这样一个框架。面向知识的可解释认知推理面向知识的可解释认知推理现在很多的推理，很多的问答系统和相关的数据集都有关于简单问答的测试。比如上图 squad2.0 是斯坦福的一个简单问答数据集。第一行是 human

16、performance，显示已经超过了人的水平，当然这不能说是在 simple answer and question 上面真正超过，只是在数据集上超过了。再看这个斯坦福复杂问答数据集，是在 vqa 上用图片去做复杂问题提问。它需要一些推理过程的时候，在数据上就远远达不到人的水平，所以复杂问答是比简单问答更难的。（四）Complex QA and Explainable Reasoning什么是复杂问答呢？首先，答案不能是从文本里面或者图片里面直接获得的知识，是要用 retrieve 方法得到的。如果结果是 encode 到一个图片里面，直接可以 retrieve 出来的，这就不是复杂问答。复

17、杂问答需要有推理的能力，而这个推理的能力体现在多跳推理、技术比较，还有一些交并补的逻辑操作。面向知识的可解释认知推理面向知识的可解释认知推理第二类是利用端到端的 graph neural network（图神经元网络），第三类是 multistep query。这两个都是深度学习的方法，但这些方法存在的问题是什么？第一个问题，是缺乏可解释性。另外，在深度神经网络上做推理，它对知识类型的处理非常有限，它只能处理实体到实体之间的关系。但知识的形式是非常多的，而它只是把实体和实体变成图，在图结构上去算。针对这个问题，我们做了一些研究。随着研究的进展，逐渐明确了这个框架，并把它称为面向知识的可解释推理

18、。因为知识就是认知的结果，所以后面就把认知去掉了，我们的 framework（框架）是什么？其实就是图逻辑表达和推理。（六）Our Main Idea那么为什么用图？图是一种显示的表示，和人的认知是比较 match 的。看语义网络，就是Smart network，研究认知怎么去记忆这个知识，它是一种显式的知识的表示。面向知识的可解释认知推理面向知识的可解释认知推理像上图这个问题，有多少物体是在这块棕色金属右边且在红色方块左边的？它根据推理步骤就能得到一个人能看懂的答案。这个 cube 是红色的，它的 left 是谁？相当于把这个 question 前面的自然语言表达表示成了一个推理过程，整个推

19、理过程的步骤可以在执行 program 以后得到答案。上面 program 的执行过程，就是场景。我们想通过这个场景，解析不同结构。比如这个先找到一个 cube，再找一个红的 cube，接着去履约他的 left，就激活了另一个节点。另一个程序也是，去找一个柱形，然后找一个 brown 的金属，最后得到的是它们所对应的位置。上述两个 program 的交集，其实不止一个。但过程最后得到的就只有一个结果。而每一个target 的操作，是可以用 module 去实现操作的,可以看成是模块化的神经网络对这个操作去建模。那要怎么去实现这个框架，也就是上面的每一个透明的显示的过程？面向知识的可解释认知推理

20、面向知识的可解释认知推理比如 knowledge oriented 的 program，这里的 operation 是由一组原子函数或者操作来组成的函数，它带的参数就是知识的元素，我们可以通过编程语言把复杂的问题变成多个推理的步骤，并把它称为 program，这个推理步骤是很容易去理解的。把这个推理过程变成程序，人也很容易对它进行 control。程序编错了，人可以去操作它，对它进行修正，这对人来说是更好的影响。我们用 SPARQL 来表示这个过程。看 SPARQL 中间，因为它用的是图结构，所以实际上用program 去表示出来更容易理解。执行这个模板之后，得到的就是答案。（二）KoPL F

21、ramework这个 framework 就是编程语言里面的参数，那么 knowledge 的元素是什么呢？面向知识的可解释认知推理面向知识的可解释认知推理比如三元组当节点的时候，它在不同时间的配偶可能是不一样的，所以它对实体也有一个修饰的关系。我们把它称为 qualifier。从上图里可以看到,在矩形里面都是实体的知识，中间是联系这两个实体的关系。里面画虚线的是 qualifier 的一些修饰关系，还有它的属性，比如 date of birth、height，这些都是 attribute 的关系。在 kopl 语言里面，它所处理的函数里面对应的参数就是这些内容。（四）Atomic Funct

22、ions of KoPL我们在 kopl 里面定义了 14 个知识库上的操作函数。面向知识的可解释认知推理面向知识的可解释认知推理因为是面向复杂问答，所以也有 query 方式。而这些 query 方式具有逻辑计算的能力，可以去做验证，可以去做比较，也可以去做逻辑运算。（五）Program Examples with KoPL我们可以写一个 program，然后在这个知识库上一编译就可以得到结果。去执行这个程序的过程，就是得到答案的过程。看一个简单的例子。要先找着实体，然后通过实体去关联，它的 publication date 是在 1940年之后，这通过 filter year 按时间来去过

23、滤的。就好比它是一个动画电影，最后得到一个技术。实际上每一个操作过程，都是一个代数集合的计算，最终对得到的实体进行计数。我们给出一个问题之后，就可以去写理解这个问题的 program，而这个 program 不需要额外的操作，只需要对它做执行，就可以得到问题的答案。面向知识的可解释认知推理面向知识的可解释认知推理比如上图，他的儿子是什么时间出生的？可以把这个问题变成一个 program。在知识库里面，这两个人都是存在的。但在 wiki data 里面的数据集，这个人和他是儿子的关系是没有的，那这个关系体现在哪？在这个文本里面。我们提问 who is his child，就可以把这个人找着，有

24、date of birth，可以把断的 program通过文本来补全。这个时候就可以把文本和大模型进行一个结合，因为文本里面有很多这样的知识。三、KQA Pro:A Dataset for Complex KBQA with ReasoningPrograms接下来就是怎么把写 program 的过程自动化智能化。我们做了一个 KQA PRO 数据集，这个数据集就是把每一个复杂问题都带上推理的 program。面向知识的可解释认知推理面向知识的可解释认知推理实际上现在的数据集是没有的，并且问题个数规模也不够大，用 MetaQA 组成的知识类型也比较受限。（三）KQA Pro Construct

25、ion基于前面知识库的定义，我们做了 KQA Pro，这里面有将近 12 万的带推理的 program 数据集。这个过程也保证了推理问题达到多样性和规模。面向知识的可解释认知推理面向知识的可解释认知推理可以采用问题的实体，再通过实体去扩展。它对应的概念就是采用一些扩展的策略，这个图上就是生成问题的过程。要先 locate，选定对应的实体或概念。再通过递归的模板去扩展这个问题。最后去做各种修饰，比如问他不同的问题，这样一些操作。面向知识的可解释认知推理面向知识的可解释认知推理这是大概数据集的一个整体情况。做了这个数据集之后，用 end-to-end 的方法，在数据集上做 question 到 answer 的答案，准确率是非常低的。面向知识的可解释认知推理面向知识的可解释认知推理

展开阅读全文