AGI时代下的开源与开放.pdf

资源描述

1、“通用人工智能”有两个解释，一个叫GAI（Generative Artificial Intelligence），一个叫AGI(Artificial General Intelligence)，我想大多数媒体理解的应该是第一个 GAI，但现在确实进入了 AGI 时代。其实人工智能领域谈了 20 多年的是 AGI，我们正在向AGI 这样一个终极目标前进，目前正处于GAI 往 AGI 迈进的历史时期。实现 AGI 有三条技术路线：第一条技术路线，是由“大数据+自监督学习+大算力”形成的信息类模型；第二条技术路线，是基于虚拟世界或者真实世界，通过强化学习训练出来的具身模型；第三条技术路线，是直接超自

2、然进化的作业，类似用人脑复制数字的智能体，也就是所谓的“类脑人工智能”。这三条路线全世界范围内都在进行，所有目的都是为了实现 AGI。其中，第一条技术路线是 OpenAI 做的 GPT，第二条是谷歌 DeepMind 以 DQN 深度学习为核心取得的一系列进展。不同于 OpenAI 和谷歌，作为在通用人工智能方向一直努力的机构，从理想角度来说，智源研究院从“第一性原理”出发，真正构造从原子到有机分子、神经系统和身体完整的智能系统 AGI，不过大概还需要 20 年才可能实现这一目标。作为新型研发机构平台，我们在这三个技术路线方向都在开展工作：第一个是大模型方向，第二个是具身方向，还有刚才说的类脑

3、人工智能方向的进展。大模型时代大概始于 2018 年，也就是智源研究院成立那一年，大模型成为全世界公认的方向。在这个方向上，我们汇聚了 AI 领域的顶尖学者，我们称之为“智源学者”，率先组建大模型的研究团队，共同开启大模型探索，成为今天大模型研究的主力，预见了“大模型时代”的到来。“大模型”这个名词，就是 2021 年智源研究院发布“悟道1.0”时正式提出来的，然后才开始进入大众视野。在大模型领域，我们率先发布了“悟道”大模型；率先启动大模型测评旗舰项目，服务大模型的行业发展；率先倡导大模型开源开放，发布了 FlagOpen 大模型开源系统；率先构建大模型的生态，包括今天的智源大会和拥有 10

4、多万用户的智源社区，都是大模型技术研讨的高地。其中2021年6月份发布的“悟道2.0”大模型是我国第一个，也是全球最大的大模型，它拥有 1.75 万亿参数，在国际上得到广泛反响。现在大模型已经成为全社会关注的热点，我们认为大模型至少有三个特点：第一个，规模要大，神经网络参数要达到百亿规模以上。第二个，要有涌现性，这是人工智能发展六七十年来，最具里程碑的一个新的特性，“涌现性”产生了预料之外的新能力，如果一个模型只能从原有的数据、原有的算法推导出来结果，那不叫“涌现”，“涌现”一定能出现全新的功能。第三个，通用性，大模型不限于专门问题或者专门领域，它具有通用性，能够解决各类问题。当然，受限于模

5、型目前的阶段，也不是所有问题都能用大模型解决，但是它有很强的推广性。ENTERED THE AGI ERA进入 AGI 时代AGI 时代下的开源与开放编辑/高琪在“2023 北京智源大会”上，北京智源人工智能研究院院长、北京大学多媒体信息处理全国重点实验室主任黄铁军发布智源进展报告。他认为，我们正处于从 GAI（Generative Artificial Intelligence）往AGI(Artificial General Intelligence)行进的历史时期，实现 AGI 需要三条技术路线并进，当下大模型时代运用的是第一条技术路线，即大数据、自监督学习和大算力的合力。此外，黄铁军在大

6、会上公布智源正式推出全面开源的“悟道 3.0”模型，并报告了大语言模型的评测体系“天秤”的进展。OPEN SOURCE AND OPENNESS IN THE ARTIFICIAL GENERAL INTELLIGENCE(AGI)ERA4849应用实践PRACTICAL APPLICATIONS“通用人工智能”有两个解释，一个叫GAI（Generative Artificial Intelligence），一个叫AGI(Artificial General Intelligence)，我想大多数媒体理解的应该是第一个 GAI，但现在确实进入了 AGI 时代。其实人工智能领域谈了 20 多年的

7、是 AGI，我们正在向AGI 这样一个终极目标前进，目前正处于GAI 往 AGI 迈进的历史时期。实现 AGI 有三条技术路线：第一条技术路线，是由“大数据+自监督学习+大算力”形成的信息类模型；第二条技术路线，是基于虚拟世界或者真实世界，通过强化学习训练出来的具身模型；第三条技术路线，是直接超自然进化的作业，类似用人脑复制数字的智能体，也就是所谓的“类脑人工智能”。这三条路线全世界范围内都在进行，所有目的都是为了实现 AGI。其中，第一条技术路线是 OpenAI 做的 GPT，第二条是谷歌 DeepMind 以 DQN 深度学习为核心取得的一系列进展。不同于 OpenAI 和谷歌，作为在通用

8、人工智能方向一直努力的机构，从理想角度来说，智源研究院从“第一性原理”出发，真正构造从原子到有机分子、神经系统和身体完整的智能系统 AGI，不过大概还需要 20 年才可能实现这一目标。作为新型研发机构平台，我们在这三个技术路线方向都在开展工作：第一个是大模型方向，第二个是具身方向，还有刚才说的类脑人工智能方向的进展。大模型时代大概始于 2018 年，也就是智源研究院成立那一年，大模型成为全世界公认的方向。在这个方向上，我们汇聚了 AI 领域的顶尖学者，我们称之为“智源学者”，率先组建大模型的研究团队，共同开启大模型探索，成为今天大模型研究的主力，预见了“大模型时代”的到来。“大模型”这个名词，

9、就是 2021 年智源研究院发布“悟道1.0”时正式提出来的，然后才开始进入大众视野。在大模型领域，我们率先发布了“悟道”大模型；率先启动大模型测评旗舰项目，服务大模型的行业发展；率先倡导大模型开源开放，发布了 FlagOpen 大模型开源系统；率先构建大模型的生态，包括今天的智源大会和拥有 10 多万用户的智源社区，都是大模型技术研讨的高地。其中2021年6月份发布的“悟道2.0”大模型是我国第一个，也是全球最大的大模型，它拥有 1.75 万亿参数，在国际上得到广泛反响。现在大模型已经成为全社会关注的热点，我们认为大模型至少有三个特点：第一个，规模要大，神经网络参数要达到百亿规模以上。第二个

10、，要有涌现性，这是人工智能发展六七十年来，最具里程碑的一个新的特性，“涌现性”产生了预料之外的新能力，如果一个模型只能从原有的数据、原有的算法推导出来结果，那不叫“涌现”，“涌现”一定能出现全新的功能。第三个，通用性，大模型不限于专门问题或者专门领域，它具有通用性，能够解决各类问题。当然，受限于模型目前的阶段，也不是所有问题都能用大模型解决，但是它有很强的推广性。ENTERED THE AGI ERA进入 AGI 时代AGI 时代下的开源与开放编辑/高琪在“2023 北京智源大会”上，北京智源人工智能研究院院长、北京大学多媒体信息处理全国重点实验室主任黄铁军发布智源进展报告。他认为，我们正处于

11、从 GAI（Generative Artificial Intelligence）往AGI(Artificial General Intelligence)行进的历史时期，实现 AGI 需要三条技术路线并进，当下大模型时代运用的是第一条技术路线，即大数据、自监督学习和大算力的合力。此外，黄铁军在大会上公布智源正式推出全面开源的“悟道 3.0”模型，并报告了大语言模型的评测体系“天秤”的进展。OPEN SOURCE AND OPENNESS IN THE ARTIFICIAL GENERAL INTELLIGENCE(AGI)ERA4849应用实践PRACTICAL APPLICATIONS 第

12、一个是视觉系列大模型。2023 年以来，智源连续发了 6 个视觉大模型，首先是十亿参数的视觉基础模型 EVA，它最重要的特点是通用性，这个模型通过语义学习和几何结构学习相结合，解决了视觉模型的通用性问题。在 ImageNet 分类、COCO 检测分割、视频分类等广泛视觉任务中取得了最强的性能，这些任务在当初都要一个个的专门模型去做，我们靠一个通用模型实现了所有专有模型的功能，而且性能比它们还要强。我们在此基础上又训练 EVA-CLIP 多模型预训练模型，它是零样本学习的基础模型。在 2023 年年初发布 5 Billion 版本，创造零样本学习的性能新高度，超越了此前最强的 OpenCLIP

13、模型，在 ImageNet的 OneK 零样本达到了 TOP1，达到 82%的准确率。去年发布的 EVA-CLIP One Billion 版本今年才被 Meta 发布的第二版模型追平。语言模型可以问答，视觉模型怎么提问？我们提出了“图像理解图像，图像解释图像，图像生成图像”的理念，把自然语言学习上下文的思想引入视觉模型。提出通用视觉模型 Painter，它以视觉作为建模核心思想，将图像作为输入输出模态，从而获得上下文的视觉信息，完成各种视觉任务。2023 年 4 月，智源推出首个利用视觉提示完成任意分割任务的通用模型SegGPT“一通百通”。SegGPT 是我们大模型进入通用视觉的里程碑，这

14、个模型和 Meta 的 SAM 在同一天发布，都是通用视觉的里程碑。SAM 模型最大的特点是一触即通，简单触碰点击就能把完整的物体分割出来，完美解决了图像分割问题，但是它只在一个物体上。SegGPT 是“一通百通”，它可以分割任意物体，包括物体的任意零件，甚至物体的不同表面，只要是相对具有物理意义的结构，它都可以分割出来。例如，SegGPT 可以做视频，选中第一帧视频，视频上的运动物体可以不用人的操作就被自动分割出来。它强大的通用能力、灵活的推理能力和自动视觉的分割能力，可以说几乎已经达到了通用模型的里程碑水平。这样的技术和模型，在自动驾驶领域、机器人领域、实体智能领域一定会发挥基础性的作用。

15、LAUNCHED FULLY OPEN-SOURCE ENLIGHTENMENT 3.0 MODEL推出全面开源的“悟道 3.0”模型这个模型发布之后，很多用户关注它能不能做零样本的视频编辑，这也是传统图像视频领域很重要的应用。我们已经实现了零样本的简单提示，虽然提示还是需要的，但不需要你提供样本去训练它，这个模型就可以完成原来各种视频的编辑任务。在这个基础上，我们进一步扩展了一个新的模型，一个接受多模态的输入、产生多模态输出的多模态大模型。这个模型能够在多模态的序列中补全一切，而且能生成多模态的预测。总的来说，把类似于语言上下文的一种学习能力引进图像之后，能够激发出更丰富、更让大家兴奋的新通

16、用智能。语言模型是大模型中竞争的热点，悟道3.0 正式发布语言大模型“悟道天鹰”，对大模型进行评测的一个体系，叫“天秤”Flag Eval。悟道天鹰 Aquila 语言大模型是第一个中英文双语大模型，它是支持商用、符合数据合规要求的数据大模型，所以大家可以放心去用，还可以放心商业化，因为智源是一个非营利机构，我们就是为公用发展提供技术的。悟道天鹰 Aquila 语言大模型，是在中英高质量合规的语料数据库基础上从零开始训练的模型，它通过数据质量的控制和多种训练的优化，实现了在更小的数据集、更短的训练时间内获得比其它开源模型更优的性能。这是一个系列模型，这次发布的 7B 和 33B，就是 70 亿

17、参数和 330亿参数的基础模型，AquilaChat 对话模型，也是这两个参数模型，以及 AquilaCode 文本代码生成模型。Aquila 基础模型（7B、33B）在技术上继承了 GPT-3、LLaMA 等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer，升级了 BMTrain 并行训练方法，在 Aquila 的训练过程中实现了比 Magtron+DeepSpeed ZeRO-2 将近倍的训练效率，所以我们有信心后续给大家提供更大规模、更适合产品化的模型。Aquila 模型已经具备了很强的对话能力。语言模型可以通过对话的方式理解用户意图，调用图像

18、生成模型来生成一幅图片，比如说“帮我生成一个唐装的图片，帮我生成一个机器人的图片”。如果你对它的生成结果不满意，没关系，你直接告诉它就行了。5051应用实践PRACTICAL APPLICATIONS 第一个是视觉系列大模型。2023 年以来，智源连续发了 6 个视觉大模型，首先是十亿参数的视觉基础模型 EVA，它最重要的特点是通用性，这个模型通过语义学习和几何结构学习相结合，解决了视觉模型的通用性问题。在 ImageNet 分类、COCO 检测分割、视频分类等广泛视觉任务中取得了最强的性能，这些任务在当初都要一个个的专门模型去做，我们靠一个通用模型实现了所有专有模型的功能，而且性能比它们还要

19、强。我们在此基础上又训练 EVA-CLIP 多模型预训练模型，它是零样本学习的基础模型。在 2023 年年初发布 5 Billion 版本，创造零样本学习的性能新高度，超越了此前最强的 OpenCLIP 模型，在 ImageNet的 OneK 零样本达到了 TOP1，达到 82%的准确率。去年发布的 EVA-CLIP One Billion 版本今年才被 Meta 发布的第二版模型追平。语言模型可以问答，视觉模型怎么提问？我们提出了“图像理解图像，图像解释图像，图像生成图像”的理念，把自然语言学习上下文的思想引入视觉模型。提出通用视觉模型 Painter，它以视觉作为建模核心思想，将图像作为输

20、入输出模态，从而获得上下文的视觉信息，完成各种视觉任务。2023 年 4 月，智源推出首个利用视觉提示完成任意分割任务的通用模型SegGPT“一通百通”。SegGPT 是我们大模型进入通用视觉的里程碑，这个模型和 Meta 的 SAM 在同一天发布，都是通用视觉的里程碑。SAM 模型最大的特点是一触即通，简单触碰点击就能把完整的物体分割出来，完美解决了图像分割问题，但是它只在一个物体上。SegGPT 是“一通百通”，它可以分割任意物体，包括物体的任意零件，甚至物体的不同表面，只要是相对具有物理意义的结构，它都可以分割出来。例如，SegGPT 可以做视频，选中第一帧视频，视频上的运动物体可以不用

21、人的操作就被自动分割出来。它强大的通用能力、灵活的推理能力和自动视觉的分割能力，可以说几乎已经达到了通用模型的里程碑水平。这样的技术和模型，在自动驾驶领域、机器人领域、实体智能领域一定会发挥基础性的作用。LAUNCHED FULLY OPEN-SOURCE ENLIGHTENMENT 3.0 MODEL推出全面开源的“悟道 3.0”模型这个模型发布之后，很多用户关注它能不能做零样本的视频编辑，这也是传统图像视频领域很重要的应用。我们已经实现了零样本的简单提示，虽然提示还是需要的，但不需要你提供样本去训练它，这个模型就可以完成原来各种视频的编辑任务。在这个基础上，我们进一步扩展了一个新的模型，一

22、个接受多模态的输入、产生多模态输出的多模态大模型。这个模型能够在多模态的序列中补全一切，而且能生成多模态的预测。总的来说，把类似于语言上下文的一种学习能力引进图像之后，能够激发出更丰富、更让大家兴奋的新通用智能。语言模型是大模型中竞争的热点，悟道3.0 正式发布语言大模型“悟道天鹰”，对大模型进行评测的一个体系，叫“天秤”Flag Eval。悟道天鹰 Aquila 语言大模型是第一个中英文双语大模型，它是支持商用、符合数据合规要求的数据大模型，所以大家可以放心去用，还可以放心商业化，因为智源是一个非营利机构，我们就是为公用发展提供技术的。悟道天鹰 Aquila 语言大模型，是在中英高质量合规的

23、语料数据库基础上从零开始训练的模型，它通过数据质量的控制和多种训练的优化，实现了在更小的数据集、更短的训练时间内获得比其它开源模型更优的性能。这是一个系列模型，这次发布的 7B 和 33B，就是 70 亿参数和 330亿参数的基础模型，AquilaChat 对话模型，也是这两个参数模型，以及 AquilaCode 文本代码生成模型。Aquila 基础模型（7B、33B）在技术上继承了 GPT-3、LLaMA 等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer，升级了 BMTrain 并行训练方法，在 Aquila 的训练过程中实现了比 Magtron

24、+DeepSpeed ZeRO-2 将近倍的训练效率，所以我们有信心后续给大家提供更大规模、更适合产品化的模型。Aquila 模型已经具备了很强的对话能力。语言模型可以通过对话的方式理解用户意图，调用图像生成模型来生成一幅图片，比如说“帮我生成一个唐装的图片，帮我生成一个机器人的图片”。如果你对它的生成结果不满意，没关系，你直接告诉它就行了。5051应用实践PRACTICAL APPLICATIONS 在技术上，我们在训练过程中实现了模型能力和指令微调的升级迭代，包括对数据集的筛选和优化，充分挖掘基础模型的潜力。AquilaChat 支持可扩展的特殊指令规范，可以根据你的需要再增加设计任务，你

25、可以把它定义出来，然后模型就按照你的工作要求自动完成任务。2022 年发布的 Aitdifus 的 8 种语言，2023 年升级为 18 种语言，它是全球支持语言种类最多的图像生成模型，也已经成为了国际上最热门的图文生成模型，因为支持的语言多，很多国家都可以用这个语言模型来生成他们喜欢的图像。AquilaCode-7B代码模型，是基于Aquila-7B基础模式的代码模型，它也是7B（70亿参数），用小数据集、小参数量实现了高性能，支持中英双语，也是性能最好的开源代码模型。这里使用的数据代码经过了高质量的合规处理，它使用合规的开源许可代码进行训练，所以大家可以放心地将它用于软件开发。Aquila

26、Code-7B 分别在英伟达和国产的芯片上完成了模型的训练，通过对多种架构的代码和模型的开源，无论是什么样的软硬件组合，代码模型都可以部署。2023年全世界发布了很多模型，很多人都需要了解这些模型到底哪些方面好、哪些方面还不足。我们在科技部大模型旗舰项目的支持下，2023 年 1 月 1 日正式启动评测工作，第一件重要的任务就是推出大语言模型的评测体系“天秤”。推出这样的大模型体系的目标就是建立科学、公正、开放的评测基准方法工具集，协助研究人员全方位评估基础模型以及训练项目的性能，同时我们也在探索利用 AI 方法实现主观评测。我们的客观评测、主观评测同时在进行，希望大幅提升评测的效率和客观性。

27、目前天秤大语言模型评测体系，在能力、任务、指标三个维度上建立了全方位的评测体系，包括 30 多种能力，加上 5 种任务，再乘以 4 大类的指标，总共差不多 600 维的评测体系，比较全面推出大语言模型评测体系“天秤”：建立评测基准方法工具集地衡量一个大模型的能力，评测体系是用自动化方式进行的，当然，如果一个模型开源，可以把模型拿来直接在实验室评测，如果有模型能开发API 我们就直接调用评测，评测速度很快，第二天就出全面的评测报告。如果研发团队希望对自己的模型进行评估，也可以采用这个体系来自行评估，通过测评来不断提升和发展指标。目前，天秤开源大模型评测体系已经面向公众开放注册申请。在硬件方面支持

28、英伟达、华为的昇腾、寒武纪、昆仑芯等多种芯片架构，以及PyTorch 等多种深度学习框架。此外，“天秤”在 GitHub 的项目中，也分享了以语言模型为主的评测，也增加了多模态文图生成工具。今年年初，同样是在科技部大模型的旗舰项目支持下，我们正式发布了 FlagOpen 大模型技术开源体系，此为开源模型，这个模型将没有任何保留地对全社会开放。大模型的旗舰项目目前在国家项目的支持下开展研究，涉及 8 个团队，他们的优秀算法后续也会通过评测集成的方式变成一个体系。大家可以共建共享大模型技术体系，也就是说它不是任何一家机构、一家公司垄断的技术。目前 FlagOpen 在算法方面已经把所有的开源模型以

29、及国内外模型背后的算法集成进来了，支持并性加速技术 FSDP，集成了高效推理技术LaRA 和 BMInf，在这样的开源体系下，即便是一个从零开始做大模型的机构，也可以用这样一套体系开展自己的技术研发活动。其中的 FlagPerf 是关于硬件评测的，我们过去一年在这方面做了很多工作，可以实现精确对硬件性能评测，目的是为了促进芯片、硬件的发展。根据我们掌握的情况，我们的芯片发展很快，所以我们也对基础软件体系更好地支撑 AI 的发展抱有充分的信心。“天秤”大模型的评测平台开源了多模态工具，在 FlagData 数据处理方面发布一系列数据分析的、清洗的、微调的工具，如果你做数据加工清洗的话也可以使用这

30、样的工具来开发自己的数据清洗系统。LAUNCHED LARGE LANGUAGE MODEL EVALUATION SYSTEM FLAGEVAL:ESTABLISHED A TOOL SET FOR BENCHMARKING METHODS5253应用实践PRACTICAL APPLICATIONS 在技术上，我们在训练过程中实现了模型能力和指令微调的升级迭代，包括对数据集的筛选和优化，充分挖掘基础模型的潜力。AquilaChat 支持可扩展的特殊指令规范，可以根据你的需要再增加设计任务，你可以把它定义出来，然后模型就按照你的工作要求自动完成任务。2022 年发布的 Aitdifus 的 8

31、种语言，2023 年升级为 18 种语言，它是全球支持语言种类最多的图像生成模型，也已经成为了国际上最热门的图文生成模型，因为支持的语言多，很多国家都可以用这个语言模型来生成他们喜欢的图像。AquilaCode-7B代码模型，是基于Aquila-7B基础模式的代码模型，它也是7B（70亿参数），用小数据集、小参数量实现了高性能，支持中英双语，也是性能最好的开源代码模型。这里使用的数据代码经过了高质量的合规处理，它使用合规的开源许可代码进行训练，所以大家可以放心地将它用于软件开发。AquilaCode-7B 分别在英伟达和国产的芯片上完成了模型的训练，通过对多种架构的代码和模型的开源，无论是什

32、么样的软硬件组合，代码模型都可以部署。2023年全世界发布了很多模型，很多人都需要了解这些模型到底哪些方面好、哪些方面还不足。我们在科技部大模型旗舰项目的支持下，2023 年 1 月 1 日正式启动评测工作，第一件重要的任务就是推出大语言模型的评测体系“天秤”。推出这样的大模型体系的目标就是建立科学、公正、开放的评测基准方法工具集，协助研究人员全方位评估基础模型以及训练项目的性能，同时我们也在探索利用 AI 方法实现主观评测。我们的客观评测、主观评测同时在进行，希望大幅提升评测的效率和客观性。目前天秤大语言模型评测体系，在能力、任务、指标三个维度上建立了全方位的评测体系，包括 30 多种能力，

33、加上 5 种任务，再乘以 4 大类的指标，总共差不多 600 维的评测体系，比较全面推出大语言模型评测体系“天秤”：建立评测基准方法工具集地衡量一个大模型的能力，评测体系是用自动化方式进行的，当然，如果一个模型开源，可以把模型拿来直接在实验室评测，如果有模型能开发API 我们就直接调用评测，评测速度很快，第二天就出全面的评测报告。如果研发团队希望对自己的模型进行评估，也可以采用这个体系来自行评估，通过测评来不断提升和发展指标。目前，天秤开源大模型评测体系已经面向公众开放注册申请。在硬件方面支持英伟达、华为的昇腾、寒武纪、昆仑芯等多种芯片架构，以及PyTorch 等多种深度学习框架。此外，“天秤

34、”在 GitHub 的项目中，也分享了以语言模型为主的评测，也增加了多模态文图生成工具。今年年初，同样是在科技部大模型的旗舰项目支持下，我们正式发布了 FlagOpen 大模型技术开源体系，此为开源模型，这个模型将没有任何保留地对全社会开放。大模型的旗舰项目目前在国家项目的支持下开展研究，涉及 8 个团队，他们的优秀算法后续也会通过评测集成的方式变成一个体系。大家可以共建共享大模型技术体系，也就是说它不是任何一家机构、一家公司垄断的技术。目前 FlagOpen 在算法方面已经把所有的开源模型以及国内外模型背后的算法集成进来了，支持并性加速技术 FSDP，集成了高效推理技术LaRA 和 BMIn

35、f，在这样的开源体系下，即便是一个从零开始做大模型的机构，也可以用这样一套体系开展自己的技术研发活动。其中的 FlagPerf 是关于硬件评测的，我们过去一年在这方面做了很多工作，可以实现精确对硬件性能评测，目的是为了促进芯片、硬件的发展。根据我们掌握的情况，我们的芯片发展很快，所以我们也对基础软件体系更好地支撑 AI 的发展抱有充分的信心。“天秤”大模型的评测平台开源了多模态工具，在 FlagData 数据处理方面发布一系列数据分析的、清洗的、微调的工具，如果你做数据加工清洗的话也可以使用这样的工具来开发自己的数据清洗系统。LAUNCHED LARGE LANGUAGE MODEL EVAL

36、UATION SYSTEM FLAGEVAL:ESTABLISHED A TOOL SET FOR BENCHMARKING METHODS5253应用实践PRACTICAL APPLICATIONS SOFTWARE AND HARDWARE ECOLOGY IN THE AGE OF INTELLIGENCE:AN ERA OF OPEN SOURCE AND OPENNESS大模型生态中，最重要的是物理基础，这仍然要回到软硬件。在 AI 时代，软硬件应该是什么样的形态呢？我们经历过两个时代，一个是 PC 互联网时代，在那个时代最初是Wintel（Windows+Intel）这样的体系在主

37、导生态，后来出现了 Linux，现在 Linux 操作系统已经成为操作系统主要的一个平台。在移动互联网时代出现了两个生态，一个是iOS封闭生态，另外一个是安卓+ARM的生态，安卓是开源的，但是也受到一定的管控，不像 Linux 那么开放。在 CPU 方面，RISC5 出现了，而且在 CPU 领域正在发挥主导作用。在智能时代，基础软硬体应该是什么样的？全世界主要的观点认为，它一定是个开源开放的时代。尽管今天大模型在很多系统方面已经表现得很好，但是如果不让千家万户用、让千千万万企业用的话，一个封闭的生态不会长远发展下去。一个开源的生态，就需要在软件上开源、在硬件上开放，大家既要竞争又要合作，它是千

38、千万万企业共同竞争、共同合作营造出来的开源开放的生态体系。在这方面，我国已经做了很多努力，但我们的开源开放力度还是远远不够的，我们应该进一步加强开源开放。开源开放也是竞争，你真有水平、真有好算法，拿出来，大家去评测、去比较，才能证明技术水平，而不是仅靠结果来说是不是优秀。在语言数据方面，我们也做了一个工作，是目前大家亟须的大规模的可商用的中文开源的指令数据集，相信很多做大模型的机构或者企业都在做同样的事情。COIG 目前是全智能时代的软硬体生态：一个开源开放的时代世界范围内规模最大的中文开源指令集，第一期有 171K 的开源可商用的中文指令数据，目前已经开放了，大家已经在用了。我们还在开发第二

39、期，争取成为规模最大的且持续更新的中文的多任务指令数据集。尽管我们花了 80%的人力物力资源做大模型，但另外两条路线也不能不做，它们是通往 AGI 的另外两条路径。第一个是在具身多模态交互模型方面，我们探索在虚拟世界中让智能体学习用各种语言描述的任务，比如告诉智能体制作一个石锤子，建造一个木质的避难所，它就可以在游戏世界自己完成，不用再用鼠标控制一步步走，你想要什么，告诉它就可以。这是通用人工智能的一个新赛道，全世界范围内也有不少机构在研究，比如我们 2022 年公布的基于摹仿学习的策略大模型 VPT、奖励函数 MineCLIP，到 2023 年利用大规模语言模型进行任务分解和规划的 Plan

40、4MC 模型，都完成了大量任务。在发布模型的时候，已经完成 24 项任务，应该是全球范围内完成任务最多的一个智能模型。不过现有方法是依赖人类的知识和提示的，下一个目标是让智能体在此基础上学习，从而让它自适应在开放世界中完成更多任务，并且具备自己的创造力。5455应用实践PRACTICAL APPLICATIONS SOFTWARE AND HARDWARE ECOLOGY IN THE AGE OF INTELLIGENCE:AN ERA OF OPEN SOURCE AND OPENNESS大模型生态中，最重要的是物理基础，这仍然要回到软硬件。在 AI 时代，软硬件应该是什么样的形态呢？我们

41、经历过两个时代，一个是 PC 互联网时代，在那个时代最初是Wintel（Windows+Intel）这样的体系在主导生态，后来出现了 Linux，现在 Linux 操作系统已经成为操作系统主要的一个平台。在移动互联网时代出现了两个生态，一个是iOS封闭生态，另外一个是安卓+ARM的生态，安卓是开源的，但是也受到一定的管控，不像 Linux 那么开放。在 CPU 方面，RISC5 出现了，而且在 CPU 领域正在发挥主导作用。在智能时代，基础软硬体应该是什么样的？全世界主要的观点认为，它一定是个开源开放的时代。尽管今天大模型在很多系统方面已经表现得很好，但是如果不让千家万户用、让千千万万企业用的

42、话，一个封闭的生态不会长远发展下去。一个开源的生态，就需要在软件上开源、在硬件上开放，大家既要竞争又要合作，它是千千万万企业共同竞争、共同合作营造出来的开源开放的生态体系。在这方面，我国已经做了很多努力，但我们的开源开放力度还是远远不够的，我们应该进一步加强开源开放。开源开放也是竞争，你真有水平、真有好算法，拿出来，大家去评测、去比较，才能证明技术水平，而不是仅靠结果来说是不是优秀。在语言数据方面，我们也做了一个工作，是目前大家亟须的大规模的可商用的中文开源的指令数据集，相信很多做大模型的机构或者企业都在做同样的事情。COIG 目前是全智能时代的软硬体生态：一个开源开放的时代世界范围内规模最大

43、的中文开源指令集，第一期有 171K 的开源可商用的中文指令数据，目前已经开放了，大家已经在用了。我们还在开发第二期，争取成为规模最大的且持续更新的中文的多任务指令数据集。尽管我们花了 80%的人力物力资源做大模型，但另外两条路线也不能不做，它们是通往 AGI 的另外两条路径。第一个是在具身多模态交互模型方面，我们探索在虚拟世界中让智能体学习用各种语言描述的任务，比如告诉智能体制作一个石锤子，建造一个木质的避难所，它就可以在游戏世界自己完成，不用再用鼠标控制一步步走，你想要什么，告诉它就可以。这是通用人工智能的一个新赛道，全世界范围内也有不少机构在研究，比如我们 2022 年公布的基于摹仿学习

44、的策略大模型 VPT、奖励函数 MineCLIP，到 2023 年利用大规模语言模型进行任务分解和规划的 Plan4MC 模型，都完成了大量任务。在发布模型的时候，已经完成 24 项任务，应该是全球范围内完成任务最多的一个智能模型。不过现有方法是依赖人类的知识和提示的，下一个目标是让智能体在此基础上学习，从而让它自适应在开放世界中完成更多任务，并且具备自己的创造力。5455应用实践PRACTICAL APPLICATIONS 在类脑智能和生命模拟的方向，我们的工作也在继续，去年智源大会发布了最高精度的仿真线虫，它的精度到现在为止仍旧是最高的。有了这个工作基础，我们全面开源仿真线虫所用的生命模拟

45、平台“Evaluation 天演”，并提供在线服务。大家可以拿这个代码自己去运行，你如果没有那么多计算机算力，只有一些生物数据，也可以通过在线的方式在我们的平台上完成。天演平台有四项最显著的特点：第一，是当今效率最高的精细神经系统仿真平台；第二，支持超大规模的神经网络仿真，目前已经高效地复现了领域内多个大规模的神经模型；第三，我们提供在线工具，你只要有生物数据，就可以将建模、仿真、可视化，在一个平台上完成。其中可视化的交互是天演独有的，你可以观察神经系统在运行过程中信号发生了怎样的变化，因为我们最终想知道生命智能进化的每一步，想知道到底都发生了什么，所有细节在这个平台上都可以看到，而不是“黑箱

46、”。目前，针对神经科学领域结构最完整的模型是美国研究所的 V1，天演平台从仿真速度和模型细节两方面入手，在 V1 的基础上提升了一个运行更快、更加符合生物物质生命约束的一个新版本，我们可以对千万规模的精细神经元的神经网络进行高效的可视化。神经系统是一个复杂的森林，它今天还是一个“黑暗森林”，你可以看清楚这个森林中周边一定范围内的树木、树枝、树叶的所有细节，我们相信，无论是对于神经科学，还是对于人工智能研究，它都能起到基础性的支撑作用。在加快计算速度板块，我们和天津超算中心合作，天演已经在天河超级计算机上成功部署，在节省能耗的情况下提升 20 倍的计算速度，实现了全球范围内最极致的神经系统仿真的

47、性能，第一次实现让大规模精细神经系统访问速度逼近生物真实。未来我们和天津超算会进一步合作，挖掘超算硬件和软件的潜力，早日实现全球第一个精细的人类大脑。当然，我说的“早日”，应该是“早年”，可能还需要 1520 年才能做到，但这是通向 AGI 必然的一个里程碑。神经系统是实现最直接通向智能的一层，再往下是细胞、蛋白质这样的有机分子。我们的健康计算中心专注于应用通用人工智能和大模型前沿技术，不断开拓生命科学，包括服务于健康这样的研究的边界，主要是蛋白质的设计和量子化学这两个方向。2023 年，智源研究中心研发的“Open Complex”大分子预测模型，在蛋白质结构预测竞赛中赢得年度冠军，其实不仅

48、仅是一次冠军，而是每次比赛都是冠军。目前这个中心正致力于开发基于结构的大分子，包括蛋白质、核酸适配体的生成模型，并且把它应用于药物设计等领域。此外，我们正在构建一个生物分子的统一的大模型，希望能够推动包括人工智能、生命科学、医药设计这样各类任务的发展。5657应用实践PRACTICAL APPLICATIONS 在类脑智能和生命模拟的方向，我们的工作也在继续，去年智源大会发布了最高精度的仿真线虫，它的精度到现在为止仍旧是最高的。有了这个工作基础，我们全面开源仿真线虫所用的生命模拟平台“Evaluation 天演”，并提供在线服务。大家可以拿这个代码自己去运行，你如果没有那么多计算机算力，只有一

49、些生物数据，也可以通过在线的方式在我们的平台上完成。天演平台有四项最显著的特点：第一，是当今效率最高的精细神经系统仿真平台；第二，支持超大规模的神经网络仿真，目前已经高效地复现了领域内多个大规模的神经模型；第三，我们提供在线工具，你只要有生物数据，就可以将建模、仿真、可视化，在一个平台上完成。其中可视化的交互是天演独有的，你可以观察神经系统在运行过程中信号发生了怎样的变化，因为我们最终想知道生命智能进化的每一步，想知道到底都发生了什么，所有细节在这个平台上都可以看到，而不是“黑箱”。目前，针对神经科学领域结构最完整的模型是美国研究所的 V1，天演平台从仿真速度和模型细节两方面入手，在 V1 的

50、基础上提升了一个运行更快、更加符合生物物质生命约束的一个新版本，我们可以对千万规模的精细神经元的神经网络进行高效的可视化。神经系统是一个复杂的森林，它今天还是一个“黑暗森林”，你可以看清楚这个森林中周边一定范围内的树木、树枝、树叶的所有细节，我们相信，无论是对于神经科学，还是对于人工智能研究，它都能起到基础性的支撑作用。在加快计算速度板块，我们和天津超算中心合作，天演已经在天河超级计算机上成功部署，在节省能耗的情况下提升 20 倍的计算速度，实现了全球范围内最极致的神经系统仿真的性能，第一次实现让大规模精细神经系统访问速度逼近生物真实。未来我们和天津超算会进一步合作，挖掘超算硬件和软件的潜力，

展开阅读全文