1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)目录 魔搭社区产品生态介绍.4 大模型驱动的自然语言开放生态.23 ModelScope 助力语音 AI 模型创新与应用.33 达摩院通义视觉生成大模型.43 视觉 AI 能力的开放现状及 ModelScope 实战.50 通用多模态 AI 构建.59 药物设计中的开源 AI 模型 Uni-Fold 及 Uni-Mol.68 GLM-130B:让每个人都能用上千亿模型.80 魔搭社区产品生态介绍 4 魔搭社区产品生态介绍 作者:刘建荣(南山),阿里达摩院智能服务事业部产品总负责人 一、AI 应用痛点 目前,AI 应
2、用的发展仍面临诸多挑战:第一、AI 模型开发门槛高。模型复杂度不断提升,模型开发不但需要依赖大量的数据,而且需要大型 GPU 集群。第二、AI 模型定制化需求高。目前,大多数的实际场景都需要特殊优化。但通用 API的能力有限,因此大多数业务场景都需要多模型组合。第三、AI 模型使用难度大。由于 AI 模型调用方式不统一,异构模型框架复杂,且模型配置繁杂,所以导致 AI 模型使用难度较大。第四、AI 模型分享交流难。目前,大量的 AI 模型缺乏统一的模型分享渠道,模型查找,获取困难,模型缺乏标准使用说明,导致 AI 模型分享交流困难。魔搭社区产品生态介绍 5 二、模型即服务(MaaS)平台-魔搭
3、 ModelScope 为了解决上述问题,阿里云推出了“Model-as-a-Service”概念,又名“模型即服务”。阿里云希望所有的 AI 模型从业者,能够零门槛的体验模型,推理模型,为大家提供完整的模型定制链路和方便快捷的模型部署方案。如上图所示,是 ModelScope 模型开源社区的基本架构。达摩院不但贡献了自己的大模型平台和 SOTA 模型矩阵,而且邀请国内优秀的 AI 研究机构和公司,将模型贡献到社区。通过大家的共同努力,一起构建 ModelScope 模型开源社区。ModelScope 平台为大家提供了一站式的模型服务。大家可以在模型的管理下载、训练、推理等各个环节,快速定制模
4、型,自动化进行云部署。用户只需要提供少量的数据和算力,就能快速定制模型应用到实际生产。魔搭社区产品生态介绍 6 其中,模型开发者可以在模型的探索阶段使用多维度,多标签来检索模型,在线体验模型。在环境安装环节,开发者在本地环境部署时,可以快速安装,云端的 Notebook 免安装。当开发者进行模型的推理验证时,一行代码就能实现推理,并且支持三种模型下载渠道,即 Library、python SDK 以及 Git。在模型的训练调优环节,开发者可以基于预训练模型的调优链接,澎湃算力实现版本可视化的测评。在大量数据预训练好的模型基础上进行微调,是当前 AI 模型开发的主流模式,这种模式大大降低了 AI
5、 模型开发的门槛。ModelScope 提供了各个领域、不同场景上的丰富的预训练模型。通过简单易用的调用接口,统一的配置文件设计,使得用户仅仅使用十几行 python 代码,就可以运行一个 fine tune 任务。在模型部署调用环节,ModelScope 社区为开发者提供了多种部署方式,成本更低、更灵活。开发者可以在云端部署、本地化部署、或者设备端进行部署。魔搭社区产品生态介绍 7 ModelScope 社区不但为模型的开发者提供了一站式的模型服务,还为社区的贡献者提供了灵活便利的生产服务。社区的贡献者可以使用 ModelScope 进行模型版本管理与代码托管。在数据集的管理方面,贡献者可以
6、使用 Data hub 进行数据集版本管理与血缘管理。目前,数据预处理,数据分割等常用的数据工具,正在逐步上线中。除此之外,社区的贡献者可以自定义组织并管理成员,能够多人协同管理模型与数据集。在 ModelScope 社区的“创空间”模块,社区的贡献者能够创建专属的 AI 应用,展示自己的创意想法,沉淀个人或组织的资产。创空间支持贡献者更灵活地构建专属的 AI Web/App,打造更具创意的模型应用,让用户直观体验模型效果与创意想法。用户可直接关联模型,针对复杂场景进行自主模型编排和应用开发,从而形成个人及组织的创意资产。与此同时,模型贡献者可以直接在模型页面查看用户的评价反馈,帮助贡献者了解
7、用户需求。贡献者也可直接回复用户进行反馈,与用户产生深度互动交流。魔搭社区产品生态介绍 8 接下来,介绍一下简单易用的 Library 集成库。首先,Library 集成库覆盖 NLP、CV、Audio 等多领域的具有竞争力的 SOTA 模型,更有行业领先的多模态大模型,现已全部免费开放,支持用户下载使用。其次,Library 集成库提供简单易用的 python SDK,轻量化集成开发,支持用户快速集成。一行代码即可实现模型推理,十几行代码即可实现对预训练模型的调优训练。目前,Library 集成库兼容主流深度学习框架(Pytorch、Tensorflow 等)。Library 集成库集成了在
8、线 Notebook 开发环境,免除了环境安装烦恼。通过连接澎湃算力与免费资源支持,让用户可以轻松开发,实时保存。魔搭社区产品生态介绍 9 接下来,介绍一下 ModelScope 模型库。目前,ModelScope 社区提供了超过 200个行业的预训练 SOTA 模型。其中 60 多种模型支持调优训练,让社区模型接入更简单。与此同时,ModelScope 社区的在线 DEMO 支持可视化在线体验,让用户轻松测试,让模型体验更简单。目前,业内 SOTA 大模型中文复刻版本和达摩院自研大模型已经全面开源,支持用户免费体验。语音合成、文本摘要、图片描述、图像卡通化等百余种模型支持用户在线体验。目前,
9、标签管理已经覆盖 ModelScope 社区的全领域,多任务。帮助用户多标签管理,精准定位。在数据预处理方面,ModelScope 社区提供多种数据传输与预处理方式,实现模型的无缝对接。ModelScope 社区帮助用户进行简单灵活的数据版本管理与血缘管理,轻松托管代码与文件,支持一键关联模型库。让用户快速链接 notebook 开发环境,一键导入代码,0 门槛把玩模型!三、平台生态发展 ModelScope 社区是由中国开源发展委员会和达摩院一起发起的开源社区。目前,社区涌现了很多优秀杰出的贡献者,比如哈工大讯飞联合实验室、深势科技、澜舟科技、启智平台等等。ModelScope 作为开源协作
10、及创新平台,广邀合作,聚焦人工智能技术创新,繁荣开源生态。魔搭社区产品生态介绍 10 ModelScope 社区将携手合作伙伴建设人工智能的生态链,实现合作共赢。目前,企业可以主动申请或由运营委员会成员邀请加入。企业提供初审资料后,需要签署申请书 CLA 贡献者协议。然后,向运营委员会成员提交申请,上报运营委员会决策决议。决议通过后,联系企业盖章并回寄邀请回执和 logo 授权书。由社区颁发合作伙伴证书,联合市场发布。魔搭社区产品生态介绍 11 为了鼓励大家踊跃加入 ModelScope 社区。阿里云达摩院提出了“ModelScope 社区开发者支持计划”。给予开发者完善的开发者文档,强大易用
11、的python package、免费的算力和完整的教材体系,不断丰富线上线下的活动,让大家积极投入到社区的建设当中。魔搭平台工程框架介绍 12 魔搭平台工程框架介绍 作者:陈颖达,魔搭社区架构师 一、ModelScope 模型社区简介 Model as a service 的主旨是让 AI 爱好者、使用者、开发者、研究者能够零门槛的体验模型,简单快速的使用模型,给予模型定制完整的链路,让模型定制能够在云端部署。魔搭平台工程框架介绍 13 ModelScope 社区以模型为中心,汇聚了各领域的优质模型。以云原生设计为基础,让模型开箱即用,降低使用者的门槛。ModelScope 社区坚持开源开放原
12、则,逻辑部分完全开源,用户可直接对接所有模型或接入代码。与此同时,ModelScope 社区完全拥抱各种 AI 框架、训练模型,方便大家使用。ModelScope 社区以开发者为中心,让开发者更好的使用社区和模型。通过各领域的数据集管理,构建模型与数据的双轮驱动。魔搭平台工程框架介绍 14 ModelScope 社区立志覆盖全频谱的不同使用者,用户可以直接在 ModelScope 页面,进行模型的试验和使用。对于有一定开发能力的用户,只需要通过一两行代码,就可以直接使用模型。与此同时,ModelScope 提供云服务以及免费的计算算力,方便大家应用模型,一键部署上云。如上图所示,是 Model
13、Scope 社区的技术架构。灰色部分是后端的模型服务,以及数据集服务。社区提供了生产化的版本管理、血缘管理等一系列功能。紫色部分是社区整体开源的模型代码、模型接入、模型交互等服务,主要面向开发者。在网站前端和页面部分,社区打通云上推理服务、云上 Notebook 等产品,为用户提供直观易用的入口。魔搭平台工程框架介绍 15 ModelScope 社区基于云底座,为用户构建了零门槛的线上模型体验服务。通过ModelScope 与云上服务的无缝对接,各模态模型用户均可无门槛体验试用。对于模型开发者来说,用户可以在云端享受推理服务,当模型上传,支持自助式部署。二、用户体验 如上图所示,推理在深度学习
14、中,表示模型的预测过程。一般来说,推理会使用pipeline(串行管道过程)来执行所需要的操作。一个完整的 pipeline 一般包括了数据的前处理、模型的前向推理、数据的后处理三个过程。魔搭平台工程框架介绍 16 pipeline()方法是 ModelScope 框架上最基础的用户方法之一,可对多种领域的多种模型进行快速推理。通过 pipeline()方法,用户可以只需要一行代码即可完成对特定任务的模型推理。如上图所示,所有模型都有一个快速开始页面,用户可以看到每个模型是如何调用实现的。如上图所示,用户只需要两行代码,就能在服务器后端拉起模型,把模型加载到本地并运行。不同模态的模型都可以通过
15、修改两行参数,直接获取。魔搭平台工程框架介绍 17 目前,平台的三百多个模型都可以通过两行代码中的两个参数实现拉取。如果用户需要把模型部署到自己的云端,让云端服务进行推理。用户可以通过 SDK 直接实现。如上图所示,用户基于 ModelScope 中文 gpt3 底座二次开发得到诗词生成模型代码,通过使用原始基础模型进行推理。魔搭平台工程框架介绍 18 对于模型来说,如果开发者有开发能力,ModelScope 社区支持 SDK 进行微调。开发者可以根据自己的业务场景,目标数据集进行模型微调。在网页端,每个模型都有 Notebook 链接,用户可以直接进入云端的 Notebook 平台。用户不需
16、要任何安装或环境配置,可以直接复制模型页面的代码,点击运行即可。与此同时,ModelScope 社区提供了免费 CPU 以及 GPU 算力供大家使用。在本地部署方面,ModelScope 的本地环境配置相对简单。用户只需通过ModelScope 安装包,就可以运行模型。魔搭平台工程框架介绍 19 为了方便开发者贡献自己的模型,贡献者只需要提供 Configuratiorn、Model Flles/Checkpoints 即可。与此同时,ModelScope 社区提供了分层 API,开发者可以通过组件化的方式,将模型、预处理组件、后处理组件分开,方便用户组装。魔搭平台工程框架介绍 20 在模型微
17、调以及训练方面,ModelScope 社区支持用户 High-level API 接入。接口为 train()+evaluate()。High-level API 的代码复用度较低,开发者负责实现绝大多数流程代码,且已有模型代码接入成本较低。ModelScope社区为用户提供了实现training loop的模块抽象,支持串联data set,模型 forward,backward,梯度更新等流程。开发者只需提供模型类,预处理,Metrics,评估指标定制即可。ModelScope 社区提供 hook 机制,保障 training 流程(按需)定制化,从而提高代码的复用度。魔搭平台工程框架介绍
18、 21 在数据集方面,支持开发者读取本地,云上(OSSetc.)以及 web 数据,开发者可以对接 Model Scope Dataset-hub。ModelScope 社区保持对多种数据源(hub)开放,开发者可以直接获取 tf,torch等框架原生数据格式,对分布式训练/finetune 有更完善的支持。三、总结 综上所述,ModelScope 社区希望建立以模型和数据集为核心的生态。支持 Studio、模型服务、模型部署,让 ModelScope 社区更繁荣。魔搭平台工程框架介绍 22 ModelScope 社区通过联合模型与数据集使用者、模型研发者、数据集提供方,实现模型 finetu
19、ne 与定制化开发,让 ModelScope 社区更繁荣。ModelScope 社区,通过跟云平台的无缝融合,以低门槛的方式,让用户使用模型。接下来,ModelScope 社区希望联合不同的合作伙伴、科研机构、各高校,在云平台上共建 ModelScope 社区。ModelScope 社区利用云原生的弹性计算资源、存储资源等等,隐藏繁琐的工作。让开发者专注于擅长的算法领域、模型领域、数据级领域,不断地创新探索。大模型驱动的自然语言开放生态 23 大模型驱动的自然语言开放生态 作者:黄非,阿里巴巴达摩院语言技术实验室研究员 一、层次化预训练模型底座 在 8 月份,阿里巴巴发布了通义预训练模型体系,
20、包括 NLP、CV 和多模态等模型。在自然语言处理方面,通义 Alice Mind 预训练模型的底座包括语言理解、生成多语言、多模态等模型。除此之外,通义 Alice Mind 还有业界广泛应用的模型,比如 BERT、GPT、DeBERTa、RoBERTa 等等。在此基础上,ModelScope 社区针对自然语言,为下游任务提供了文本分类、智能对话翻译、文本纠错等模型。ModelScope 社区针对不同行业,丰富了相应的行业模型,方便开发者使用。ModelScope 社区通过建立一站式的服务平台,包括模型部署、推理、上线服务,数据集、丰富文档等等,尽可能的方便开发者使用达摩院和其他合作版提供的
21、最先进的模型能力。大模型驱动的自然语言开放生态 24 阿里巴巴自然语言处理的预训练模型 Alice Mind,为大家提供了多样模型。其中,通用预训练模型 StructBERT,在中文理解 CLUE Benchmark 榜单上,总榜/分类/阅读理解三榜第一,入选“1o Leading Language Models For NLP In 2021。与此同时,生成式预训练模型 PALM,支持条件式生成模型,在 MS MARCO 榜单上排名第一。相比中文 SOTA,PALM 的四个生成任务数据集平均提升 1.1 个点。超大中文预训练模型 PLUG,是首个统一自然语言理解和生成能力的超大中文文本预训练
22、模型(270 亿和 2 万亿参数)。目前,已初步建成 PLUG 大模型完整服务链路,大模型推理加速 10+倍。基于 PLUG 的多模态预训练模型 mPLUG,支持端到端多模态预训练模型,在 VQA Challenge 2021 中排名第一,并首次超越人类结果,被 MIT Technology Review 中国列为核心技术突破。大模型驱动的自然语言开放生态 25 与此同时,阿里云提供的多模态的预训练模型底座 mPLUG,充分利用了阿里云的计算环境。mPLUG 可以针对于下游任务开发,简单进行一些翻译任务,代码商城、作文写作、百科问答、诗词对联等等。在多模态预测模型的基础上,用户可以针对于下游任
23、务,做一些通用的开放域问答、电商域问答等等。阿里云基于统一的模块化、多模态、大模型底座 mPLUG,结合千亿级行业知识图谱的知识沉淀,采用层次化多任务预训练,构建了国内首个“知识交互”零售行业大模型,让商品“更懂”消费者和商家。大模型驱动的自然语言开放生态 26 从技术层面来讲,阿里云结合通用数据、电商知识、多模态信息,进行层次化预训练。将千亿级零售知识注入行业大模型,让行业大模型反哺知识挖掘任务。除此之外,mPLUG 模块化多模态的网络,统一支持 NLP、多模态任务。目前,mPLUG 也已广泛应用于主搜、拍立淘、闲鱼、阿里妈妈、数字人、店小蜜等多个阿里电商核心场景,大幅提升业务效果。除此之外
24、,阿里云基于 mPLUG 通用底座,进一步对话任务预训练和微调,层次化赋能开放域对话,构建基于对话大模型的知识、情感、个性、记忆,四位一体的开放域对话大模型。在知识方面,阿里云结合检索进行实时的知识储备,实现开放域知识对话。在情感方面,阿里云希望模型具备有温度、共情的对话能力。能够让模型具有不同人设、自定义的对话风格。在记忆方面,阿里云将通过长期记忆、短期记忆融合,让模型记住用户偏好,让回答更一致。大模型驱动的自然语言开放生态 27 针对任务对话,阿里云构建了通义 SPACE,主要针对任务流或特定任务,进行知识融入的预训练大模型。为此,阿里云提出了半监督模式,向预训练对话模型中注入人类标注知识
25、,打造 SPACE-1/2/3 系列模型。其中,SPACE-1 融合了对话策略知识;SPACE-2 融合了对话理解知识;SPACE-3 集理解/策略/生成一体。基于 SPACE 的对话训练模型,不仅在国际对话榜单中多次取得第一,而且应用在阿里巴巴内部的场景。大模型驱动的自然语言开放生态 28 接下来,讲一讲通义 SPACE-T,主要面向多表多轮的表格预训练模型。用户可以用自然语言对表格进行查询,方便用户获取表格信息。基于表格训练模型,阿里云在表格问答的知名榜单上取得了第一,并发表了顶会论文。二、丰富的自然语言算法模型和应用 如上图所示,命名实体识别任务(NER)的目的是识别出文本中的核心短语,
26、如新闻领域中的人名、地名、组织名等。在解决实体识别问题中,其核心问题是引入新的信息或知识。阿里云通过获取文本相关的额外知识,来补齐文本中的缺失信息,以此来提升 NER的性能。从 2021 年开始,阿里云提出隐式增强技术,通过动态融合不同预训练模型的知识,NER 在六大词法分析任务中,横跨了 24 个公开数据集,超过业界所有 SOTA。在此基础之上,阿里云进一步提出显式上下增强技术,通过检索搜索引擎、相关文本、去躁文本等操作,来进一步提升原始模型的能力。相关工作发表在 ACL 2021。在 2022 年,阿里云再此基础上进行推广,提出的“知识检索技术”在全球规模最大的语义评测 SemEval 2
27、022 大赛多语言 NER 的 13 个赛道中,取得 10 个第一,并斩获唯一的最佳系统论文奖。大模型驱动的自然语言开放生态 29 在文本分类方面,阿里云基于预训练模型,构建了多维感知器,进行文本分类。多维感知器能够无监督的学习文本中的关键信息,使分类结果更具有可解释性。阿里云多维感知器不仅在中文的自然语言理解任务中,取得了三榜第一。而且把它应用在外呼意图识别、司法分类等环节。目前,ModelScope 上相关模型有情感分类、外呼意图识别、零样本分类等等。如上图所示,阿里云基于对话问答 Space 序列,上线了意图分类模型。大家可以通过数据扫描,进行意图分类、回复生成、任务推理,代码可复现等等
28、。大模型驱动的自然语言开放生态 30 在表格问答方面,阿里云预制了一些表格问答的预算模型,大家可以直接在ModelScope 社区体验。OCR 是文字光学字符识别,文档理解非常重要的技术。阿里云将视觉和语言联合建模,通过视觉的二维信息和语言的上下文信息,更好的理解文档或表格中的文字边界,进一步识别文字。与此同时,阿里云对表格结构进行检测与重建,上线了一些基础模型,包括文字检测识别、表格检测识别、中英文表格识别等等。大模型驱动的自然语言开放生态 31 在机器翻译方面,阿里云最新自研的连续语义增强机器翻译模型。获得了自然语言处理顶 ACL 2022 的最佳论文奖。目前,该模型已开源部署在 Mode
29、lScope 社区。目前,在 ModelScope 社区上线的机器翻译主要是中英、英中、英法、法英的双向模型。开源模型包含 5.7 亿参数,翻译质量达到业内第一梯队训练数据包括 UN、WMT21、OPUS 等,规模达到 3 亿以上。大模型驱动的自然语言开放生态 32 自然语言理解是从感知智能进化到认知智能的重要阶段,也是形成决策智能的重要基石。阿里云在 ModelScope 上提供了 structBert,PALM,mPLUG,中文基础模型等预训练模型底座,共计 100+NLP 应用模型。这些模型涵盖了分词,词性,命名实体识别等基础技术,以及文本分类,情感分类,对话问答,OCR,机器翻译等应用
30、技术。涵盖了通用,新闻,电商,医疗等多领域。支持中,英,法,西等 10 多种语言模型。阿里云达摩院为大量的应用场景,提供了丰富易用,性能领先的模型库。ModelScope 助力语音 AI 模型创新与应用 33 ModelScope 助力语音 AI 模型创新与应用 作者:鄢志杰(智捷),阿里巴巴达摩院语音实验室负责人 一、语音 AI 的发展 当大家回顾语音技术的发展史时,可以清晰地发现,语音技术一直在突破与迭代,并逐渐走进每一个人的日常生活。在语音技术发展初期,它只能识别孤立的字词,渐渐地它开始识别人们说出的句子。随着移动互联网的发展,手机逐渐深入大家的生活。语音技术通过交互方式,在手机上与大家
31、进行对话。随着 Google Voice Search 的出现,人们可以通过手机语音进行搜索或输入。随着信号处理技术和深度学习技术的发展,大家可以在一定距离外,操控天猫精灵音箱等设备,获取互联网内容。近年来,以阿里小蜜电话机器人为首的电话客服类型机器人,可以用非常自然的语音交互来跟大家对话。随着疫情开始,远程的音视频会议越来越多。达摩院推出了产品“听悟”,跟钉钉、闪记等音视频会议场景的 AI 进行联动。ModelScope 助力语音 AI 模型创新与应用 34 在未来,AI 仍需加速转动创新与应用的飞轮。一方面通过持续的算法创新,不断精进应用技术。另外一方面,把成功的应用技术尽快在各行各业落地
32、,从而反哺算法技术。达摩院 ModelScope 社区希望将创新跟应用紧密连接,推动 AI 研究与应用技术的不断发展。二、ModelScope 社区助力语音 AI 发展 达摩院语音实验室通过 ModelScope 社区,把过去积累的优秀算法开源,并开放了算法生产的模型。达摩院希望每个模型开发者都可以通过 ModelScope 社区,接触到达摩院的算法和预训练模型。ModelScope 助力语音 AI 模型创新与应用 35 在 ModelScope 社区,模型开发者不但可以复原达摩院生产的预训练模型,而且可以在自己的数据领域,进行定制化开发。目前,达摩院在 ModelScope 社区开放了五大领
33、域的三十多个不同模型。包括语音识别、语音合成、语音唤醒、语音信号处理、口语语言处理领域。ModelScope 助力语音 AI 模型创新与应用 36 用户可以在每个模型的详情页,看到详细的模型信息及模型效果。用户可以直接通过网页进行交互,直观体验语音识别跟语音合成的效果。接下来,介绍一下达摩院创新的语音识别模型“Paraformer”。目前,主流语音识别模型是端到端的自回归模型。Paraformer 模型在自回归模型的基础之上,大幅提升了推理时的效率,给予用户十倍的效能提升,降低模型的服务成本。ModelScope 助力语音 AI 模型创新与应用 37 与此同时,阿里云线上 Uni-ASR 模型
34、通过 ModelScope 社区,首次开放开源。阿里云希望行业应用者,研究机构的研究者可以在此基础上,产出比达摩院更好的模型。除了中文模型,达摩院的新加坡实验室在 ModelScope 社区开放了很多其他语种的语言模型。ModelScope 助力语音 AI 模型创新与应用 38 在语音合成方面,ModelScope 社区开放了达摩院创新的语音合成声学模型SAMBERT,并且开放了达摩院预先训练好的音色,方便大家直接使用。当用户需要定制声音,只需要使用 training pipeline,通过预训练模型加翻译的方式,自主定制自己喜欢的音色。在语音唤醒方面,达摩院开放了语音唤醒词定制模型。用户只需
35、要收集少量的唤醒词数据,就可以定制自己喜欢的唤醒词。ModelScope 助力语音 AI 模型创新与应用 39 在信号处理方面,达摩院首批开放了降噪模型,回声消除模型。方便用户对语音进行降噪,回声消除等等。在口语语言处理方面,达摩院开源开放了最新的口语长文本语言处理基础模型“PoNet”。PoNet 主要用来处理口语长文本的篇章级内容,在运算效率跟理解能力上,优势突出。大家可以将 PoNet 模型,作为预训练模型使用。ModelScope 助力语音 AI 模型创新与应用 40 如上图所示,ModelScope 社区为 AI 模型开发者提供开箱即用的环境,大家只需点击右上角即可。如上图所示,用户
36、只需要两行代码,就能在服务器后端拉起模型,把模型加载到本地并运行。不同模态的模型都可以通过修改两行参数,直接获取。目前,平台的三百多个模型都可以通过两行代码中的两个参数实现拉取。如果用户需要把模型部署到自己的云端,让云端服务进行推理。用户可以通过 SDK 直接实现。ModelScope 助力语音 AI 模型创新与应用 41 除此之外,达摩院为AI模型开发者提供了,完整的工业级语音合成模型训练recipe。达摩院在 ModelScope 社区,将 SAMBERT 语音合成模型开源。开发者可以基于达摩院 ModelScope SAMBERT 预训练模型及自有音库,实现完全自主语音合成模型训练。目前
37、,更多其它各类模型训练 recipe 陆续开源中。在应用侧,阿里云即将推出语音 AI 模型服务。当用户进入语音 AI 模型服务,只需语音模型,就能建立一个 API 服务。用户在享受模型高精度的同时,该服务是完全弹性的。让大家以更高精度、更低成本,使用模型 API 应用。ModelScope 助力语音 AI 模型创新与应用 42 达摩院希望通过 ModelScope 社区,释放 AI 模型创新的原动力,通过阿里云语音 AI模型服务,为用户提供一站式的 API 服务。ModelScope 社区与 AI 创新者、应用者并肩携手,让语音 AI 技术产生更高价值。达摩院通义视觉生成大模型 43 达摩院通
38、义视觉生成大模型 作者:赵德丽,达摩院基础视觉实验室负责人 一、AI 系统的多模态学习 目前,AI 发展呈现三个方向。第一,深耕产业化。比如自动驾驶、智慧医疗、智慧农业等等。第二,构建平台。比如 Hugging、Face、ModelScope 等等。第三,人工智能基础设施 AI system。比如谷歌提出的 Pathways 概念,一个基础设施能解决千万个问题。AI system 必须可开发、可维护、可迭代、可扩展。因此,AI system 的底层架构必须是统一的技术架构。达摩院通义视觉生成大模型 44 接下来,讲一讲 AI 的多模态生成。主要基于多模态学习,即一种机器学习的范式转移。它的意义
39、非常深远,图像标注从单一标签到语言描述的使用方式变化,改变了AI 领域数据获取和使用的方式,直接带来了算法的新范式,也就是多模态学习。如上图所示,传统的图像学习,只能对图片主体进行描述,比如“豹子”。多模态学习可以对图片用一句话进行描述。比如“一只褐色的豹子,站在草地上望着远方”。这句话包含了图像里主体的数量、动作、环境、属性等等,它的语义变得更加丰富。目前,多模态学习分为两大方向。一个是多模态表征学习,提炼图像特征,进行图像描述。另一个是生成模型,系统通过一句话的描述,生成一个与语言描述相符的图片。达摩院的知识重组大模型训练,在训练方式上进行了创新。达摩院把数据以经验知识为结构,进行分类重组
40、。然后,从先验知识的分组中采样,输入基础模型训练。达摩院的统一大模型是“数据+知识”双驱动的智能结构。由于达摩院的训练模型直接从数据库里采样,采样图像直接输入模型并训练,然后进行模型部署。因此,知识重组训练方式相比传统的训练方式更加直观,更加简单。达摩院通义视觉生成大模型 45 如果基于知识重组的概念,系统把它当成一个语义相似的类别,这个类别中包含了很多的动作或表情,比如惊讶。因此,系统会构造出很多的知识类别,相比传统方式更具有相关性。在训练大模型时,系统以 Knowledge Group 为单位进行训练,它的收敛速度、优化结果都有显著提高。数据量越大,效果越明显。二、多模态可变的扩散模型 接
41、下来,讲一讲维度可变的扩散模型,这是目前效果最好的一种生成模型范式。达摩院通义视觉生成大模型 46 传统的生成器架构,使用原始的扩散模型。比如一个小图像会通过阶段性的学习超分模块,成为一个大图。当训练数据量非常大时,多阶段的超分学习方没有纠错能力,经常会出错。因此达摩院在文本生成图像模型方面,进行创新,达摩院提出维度可变的扩散模型生成器,采取端到端学习的方式,不仅高效,而且有非常强的纠错能力。接下来,举几个例子。上图中戴着毛绒绒帽子的树懒和彩色小鸟,是算法生成的虚假图片,并不是来自某个设计师。达摩院通义视觉生成大模型 47 上图中的人物极具真实感,很像照相机拍摄的效果。但这些都是是算法直接出图
42、的效果。除此之外,如上图所示,该模型还可以自动生成二次元的动漫风格。上图中带有 3D 效果的动画场景,比如房子、街道、风景、人物等等,均是模型自动生成的。达摩院通义视觉生成大模型 48 与此同时,用户还可以基于模型,进行创意应用,比如创意广告的图片生成。如上图所示,系统可以将一个茶壶,放到一茶园、落日、瀑布等场景,非常自然地融入。与此同时,达摩院对文本生成视频进行探索,相比文本生成图像,它的效果暂时没有那么真实。文本生成视频的算法架构,是基于文生图预训练模型的视频生成架构。因此视频生成效果直接取决于,文本生成图像的基础能力。达摩院通义视觉生成大模型 49 目前,上述的文本生成模型均在 Mode
43、lScope 社区开源,大家可以登陆网址:https:/,或者通过手机扫描上方的二维码进行体验。视觉 AI 能力的开放现状及 ModelScope 实战 50 视觉 AI 能力的开放现状及 ModelScope 实战 作者:谢宣松(星瞳),达摩院开放视觉智能资深算法专家 一、视觉技术发展史 视觉是人类获取信息的最大渠道,它的应用非常广泛。在视觉领域,所有的信息都从感知增强开始,通过压缩传输、评估安全、搜索挖掘、生成编辑、认知理解,直至最后的重建互动。视觉 AI 能力的开放现状及 ModelScope 实战 51 视觉分类有很多维度,可以从技术、模态等维度进行分类。比如识别分割、缺陷检测、语义分
44、割、外在识别等等。因此不管从技术维度、模态维度、其他应用维度来看,视觉分类非常广泛。与此同时,视觉开放也有多种形态。比如开放学术圈的方法与思想,开放中高级开发者的模型与数据,开放初中级开发者的 API,开放开发者的 SDK 组件,以及开放用户产品的解决方案等等。视觉 AI 能力的开放现状及 ModelScope 实战 52 为此,阿里巴巴在视觉开放方面,做了很多努力。比如达摩院针对 API 形态,开放的视觉智能开放平台。该平台开放了 15 类能力,200 多种 API 能,日均调用达到亿级,目前开通的用户达到了七万人。二、ModelScope 社区视觉模型概览 除此之外,阿里巴巴通过“模型+服
45、务”或者“模型+数据”的方式,完成了模型形态的能力开放。主要分为视觉感知类、视觉理解类、视觉生产类。ModelScope 社区兼容国际主流的开源框架,坚持学术研究与产业应用的双轮驱动。视觉 AI 能力的开放现状及 ModelScope 实战 53 接下来,介绍一些在 ModelScope 社区开源的视觉模型。如上图所示,视觉理解,开放能力主要分为图像分类,目标检测,图像分别三个环节。其中,图像分类模型主要有 VIT 图像分类,动物识别,万物识别等等;目标检测模型主要有通用实时检测模型,VitDet 图像目标检测,StreamYOLO 实时视频目标检测等等。在图像分割模型方面,主要有 Casca
46、deMaskRCNN-SwinB 图像实例分割,BSHM 人像抠图,Mask2Former-SwinL 全景分割等等。视觉 AI 能力的开放现状及 ModelScope 实战 54 如上图所示,达摩院开放的生物识别能力主要包含三个模型,即生物识别系统Pipeline、RetinaFace 检测关键点模型、CurricularFace 识别模型。其中,生物识别系统 Pipeline 包含三个模块:人脸检测,人脸关键点和人脸识别模型。目前可体验 MogFace 人脸检测,Mtcnn 人脸检测关键点模型,1M 人脸检测模型 ULFD,RetinaFace 人脸检测关键点模型,CurricularFa
47、ce 人脸识别模型和人脸表情识别模型 FER。RetinaFace检测关键点模型的优势在于,人脸检测关键点二合一模型;单阶段&e2e,使用 MobileNet Backbone 可以在端上实时 inference。CurricularFace 识别模型的优势在于,它提出一种自适应的课程学习损失函数,解决了基于间隔和难样本挖掘损失函数的固有缺陷问题。视觉 AI 能力的开放现状及 ModelScope 实战 55 如上图所示,ModelScope 社区在生物智能方面开放了经典的 MogFace 检测模型、1M 检测模型 ULFD、MTCNN 检测模型、以及 FRE 表情识别模型。其中,MogFac
48、e 检测模型的优势在于,提出一种解决误检的方法,解决了人脸检测实际应用时面对的挑战。MogFace检测模型是Wider Face榜单上的六项冠军模型,并已持续一年以上。1M 检测模型 ULFD 的优势在于,无特殊算子,支持 onnx 导出,便于移植推理。在FP32 精度下,模型大小为 1.1MB,推理框架 int8 量化后大小为 300KB 左右。FRE 表情识别模型的优势在于,backbone 是 VGG19,后面接一个 fc 层,在性能和速度实现了较好的 trade-off。目前,Fer 为人脸表情识别领域的明星项目,网络结构比较简单。除此之外,阿里云达摩院在 ModelScope 社区开
49、放了视频增强相关能力。让用户在视频制作、播出等场景中提供全面的画质提升能力,让 AI 画质管理品类成为视频业务的基础设施。如上图所示,视频增强能力主要有四个方面,即色彩增强、画质评估、时域增强、清晰度。视觉 AI 能力的开放现状及 ModelScope 实战 56 如上图所示,在 ModelScope 社区,以人像增强模型为例。它可以实现图像的超分辨率、人像增强、图像降噪、图像上色、图像颜色增强等等。在视觉编辑能力方面,达摩院在 ModelScope 社区开放了风格迁移、人像动漫化、人像美肤等能力。其中,风格迁移可以将给定图像和参考图像作为输入,风格迁移模型会自动地将图像变为参考图的风格。人像
50、动漫化可以实现,端到端全图卡通化转换,生成二次元虚拟形象。人像美肤主要对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。视觉 AI 能力的开放现状及 ModelScope 实战 57 接下来,讲一讲多风格模型。用户输入的一张图可以有平面风格,立体风格,以及制作视频等等。除此之外,它还能将图片变成完整的 3D 卡通化视频。接下来,讲一讲行业视觉的相关能力。由于高质量标注数据获取的成本极高,实际场景中存在大量已采集但未标记的领域数据。因此达摩院希望可以充分利用无标记数据,提升现有模型的精度。视觉 AI 能力的开放现状及 ModelScope