资源描述
1 2023 China Insights Consultancy.All rights reserved.This document contains highly confidential information and is solely for the use of our client.No part of it may be circulated,quoted,copied or otherwise reproduced without the written consent of China Insights Consultancy.CIC灼识咨询灼识咨询大模型与大模型与AIGC蓝皮书蓝皮书3I.大模型如今已展现出卓越的能力,随着其不断演进和完善,大模型如今已展现出卓越的能力,随着其不断演进和完善,必将引领必将引领AI的未来道路,开创智能时代的新纪元的未来道路,开创智能时代的新纪元II.受益于大模型技术的日益成熟,受益于大模型技术的日益成熟,AIGC有望掀起新一轮产业革有望掀起新一轮产业革命,开启人类发展的智能新时代命,开启人类发展的智能新时代III.GPGPU高度并行的计算资源为大型模型的训练和推理提供了高度并行的计算资源为大型模型的训练和推理提供了不可或缺的支持,推动了大模型与不可或缺的支持,推动了大模型与AI领域的不断进步和创新领域的不断进步和创新IV.彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率目录目录4行业行业数据及数据及AI基础设施建设基础设施建设中国中国AI应用情况应用情况AI应用的挑战应用的挑战数据量数据质量IT系统成熟度中国AI支出占AI市场比例,2022AI占IT支出比例AI支出CAGR,22-27E20222027E金融金融12.1%11.8%19.8%28.1%不同机构之间的数据孤岛数据系统安全及隐私零售零售5.7%3.7%5.7%26.6%传统零售商获取结构化/高度可用的数据供应链机器学习算法优化制造业制造业8.6%1.8%4.4%43.6%专注单点技术突破,但无法跨场景规模化应用数据整合程度低,管理欠佳AI解决方案供应商分散能源能源2.6%5.1%9.8%41.4%AI应用/转型进度较慢医疗医疗5.6%5.5%8.2%27.6%数据分散在各医院/管理机构数据系统安全及隐私汽车汽车12.3%19.5%25.5%21.0%自动驾驶数据融合难度高政府政府27.1%21.6%28.3%18.7%不同机构之间的数据孤岛数据系统安全及隐私强/主要的弱/次要的全球全球AI市场预计将于市场预计将于2030年达到年达到1万亿美元,并且全球超过万亿美元,并且全球超过15%的的GDP将由将由AI驱动;驱动;AI在各垂直领域的应用渗在各垂直领域的应用渗透率也将继续提升。透率也将继续提升。AI应用现状应用现状AI在垂直领域中的应用在垂直领域中的应用资料来源:灼识咨询5AI可分为ANI(Artificial Narrow Intelligence)、AGI(Artificial General Intelligence)和ASI(Artificial Super Intelligence)。ANI是专注于执行某一领域任务的经过训练的人工智能,是目前大多数的AI形式;AGI是通用人工智能,是指一种具有与人类相当的认知能力的智能系统,能够理解、学习、计划和解决问题;ASI是超级人工智能,指在几乎所有领域都超过最优秀的人类所具备的智能、知识、创造力、智慧和社交能力的智能系统。目前,ANI已经广泛应用,AGI处于研发阶段,而大模型是实现AGI的重要路径。定义定义AI的三种类型比较的三种类型比较擅长领域擅长领域具备能力具备能力发展成熟度发展成熟度某一特定领域具备执行能力已应用广泛大部分领域拥有能够与人类相媲美的智慧处于研发阶段所有领域全知全能尚处早期专用人工智能专用人工智能(ANI)超级人工智能超级人工智能(ASI)大模型是实现大模型是实现AGI的重要路径,其具有诸多特点的重要路径,其具有诸多特点 涌现性涌现性大模型参数超过百亿级时,模型性能会呈现出指数级增长,同时能够对未经专门训练的问题举一反三。工程化工程化大模型对数据、算法、算力要求极高,需要工程化的经营思路。需要严格把控数据清洗,把控用于关键性训练的数据,和构建大规模高质量训练的算力。高投入高投入大模型具有重投入、长周期的特点,如每次测试需要海量的算力资源,训练一次成本高达千万美元。通用性通用性大模型可以快速并大规模地与云计算、互联网等其他技术结合,广泛地应用在经济的各个领域。大模型是基于海量多源数据打造的模型,其是实现通用人工智能(大模型是基于海量多源数据打造的模型,其是实现通用人工智能(AGI)的重要路径。大模型可以整合多种不)的重要路径。大模型可以整合多种不同类型的数据和信息,实现多模态处理和分析,从而更全面地理解和解决复杂问题,其具备通用性、涌现性等同类型的数据和信息,实现多模态处理和分析,从而更全面地理解和解决复杂问题,其具备通用性、涌现性等诸多特点。诸多特点。通用人工智能通用人工智能(AGI)四大特点四大特点资料来源:灼识咨询大模型的定义大模型的定义6大模型产业涵盖了行业应用、产品服务、模型工具和基础设施四个关键层面,广泛应用于各行业与垂直场景,大模型产业涵盖了行业应用、产品服务、模型工具和基础设施四个关键层面,广泛应用于各行业与垂直场景,前景广阔。前景广阔。大模型产业图谱大模型产业图谱资料来源:中国信通院,灼识咨询行行业业应应用用产产品品服服务务模模型型与与工工具具基基础础设设施施金融金融教育教育艺术设计艺术设计游戏游戏医药医药文化娱乐文化娱乐其他其他文本文本图像图像音频音频视频视频虚拟空间虚拟空间代码代码算法模型算法模型工具平台工具平台模型托管模型托管/交易交易数据数据云平台云平台芯片芯片大模型相关产业图谱大模型相关产业图谱7基础大模型基础大模型1精调大模型精调大模型2能力涌现的大模型能力涌现的大模型3模模型型变变化化模型示意图,以模型示意图,以GPT-3模型为例模型为例共共128层层每层每层千个千个节点节点每层每层千个千个节点节点每层每层千个千个节点节点指令精调示意图指令精调示意图能力涌现示意图能力涌现示意图学习输出模板学习输出模板建立评分机制建立评分机制根据结果重复优化过程根据结果重复优化过程人工对大量问题的回答形成模板供模型学习人工对模型的数个输出进行排序,建立奖励模型并为后续结果进行打分模型根据打分结果调整后续输出,并不断重复上述过程以优化模型随着模型参数的指数级增长,大模型能力呈现明显的爆发增长,呈现能力涌现的情况。指令精调在于确保模型输出结果的准确性及安全性,在该阶段需要使用较多的人工标注介入。在此基础上,引入奖励模型,让模型脱落人工指引,实现自优化。GPT-3采用了96层的多头Transformer,参数量达到1,750亿,并使用45TB数据进行训练。模模型型特特征征具备大量知识储备,能理解并生成语言,质量差强人意。能按照人类偏好及普世价值取向,并保证一定安全性的前提下生成高度可用的内容。具备逻辑推理能力及上下文理解能力,更接近人类水平。语境理解多任务自然语言理解真实问答场景映射修辞手法单词解谜国际音标转写取余数运算准确性准确性准确性准确性准确性准确性准确性准确性模型规模模型规模大模型的演变经历大模型的演变经历3个阶段:基础大模型具备大量知识储备,能理解并生成内容,质量差强人意;精调大模型能个阶段:基础大模型具备大量知识储备,能理解并生成内容,质量差强人意;精调大模型能按照人类偏好及普世价值取向、并保证一定安全性的前提下,生成高度可用的内容;而出现能力涌现的大模型按照人类偏好及普世价值取向、并保证一定安全性的前提下,生成高度可用的内容;而出现能力涌现的大模型所生成的内容接近人类水平。所生成的内容接近人类水平。大模型演变概览大模型演变概览资料来源:“Are Emergent Abilities of Large Language Models a Mirage?”,灼识咨询低/弱高/强大模型的演变大模型的演变8C端端B端端企业自用企业自用主要特点主要特点应用案例应用案例主要变现模式主要变现模式大模型的终端用户分类大模型的终端用户分类大模型的终端用户大模型的终端用户主要用于个人娱乐、学习和创作标准化程度高,普适性强强调用户友好性与互动性C端用户订阅针对企业和机构,提供针对性解决方案的大模型通常基于基础大模型,根据不同企业、行业的需求进行一定程度的定制,模型较为异质化、用途多样强调模型在不同领域的专业能力,以及客户的数据隐私和安全B端企业用户订阅或购买非定制化行业模型主要用于内部业务优化个性化定制,解决企业独特的问题和需求数据保密性至关重要,强调内部控制和数据安全无直接变现,主要作用在于降低企业自身运营成本并提升效率大模型的终端用户包括大模型的终端用户包括C端、端、B端和企业自用三类。端和企业自用三类。C端用户一般使用标准化的模型产品,端用户一般使用标准化的模型产品,B端用户更倾向于选择端用户更倾向于选择能满足行业或企业特定需求的个性化解决方案,而企业自用的模型则旨在降低运营成本、提高运营效率、优化能满足行业或企业特定需求的个性化解决方案,而企业自用的模型则旨在降低运营成本、提高运营效率、优化产品的用户体验。产品的用户体验。资料来源:灼识咨询9大模型在多领域表现卓越,在自然语言理解、学习能力、视觉听觉识别等领域可以媲美甚至超越人类。提高大大模型在多领域表现卓越,在自然语言理解、学习能力、视觉听觉识别等领域可以媲美甚至超越人类。提高大模型的创造能力、减少对数据的依赖性、加强隐私保护等将会是大模型迭代的重点。模型的创造能力、减少对数据的依赖性、加强隐私保护等将会是大模型迭代的重点。资料来源:“Computers ace IQ tests but still make dumb mistakes.Can different tests help?”,灼识咨询-1-0.8-0.6-0.4-0.200.219982003200820132018MNIST(handwriting recognition)Switchboard(speech recognition)ImageNet(image recognition)SQuAD 1.1(reading comprehension)SQuAD 2.0(reading comprehension)2GLUE(language understanding)人类表现大模型在不同场景中与人类表现对比大模型在不同场景中与人类表现对比MNIST(手写识别)ImageNet(图像识别)SQuAD 2.0(综合阅读)Switchboard(语音识别)SQuAD 1.1(综合阅读)GLUE(语言理解)大模型尚不具备大模型具备但仍需改进大模型具备且可与人类媲美创造性思维自然语言自然语言理解理解视觉视觉识别识别伦理是非判断直觉抽象思维学习能力学习能力艺术表现情感判断听觉识别听觉识别视觉视觉/听觉识别:听觉识别:基本达到甚至一定程度上超越人类,准确率较高学习能力:学习能力:具备自动学习能力,在特定任务和数据集上可以超越人类自然语言理解:自然语言理解:熟练掌握多种人类语言,基本达到甚至一定程度上超越人类,存在一定语言不够自然(机械化)的问题创造性思维:创造性思维:能够生成创造性内容,但通常是在已知样本的基础上进行创作或是需要人类指导/二次修改抽象思维:抽象思维:相对有限,依赖于数据与模型参数艺术表现:艺术表现:可以生成艺术作品,但通常缺乏情感和创新情感判断:情感判断:能够进行情感分析,但不具备真实情感体验伦理是非判断:伦理是非判断:不具备,可能引发错误或数据隐私等安全问题直觉:直觉:不具备大模型的表现大模型的表现10BLOOM随着大模型的不断演进,它们的参数规模也呈现出指数级增长的趋势;与此同时,它们的复杂性和功能愈发提随着大模型的不断演进,它们的参数规模也呈现出指数级增长的趋势;与此同时,它们的复杂性和功能愈发提升,使得大模型能够在各领域担任更加多样和复杂的任务。升,使得大模型能够在各领域担任更加多样和复杂的任务。资料来源:HAI,灼识咨询参数数量参数数量时间时间Wu Dao 2.0 GPT-3 175B(davinci)Turing NLG T5-11BMegatron-LM(Original,8.3B)T5-3BMeenaGrover-MegaGPT-2Megatron-Turing NLG 530B HyperClovaPanGu-uJurassic-1-JumboGopherPaLM(540B)Minerva(540B)GLM-130BChinchillaGPT-NeoX-20BJurassic-XDALL E 2 Stable Diffusion(LDM-KL-8-G)OPT-175BDALL-ECodexERNIE 3.0 GPT-J-6BCogViewGPT-NeoWu Dao-Wen Yuan ERNIE-GEN(large)3.2e+83.2e+93.2e+103.2e+123.2e+1120192020202120222023GPT-4(1.8T)Sparrow(70B)Claude(52B)Ernie Bot(260B)ChatGLM-6B通义千问(7B)日日新(180B)在大模型出现之前,机器学习算法的参数量以平均每5-6年翻一个数量级的速度快速增长,而大模型的出现使模型参数量的增长速度大幅提升。举例而言,大模型及多模态模型的鼻祖之一GPT-2发布于2019年,参数量为15亿;GPT-3发布于2020年,参数量即达到了1,750亿,相比GPT-2增长了100多倍。粗略计算,在大模型兴起的前几年,大模型的参数量每年即可增长1-2个数量级。在目前已公开参数量的大模型中,参数量最多的达到了1.75万亿。分析分析大模型的发展及参数量大模型的发展及参数量大模型的发展现状大模型的发展现状11应用场景应用场景主要用途主要用途相关大模型相关大模型描述描述文本文本营销(内容)销售(邮件)通用写作记笔记GPTGopherOPTBloomCohereAnthropicAI2Yandex模型比较擅长通用的短/中篇幅写作,通常用于初稿及更新稿撰写模型能够理解上下文,生成更自然的文本,准确性逐渐接近人类水平,广泛应用于智能客服、文本摘要、内容生成等领域编程编程代码生成代码文档化文本到SQL网页应用构建GPTTabnineStability.ai代码生成可能在短期内对开发人员的生产力带来重大影响能降低非开发人员编程的门槛图像图像图像生成消费者/社交应用媒体/广告设计Dall-E 2Stable DiffusionCraiyon在图像识别、分割、风格转换等领域有广泛应用,能够处理复杂的视觉任务不同风格的图像模型以及编辑和修改生成图像技术音频音频语音合成OpenAI对声音和语音的理解能力逐渐提高,生成的音频逐渐自然、不机械,且接近人类水平视频视频视频编辑/生成X-CLIPMake-A-Video用于自动剪辑、特效创作、噪音修复、虚拟场景制作等,大大提升了编辑效率3D3D模型/场景搭建DreamFusionGET3DMDM(Motion Diffusion Model)在游戏、电影、虚拟现实、建筑和实体产品设计等大型创意市场极具潜力大模型正在各应用场景崭露头角,其应用场景广泛且多样化。从自然语言处理到图像生成,从音频处理到视频、大模型正在各应用场景崭露头角,其应用场景广泛且多样化。从自然语言处理到图像生成,从音频处理到视频、3D场景创建,大模型能够应对多领域的挑战。未来,大模型有望为更多应用场景带来更多机会和创新。场景创建,大模型能够应对多领域的挑战。未来,大模型有望为更多应用场景带来更多机会和创新。大模型的应用场景大模型的应用场景资料来源:红杉资本,灼识咨询大模型的应用大模型的应用12资料来源:红杉资本,灼识咨询大模型在不同领域的进展大模型在不同领域的进展垃圾邮件检测、翻译、基本问答一行代码自动填写终稿超越人类平均文本到产品(草稿)终稿模型(产品设计、建筑等)终稿超越专业作家文本到产品(超越全职开发者)终稿超越专业设计师、艺术家、摄影师AI Roblox定制游戏与视频完善垂类精调能力(例如科研论文)更多编程语言及领域基本文案及初稿撰写多行代码生成3D及视频文件二稿概念模型(如产品设计、建筑等)3D及视频文件初稿更长文案及二稿撰写更长更准确的代码艺术、logo创作、摄影时间线时间线视频/3D/游戏图像编程文本大模型在多个领域的应用上取得了显著进展,文本生成、编程、图像处理等领域的能力逐渐完善,有望商业化大模型在多个领域的应用上取得了显著进展,文本生成、编程、图像处理等领域的能力逐渐完善,有望商业化落地。然而,落地。然而,3D、视频、游戏等领域发展相对较慢,但潜力巨大,需要更多时间来成熟和商业化。、视频、游戏等领域发展相对较慢,但潜力巨大,需要更多时间来成熟和商业化。发发展展程程度度商业化落地商业化落地基本完善基本完善初试阶段初试阶段已经准备就绪,性性能稳定能稳定,可以投入商业应用性能提升显著,已接近商业应用水平,但仍需微仍需微调和测试调和测试参数较少,性能有限性能有限,需要进一步优化和训练显著增强开发人员工作效率为普通用户提供了编程的可能性不断增长的个性化网络及电子邮件内容需求为大语言模型提供了理想的应用场景有机会为特定的终端市场构建更出色的生成型应用,例如法律合同撰写、剧本创作等允许任何人随意探索不同的艺术主题和风格,这在以前可能需要终身学习并完善已可实现根据草图和prompt进行高清渲染随着 3D 模型的出现,生成式设计流程将延伸到制造生产,即文本到对象大模型的应用大模型的应用13大模型在垂直行业的应用大模型在垂直行业的应用大模型应用情况大模型应用情况典型案例典型案例在金融领域,大模型主要应用包括风险评估、量化交易、柜台业务办理等。以风险评估为例,大模型可用于预测信用风险、欺诈检测和市场趋势分析。第四范式携手中关村银行,以“式说”大模型为基础,联合开展多模态智慧金融平台研发及私有化部署,在行内规章制度及人员信息查询、行业术语通俗化解释、客户经理信贷管理、人工客服问答推荐、理财业务办理、AI应用快速研发等多个环节形成大模型能力。金融金融垂直行业垂直行业代表玩家代表玩家在医疗领域,大模型可应用于疾病诊断、药物发现等场景。以疾病诊断为例,大模型可用于医学图象识别,如X射线、MRI和CT扫描,以帮助医生诊断疾病。科大讯飞利用星火认知大模型打造“诊后康复管理平台”,将“专业的诊后管理和康复知道延伸到院外”,可根据患者健康画像自动分析,为患者生成个性化康复计划,并督促患者按计划进行。医疗医疗在汽车领域,大模型可应用于自动驾驶、虚拟设计和仿真、质量控制、供应链管理、销售和营销、定制设计、新能源汽车性能优化等。百度智能云为长安汽车提供了人工智能基础设施平台和数字人平台,双方正在开发一款基于文心大模型的生成式人工智能产品,以提升用户体验。同时,百度与吉利汽车一起打造汽车行业大模型,构建工厂数字化大脑,降低管理运维成本,提高资源利用效率。汽车汽车在制造业领域,大模型主要应用场景包括工业自动化、供应链优化等。以工业自动化为例,大模型可用于监控生产过程,预测设备故障,提高生产效率。华为云携手赛意信息,基于盘古大模型的自然语言大模型和视觉大模型,共同打造制造业大模型,为制造业客户提供针对工艺工程AI自动化、AI质检、供应链的智能优化等细分场景,提供“开箱即用”的模型服务。制造制造在零售行业,大模型可应用于个性化推荐、价格优化等场景。以个性化推荐为例,大模型可用于分析客户行为,提供个性化产品建议和广告走向。京东发布“言犀”大模型产品,支持语言、语音、视觉、多模态等应用。以AIGC创作内容营销为例,大模型的应用可使每套图的制作成本降低90%,制作周期从7天缩短至半天。零售零售大模型也已开始逐步渗透进金融、医疗、汽车、制造、零售等行业,头部大厂及垂类解决方案服务商相继推出大模型也已开始逐步渗透进金融、医疗、汽车、制造、零售等行业,头部大厂及垂类解决方案服务商相继推出适用于各垂直行业的解决方案,助力行业变革。适用于各垂直行业的解决方案,助力行业变革。资料来源:灼识咨询大模型的应用大模型的应用142011 2015“十二五”规划十二五”规划 推进推进产业智能化改革产业智能化改革 促进基于互联网的人工智能应用促进基于互联网的人工智能应用2016 2020“十三五”规划十三五”规划 强调人工智能为战略前沿领域强调人工智能为战略前沿领域 制定制定人工智能发展目标人工智能发展目标2021 2025“十四五”规划十四五”规划明确人工智能应用的重点领域明确人工智能应用的重点领域规范生成时人工智能服务规范生成时人工智能服务2015年年5月:国务院月:国务院中国制造中国制造 20252015年年7月:国务院月:国务院国务院关于积极推动“互国务院关于积极推动“互联网联网+”行动的指导行动的指导2016年年7月:国务院月:国务院“十三五”国家科技创新规划十三五”国家科技创新规划2017年年7月:国务院月:国务院新一代人工智能发展规划新一代人工智能发展规划2020年年7月:中央网信办等五部门月:中央网信办等五部门国家新一代人国家新一代人工智能标准体系建设指南工智能标准体系建设指南2021年年3月:全国人大月:全国人大中华人民共和国国民经济和社会发展第十四个五中华人民共和国国民经济和社会发展第十四个五年规划和年规划和 2035年远景目标纲要年远景目标纲要2022年年8月:月:科技部科技部关于支持建设新一代人工智关于支持建设新一代人工智能示范应用场景的通知能示范应用场景的通知2023年年4月:国家网信办月:国家网信办生成式人工智能服务管生成式人工智能服务管理办法(征求意见稿)理办法(征求意见稿)大模型相关政策概览大模型相关政策概览提出基于信息物理系统的智能制造技术引领制造方式变革推进生产过程智能化加速人工智能核心技术突破促进人工智能在生活、工作、公共领域的创新应用,如智能家居、智能终端、服务型机器人等加强智能机器人等关键技术研发和应用推广整合优化资源配置,瞄准引领未来发展的战略领域2030年成为世界主要人工智能创新中心深化人工智能在制造、农业、金融、教育、医疗、交通等领域的融合应用加强人工智能领域标准化顶层设计,推动人工智能产业技术研发和标准制定瞄准人工智能等前沿领域,实施一批具有前瞻 性、战略性的国家重大科技项目 强调人工智能在重点领域的应用,包括公共安全、智慧城市、医疗健康、重大活动等需求迫切且普惠性强的领域规定了提供生成式人工智能产品或服务应当遵守法律法规的要求利用生成式人工智能生成的内容应当体现社会主义核心价值观随着大模型相关政策的出台,大模型的发展得到了进一步的推进和规范。这些政策不仅为大模型的研发和应用随着大模型相关政策的出台,大模型的发展得到了进一步的推进和规范。这些政策不仅为大模型的研发和应用提供了指导和支持,同时也为大模型的推广和应用提供了更加广阔的空间和机遇。提供了指导和支持,同时也为大模型的推广和应用提供了更加广阔的空间和机遇。资料来源:灼识咨询大模型的相关政策大模型的相关政策15GPT-1GPT-2GPT-3ChatGPT/GPT-3.5GPT-4 API支持的token输入从3.2万个升级到12.8万个,相当于一本标准大小的300页纸质书所包含的文本量理解复杂情景理解复杂情景1新的模型允许开发者指示模型固定以特定形式返回。同时开发者可以通过访问参数和响应字段,来实现“模型对每次请求都给出确定性的输出”。开发者权限提升开发者权限提升2添加多模态处理能力以接受文生图及声音合成。3GPT-4 Turbo的亮点的亮点使用大数据对Transformer模型进行无监督的预训练。在小型监督数据集上进行微调。在测试常识推理和阅读理解的数据集上取得了杰出的成果。解决零次样本学习问题,使模型更具通用性。数据量的指数增长使得可以使用少量样本进行学习,接近人脑学习模式。基于GPT-3模型的微调已有落地于其他领域,包括代码生成、图像生成、数学算术等。优化与现实语料库数据集的连接。支持多轮对话和结果修正,并能够更快速、更有效地进行人机交互。解决更复杂的任务并增强安全性。多模态能力叠加图像识别。参数数量预训练数据集量ChatGPT:建立在:建立在OpenAI引入的深度学习模型引入的深度学习模型GPT基础上,它已经成为迄今为止增长最快的基础上,它已经成为迄今为止增长最快的APP之一。之一。多模态多模态API资料来源:灼识咨询GPT的发展历程的发展历程大模型典型案例(大模型典型案例(1/2)推出GPT store,用户可以共享GPT用法GPT-4 API升级为GPT-4 Turbo并降价发布GPT assistant API,使开发者可以在自己的应用程序中构建Agent开源语音和图像模块GPT-4 Turbo与与GPT Store对于现实世界的理解从2021年9月更新至2023年4月。4知识库更新知识库更新16文心一言文心一言3.5大模型典型案例(大模型典型案例(2/2)百度文心:中国领先大模型之一,且对于中文有更深入的理解。百度文心:中国领先大模型之一,且对于中文有更深入的理解。百度文心一言概览百度文心一言概览文心一言文心一言4.0的亮点的亮点文心一言文心一言4.0VS逻辑能力提升幅度是逻辑能力提升幅度是理解能力提升幅度的理解能力提升幅度的300%文心一言文心一言4.0相比于相比于3.5版本,显著提升了版本,显著提升了理解、生成、逻辑、记忆四大能力理解、生成、逻辑、记忆四大能力记忆能力提升幅度是记忆能力提升幅度是理解能力提升幅度的理解能力提升幅度的200%能够理解乱序、模能够理解乱序、模糊意图、潜台词等糊意图、潜台词等复杂提示词复杂提示词几分钟内生成几分钟内生成海报、营销视频等复海报、营销视频等复杂图像和视频杂图像和视频逻辑能力提升,逻辑能力提升,解答数学难题并解答数学难题并总结知识点总结知识点能够完成完成能够完成完成千字小说千字小说撰写和角色、情节设置撰写和角色、情节设置资料来源:IDC,灼识咨询L1L2L3L4L4L3L2L1L1L2L3生态能力生态能力应用能力应用能力产品能力产品能力百度文心大模型百度文心大模型国内大模型平均分国内大模型平均分注:目前尚未有厂商在产品能力和生态能力方面达到L5,应用能力尚未有厂商达到L4,因此不在本次评估中凸显根据IDC公布的数据,百度文心大模型在产品能力、应用能力、生态能力方面在中国领先。国内市场格局领先国内市场格局领先1百度作为中国搜索引擎龙头,拥有更多的中文语料数据进行模型训练。因此,百度文心大模型对中文有更深入的理解,能够熟练使用成语、写藏头诗等。对中文的深入理解对中文的深入理解217I.大模型如今已展现出卓越的能力,随着其不断演进和完善,大模型如今已展现出卓越的能力,随着其不断演进和完善,必将引领必将引领AI的未来道路,开创智能时代的新纪元的未来道路,开创智能时代的新纪元II.受益于大模型技术的日益成熟,受益于大模型技术的日益成熟,AIGC有望掀起新一轮产业革有望掀起新一轮产业革命,开启人类发展的智能新时代命,开启人类发展的智能新时代III.GPGPU高度并行的计算资源为大型模型的训练和推理提供了高度并行的计算资源为大型模型的训练和推理提供了不可或缺的支持,推动了大模型与不可或缺的支持,推动了大模型与AI领域的不断进步和创新领域的不断进步和创新IV.彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率目录目录18AIGC定义定义AIGC是继是继PGC和和UGC之后之后,经由经由AI自动生成内容的新型内容生产方式自动生成内容的新型内容生产方式。作为一种先进的生产力变革作为一种先进的生产力变革,AIGC的的兴起让世界进入了智能创作时代兴起让世界进入了智能创作时代。资料来源:灼识咨询内容生产阶段及比较,内容生产阶段及比较,2000年至今年至今PGC(2000-2010年)年)UGC(2010-2017年)年)AIGC 1.0(2017-2022年)年)AIGC 2.0(2022-未来)未来)官媒时代,由专业的内容创作者或团队进行创作、编辑或发布的内容由普通用户或受众参与创作、编辑和发布的内容,微博微信的诞生为UGC发展提供土壤基于PGC、UGC生成创作框架,下达指令让AI自动生成内容,指导AI完成编码、绘画、建模等复杂任务OpenAI发布,大模型时代开启,创作突破人为限制,提升到自主创作的层次,创造更加丰富多样的内容专业用户一般用户AI基于指令创作大模型逐步实现自主创作为保障质量,一般PGC的内容制作成本较高,需要投入大量的人力、物力和财力用户个性化、自主创作,通常制作成本较低随着生成内容数量增加,边际成本大幅下降知识性、创造性工作的边际成本将降至无限接近0,产生巨大生产效率和经济价值包括主题选定、创意构思、策划、撰写、编辑、排版、发布等多个环节,需要长时间投入通常为个人兴趣爱好、在自媒体平台、社交网络等自发的创作行为,创作流程简单直接通过程序训练生成,流程自动化,仅需进行算法训练与参数调整,效率较高随着技术进步,AIGC将越来越多用于快速生成内容及自动化创作,效率进一步提升内容生产者拥有专业知识、内容相关领域资质和一定权威,因此内容相对专业、权威内容丰富但质量参差不齐,通常需要平台设计规则加以约束或遴选出优质内容发展初期存在使用门槛高、内容生成简单和质量偏低等问题随着AI大模型从大量数据中进一步学习,内容质量进一步提升内容生产者及生产程序专业性强内容经过筛选,从而带来强内容可控性每天有大量用户自由创作,需要依靠机器及人工对内容进行审核,内容可控性弱AI大模型作为辅助人进行内容生产的工具,可根据指令对内容进行编辑及优化,可控性较强通过深度学习技术训练模型,使其能够学习到输入数据的内在规律,并根据规律创作内容,可控性强定义定义内容生产者内容生产者内容生产成本内容生产成本内容生产效率内容生产效率内容生产质量内容生产质量内容可控性内容可控性高/强低/弱内容生产方式内容生产方式专业化的内容生产专业化的内容生产用户生产内容用户生产内容AI辅助内容生产辅助内容生产未来:全未来:全AI生产内容生产内容191950年,艾伦图灵提出“图灵测试”,给出确认机器是否具有智能的方法1966年,成功开发世界第一款可人机对话的机器人“Eliza”2006年,深度学习算法取得重大突破,GPU、TPU等算力设备性能不断提升,AI发展取得显著进步2014年,随着以GAN为代表的深度学习算法提出和迭代,生成内容百花齐放2017年微软“小冰”推出世界首部由AI创作的诗集阳光失了玻璃窗2022年,OpenAI发布ChatGPT,可以完成撰写邮件、视频脚本、文案、翻译、代码、写论文等任务。1957年,第一支由计算机创作的弦乐四重奏依利亚克组曲完成2012年,微软公开展示了全自动同声传译系统,可将英文演讲者的内容自动翻译成中文语音1980年代,IBM创造语音控制打字机“Tangora”2007年,世界第一部完全由AI创作的小说1 The Road问世2021年,OpenAl推出了DALL-E,主要应用于文本与图像交互生成内容实验性向实用性转变,受限于算法瓶颈实验性向实用性转变,受限于算法瓶颈,难以难以直接进行内容生成直接进行内容生成算法不断迭代,算法不断迭代,AI生成内容百花齐放,效果逐渐逼生成内容百花齐放,效果逐渐逼真直至人类难以真直至人类难以分辨分辨1950195719661980s200620072012201420172018202120222018年,英伟达发布可以自动生成高质量图片的StyleGAN模型2019年,DeepMind发布DVD-GAN模型用以生成连续视频受限于科技水平,受限于科技水平,AIGC仅限于小范围实验仅限于小范围实验2019AIGC发展阶段、发展特点和典型事件发展阶段、发展特点和典型事件早期萌芽阶段早期萌芽阶段1950s 1990s沉淀积累阶段沉淀积累阶段1990s 2010s快速发展阶段快速发展阶段2010s 至今至今AIGC发展历程发展历程结合结合AI的演进历程的演进历程,AIGC的发展大致可分为早期萌芽的发展大致可分为早期萌芽、沉淀积累沉淀积累、快速发展三个阶段快速发展三个阶段。资料来源:灼识咨询20AIGC降低了用户的内容制作门槛,例如没有绘画基础的用户也能借助AIGC工具快速作画,内容创作将迎来爆发期。降低降低内容制作成本内容制作成本:例如游戏行业,美术创作者可以使用AIGC寻找灵感,降低初期成本投入提升提升效率效率:承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足提升内容创作质量提升内容创作质量3增加内容多样性增加内容多样性生产多模态内容生产多模态内容:有助于企业多元化交付工作成果,例如通过文本形成图片、基于文本生成视频短片,满足海量个性化需求降低内容创作门槛降低内容创作门槛金融金融电商电商娱乐娱乐影视影视工业工业多样内容多样内容医疗医疗教育教育传媒传媒AIGC核心价值核心价值降本增效降本增效有助于企业提升交付工作成果,近年来AI模型在手写、语音和图像识别、阅读理解和语言理解方面的表现逐渐超过了人类的基准水平。质量提升质量提升降本增效降本增效新商业模式新商业模式降低门槛降低门槛全新模式全新模式通过支持AIGC与其他产业的多维互动、融合渗透从而孕育新业态新模式,为各行各业创造新的商业模式,提供价值增长新动能AIGC核心价值核心价值对于企业而言对于企业而言,AIGC在降低内容制作成本在降低内容制作成本、加快内容制作效率的同时提升了内容的多样性及质量加快内容制作效率的同时提升了内容的多样性及质量,AIGC与不与不同产业融合互动亦可孕育出新业态新模式;对个人而言同产业融合互动亦可孕育出新业态新模式;对个人而言,AIGC则显著降低了内容创作门槛则显著降低了内容创作门槛。1245资料来源:灼识咨询21开发架构开发架构ChainerKerasTensorFlowTorchMXNetPyTorchPaddlePaddleONNX高质量输出高质量输出AI生成文本生成文本AI生成代码生成代码AI生成图像生成图像AI生成声音生成声音AI生成视频生成视频AI生成生成3DAI生成其他生成其他GAN生成对抗网络生成对抗网络可以生成清晰真实清晰真实的样本,泛用性强;后由CGAN等改良算法进一步完善Diffusion Model扩散模型扩散模型训练简单训练简单,可以将图像中的噪声部分进行滤除,并保留图像的细节和结构Transformer模型模型降低计算量和计算降低计算量和计算时间时间,提高模型训练速度,输出结果质量高质量高CLIP模型模型能够同时进行同时进行自然语言理解和计算机视觉分析FBMs基于流的生成模型基于流的生成模型可以生成逼真的高高分辨率分辨率图像,支持高效采样,可操纵数据属性VAE变分自动编码变分自动编码可以处理各种类型的数据,但生成输输出结果模糊出结果模糊NeRF神经辐射场神经辐射场信息传递更加直接,优化目标为所见即优化目标为所见即所得所得,但计算开销开销大,较难实现大,较难实现TheanoCaffe持续优化迭代基础生成算法模型不断突破创新基础生成算法模型不断突破创新开发架构提供了对底层算法的封装开发架构提供了对底层算法的封装AIGC 关键底层算法模型数据预处理数据预处理及模型训练及模型训练AIGC的实现逻辑的实现逻辑底层生成算法和开发架构是实现底层生成算法和开发架构是实现AIGC所必不可缺的部分所必不可缺的部分。底层生成算法是实现内容生成的基石底层生成算法是实现内容生成的基石,通常是深度学通常是深度学习模型习模型,而开发架构是支撑底层算法的基础设施而开发架构是支撑底层算法的基础设施,以便开发人员较易集成多种算法组成以便开发人员较易集成多种算法组成。AIGC技术架构概览技术架构概览底层生成算法底层生成算法资料来源:灼识咨询22文本生成文本生成图像与视频生成图像与视频生成音频生成音频生成基础层基础层应
展开阅读全文