1、姚蕾(证券分析师)方博云(证券分析师)S0350521080006S证券研究报告2023年03月02日传媒AIGC深度报告:新一轮内容生产力革命的起点深度报告:新一轮内容生产力革命的起点评级:推荐(维持)评级:推荐(维持)请务必阅读报告附注中的风险提示和免责声明2相关报告国海证券_行业研究:元宇宙系列深度报告:下一代互联网前瞻*传媒*姚蕾2022/01/05国海证券_行业研究:元宇宙系列深度报告之二:数字虚拟人科技人文的交点,赋能产业的起点*传媒*姚蕾 2022/03/10国海传媒_行业研究:元宇宙系列深度报告之三:NFT的本质思考及破圈之路*传媒*姚蕾 2022/03/11最近一年走势相对沪
2、深300表现表现1M3M12M传媒8.51%19.59%0.33%沪深300-1.31%10.55%-9.92%-30%-25%-20%-15%-10%-5%0%5%沪深300传媒请务必阅读报告附注中的风险提示和免责声明3重点关注公司及盈利预测重点关注公司及盈利预测注:盈利预测除芒果超媒、三七互娱、完美世界、吉比特、传智教育外均来自Wind一致预期单位:元资料来源:wind,国海证券研究所股票代码股票代码股票名称股票名称2023/3/12023/3/1EPSEPSPEPE投资评级投资评级股价股价2021A2021A2022E2022E2023E2023E2021A2021A2022E2022E
3、2023E2023E300002.SZ神州泰岳6.70.20.30.333.623.719.2未评级300418.SZ昆仑万维25.21.31.01.119.225.723.1未评级300364.SZ中文在线12.30.1-0.10.290.3-52.3未评级000681.SZ视觉中国15.80.20.20.372.587.757.2未评级300058.SZ蓝色光标6.20.2-0.10.329.5-23.5未评级002555.SZ三七互娱23.01.31.41.617.616.814.4买入603444.SH吉比特366.620.418.424.117.919.915.2买入002624.S
4、Z完美世界14.50.20.70.976.520.316.7买入300413.SZ芒果超媒34.81.21.01.329.735.426.8买入003032.SZ传智教育18.60.20.50.697.738.332.5买入请务必阅读报告附注中的风险提示和免责声明4核心要点核心要点 数据数据、算法算法、算力共振推动算力共振推动AIGC发展发展,模型开源及商业化带来的产品化浪潮及通用人工智能领域的初探推动模型开源及商业化带来的产品化浪潮及通用人工智能领域的初探推动AIGC破圈破圈。AIGC传媒相关应用有望超千亿传媒相关应用有望超千亿。复盘复盘AIGC算法迭代:竞争中发展算法迭代:竞争中发展,模型
5、开源及商业化推动应用破圈模型开源及商业化推动应用破圈。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础,以GPT为代表的预训练模型,通过使用无标注数据预训练及微调,缓解了标注数据不足的问题,并不断提升参数量级及模型通用性,ChatGPT在此基础上加入了利用人类反馈强化学习的训练方法。扩散模型取代GAN成为图像生成领域的主流模型,CLIP模型推动跨模态生成技术的发展。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化的浪潮。谷歌、Meta持续探索文字生成视频领域模型。国内传媒领域应用有望超千亿国内传媒领域应用有望超千亿。
6、Gartner预测至2023年将有20%的内容被生成式AI所创建;至2025年生成式AI产生的数据将占所有数据的10%(目前不到1%)。红杉预测生成式ai将产生数万亿美元经济价值。2025年,国内生成式ai应用规模有望突破2000亿,我们预测国内传媒领域应用空间超1000亿。AIGC应用于应用于文本文本、音频音频、跨模态跨模态、策略生成策略生成,在设计在设计、内容创作内容创作、广告营销广告营销、游戏游戏、企业服务等领域开启商业化企业服务等领域开启商业化,有望开启新一轮内容生产力革命有望开启新一轮内容生产力革命。文本生成:文本生成:应用于辅助写作、营销、社交、浏览器、企业级服务、心理咨询等领域。
7、代表公司Jasper.ai,通过SaaS订阅收费模式,获得B端客户认可,率先实现规模化收入;OpenAI旗下ChatGPT由于其通用性被集成至浏览器、办公自动化软件、企业级服务产品中,作为增值服务项目。音频生成:音频生成:应用于智能客服、有声读物制作、配音、导航、虚拟歌手、作曲等领域。代表公司喜马拉雅、倒映有声、标贝科技、StarX MusicX Lab等。跨模态生成:跨模态生成:包括文生图、文生视频,图片视频生成文字等应用。AI绘画代表产品Midjourney、DALL-E2、Dream studio、文心一格,主要按生成次数收费。策略生成:策略生成:应用于游戏、自动驾驶、机器人控制、智能交
8、互数字人等领域。游戏领域代表性公司腾讯AI Lab、网易伏羲、启元世界、rct.ai、超参数等。投资建议:投资建议:AIGC的快速发展源于数据、算法、算力的共振。在此基础上,AIGC的出圈源于模型商业化及开源带来的产品化浪潮,及ChatGPT在通用人工智能领域投射的曙光带来的震撼。AIGC目前在营销、社交、内容创作、游戏等领域均有应用,并开启商业化变现。随着算法迭代、算力提升,AIGC将开启新的内容生产力革命,为传媒行业发展提供新动力。基于此,我们维持行业“推荐”评级。建议重点关注三类公司:一一、拥有自有算法及模型的公司拥有自有算法及模型的公司,建议关注昆仑万维建议关注昆仑万维、神州泰岳神州泰
9、岳;二二、拥有海量内容及版权储备的公司拥有海量内容及版权储备的公司,建议关注视觉中国建议关注视觉中国、中文在线中文在线;三三、相关应用领域龙头公司相关应用领域龙头公司,重点推荐游戏重点推荐游戏、影视影视、营销板块营销板块。相关标的三七互娱相关标的三七互娱、吉比特吉比特、完美世界完美世界、芒果超媒芒果超媒、蓝色光标蓝色光标。风险提示:风险提示:技术发展演进不及预期、商业化进程不及预期、企业技术管理能力建设不足风险、企业内容审核能力不足风险、版权保护风险、新技术增加监管难度风险、技术滥用风险、核心人才流失风险、创作伦理风险、法律政策监管风险、估值中枢下移风险等。请务必阅读报告附注中的风险提示和免责
10、声明5AIGC破圈元年1AIGC应用场景2产业链及相关公司3目录1.1 AIGC破圈1.2 AIGC定义1.3 发展历程1.4 市场空间1.5 商业模式请务必阅读报告附注中的风险提示和免责声明61.1 AIGC1.1 AIGC连续破圈:连续破圈:AIAI绘画绘画/ChatGPTChatGPT相继破圈相继破圈资料来源:vcsmemo,36Kr,机器之心公众号,国海证券研究所 AIAI绘画作品获奖绘画作品获奖。2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,太空歌剧院获得“数字艺术/数字修饰照片”类别一等奖。参赛者没有绘画基础,利用AI工具Midjourney创作。ChatGPTCha
11、tGPT于于20222022年年1111月月3030日推出日推出,5 5天后用户破百万天后用户破百万,两个月后月活用户突破两个月后月活用户突破1 1亿亿,成为史上用户增长速度最快的消费级应用程序成为史上用户增长速度最快的消费级应用程序。风投及产业资本涌入风投及产业资本涌入AIGCAIGC。2021年开始,风投对AIGC的投资金额金额出现爆发式增长,2022年超20亿美元。主打AI生成文字的Jasper.ai于2022年10月完成1.25亿美元A轮融资,估值达15亿美元。AI视觉艺术创业公司Stability.ai获1.01亿美元种子轮融资,投后估值达10亿美元。据美国财经媒体Semafor报道
12、,微软预计向ChatGPT的开发者OpenAI投资100亿美元,OpenAI投后估值将高达290亿美元。图表:图表:AIGCAIGC绘画作品绘画作品太空歌剧院太空歌剧院图表:各应用程序图表:各应用程序达到全球达到全球100100万万/1 1亿用户所用时间亿用户所用时间ChatGPTApple App StoreInstagramWhatsAppFacebookTwitteriTunesWorld Wide WebMobile phoneTelephone75年16年7年6.5年5年4.5年3.5年2.5年2年2月NetflixAirbnbIwitterFoursquareFacebookSpo
13、tifyInstagramChatGPT3.5年2.5年2年13月5月10月2.5月5天图表:风投对生成式图表:风投对生成式AIAI投入金额爆发式增长投入金额爆发式增长请务必阅读报告附注中的风险提示和免责声明71.2 AIGC1.2 AIGC定义:新的内容生成方式、基于人工智能的技术集合定义:新的内容生成方式、基于人工智能的技术集合图表:内容生产方式的变更图表:内容生产方式的变更图表:从图表:从WebWeb1 1.0 0到到WebWeb3 3.0 0的内容生成方式的内容生成方式资料来源:a16z,国海证券研究所 AIGC(AI Generated Content)即利用人工智能技术自动生成内容
14、,受制于AI技术成熟度,目前AI仍为内容制作的辅助型角色(AIUGC),待技术突破,AI可真正作为内容创作者(AIGC)。AIGCAIGC是技术集合是技术集合,基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术集合。相关叫法:合成式媒体(Synthetic Media),即基于AI生成的文字、图像、音频等;Gartner提出的生成式AI(Generative AI),即由人工智能自动生成新的编程、内容或商业活动,让文字、音乐、图像、视频、场景等都可由AI算法自动生成。从从PGCPGC到到UGCUGC,从从UGCUGC到到AIGCA
15、IGC。Web1.0时代“只读”模式催生出“PGC”;Web2.0时代,社交媒体兴起,人与人通过网络交互,催生出以用户生产和分享内容的“UGC”模式;Web3.0时代,内容消费需求进一步增长,个性化需求凸显,“AIGC”将成为重要的新内容生成方式。PGCUGCAIUGCAIGC单人体验小范围多人交互大范围多人交互的新兴体验元宇宙的自然社交网络生产的内容数量产能不足内容质量参差不齐AI技术发展尚未关键性突破Web 3.0时代创作内容接收内容接收内容人人平台平台PGC(Web 1.0)UGC(Web 2.0)创作内容创作内容接收内容接收内容人机器平台AIGC(Web 3.0)请务必阅读报告附注中的
16、风险提示和免责声明91.3 AIGC1.3 AIGC为何爆发?数据、算法、算力共振为何爆发?数据、算法、算力共振资料来源:腾讯科技公众号,谷歌研究,Generative AI:A Creative New World,AI 2022:The Explosion,国海证券研究所 AIGCAIGC发展核心三要素:数据发展核心三要素:数据、算力算力、算法算法。算法持续迭代算法持续迭代。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础,GPT为代表的预训练模型,通过使用无标注数据预训练及微调,缓解了标注数据不足的问题,并不断提升参数量级及模型通用性,ChatGPT在此基础
17、上加入了利用人类反馈强化学习的训练方法。扩散模型取代GAN成为图像生成领域的主流模型,CLIP模型推动跨模态生成技术的发展。模型商业化及开源释放创造力模型商业化及开源释放创造力。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化浪潮。图表:深度学习模型的发展图表:深度学习模型的发展图表:训练模型的计算量图表:训练模型的计算量(左图左图)以及以及AIAI模型模型参数量参数量(右图右图)注:计算结果15000 x为WuDao2.0中的参数数量除以GPT 1中的参数数量的比值模型类别发布年份特点影响GAN图像生成2014对输出结果的控制力较弱,容易产生随
18、机图像、分辨率比较低。-Transformer自然语言模型2017引入自注意力机制,能够基于两个单词间的关系进行建模,有效理解单词在上下文中的意思,支持并行训练,使语言模型训练效果达到新高度。自然语言理解飞跃性发展,平行训练优势逐步发展出超亿规模的大模型,ChatGPT打开AI新纪元CLIP文本-图像生成2021对文字、图像分别进行训练,不断调整两个模型内部参数,使得模型分别输出文字特征值和图像特征值并确认匹配多模态技术推动AIGC内容多样性Diffusion图像生成2022通过增加噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像,高效地解决GAN无法训练、训练不稳定的问题。
19、图像生成技术突破,AI绘画点燃AIGC请务必阅读报告附注中的风险提示和免责声明8阶段二:对外界环境进行干预,在改变中寻找规律1.2 AIGC1.2 AIGC定义:机器对信息认知分三阶段,从学习到超越经验定义:机器对信息认知分三阶段,从学习到超越经验资料来源:rct AI,2022AI营销白皮书,国海证券研究所 机器对信息的认知处于第一或第二阶段机器对信息的认知处于第一或第二阶段。人在遇到新问题时,会通过以往类似经历总结规律,并将新的问题套用到规律中,以推测可能的结果。相应地,机器学习基于对历史数据的归纳和学习,构建出事件模型,并将合适的新数据输入到相应的模型来预测未来。人类能够超越观察达到干预
20、及想象阶段,而对于AI来说,目前还处于第一或第二阶段,一些复杂的信息还没办法处理,人类需要将其简化后再投喂给机器处理。UGCUGC为为AIGCAIGC提供了提供了发展的数据基础发展的数据基础,AIGCAIGC满足更个性化的内容消费需求满足更个性化的内容消费需求。用户不再满足于专业团队和用户创造,对内容质量要求更高,AI在提高内容生产效率、丰富内容多样性及提供更加动态且可交互的内容上大有可为。UGC生成的规模化内容,创造了大量学习素材,帮助AI实现从学习经验到超越并重构已有经验的飞跃性转变。阶段一:对外界环境进行观察,在观察中寻找规律阶段三:在想象中对外界环境进行干预,在反事实中寻找规律AIAI
21、被动接受数据,停留被动接受数据,停留在统计意义上对规律的在统计意义上对规律的理解,无法超越已有经理解,无法超越已有经验验AIAI主动创造数据,逐渐主动创造数据,逐渐超越已有经验超越已有经验AIAI逐渐具备了想象能力,逐渐具备了想象能力,超越并重构已有经验超越并重构已有经验计算机研究了数百万量级的围棋对战数据后,就能够找出哪些对战的策略会导致更高的胜率若改变现有围棋对战中的执行策略,让计算机去进一步判断能否取得胜利让计算机在对战中去想象如果执行这一步会怎么样早期阶段现阶段未来用UGC的方式去做人设和规则,为AI“编码”人体基因。通过既定的图片或者语音来生成风格一致的内容。AI能自主创造多样的内容
22、人脑思考过程机器学习过程机器对信息的认知三阶段请务必阅读报告附注中的风险提示和免责声明101.3 AIGC1.3 AIGC算法发展历程:早期受制于算法、算力瓶颈算法发展历程:早期受制于算法、算力瓶颈1 9 5 01 9 5 71 9 6 61 9 8 02 0 0 72 0 1 0人物事件沉淀积累阶段(沉淀积累阶段(1990s1990s-2010s2010s)萌芽阶段(萌芽阶段(1950s1950s-1990s1990s)受限于技术水平,仅限于小范围实验受限于技术水平,仅限于小范围实验艾伦图灵提出著名的“灵图测试”,给出判断机器是否判断机器是否具有“智能”具有“智能”的实验方法第一支由计算计算
23、机创作的弦乐机创作的弦乐四重奏四重奏依利亚克组曲完成世界第一款自然第一款自然语言聊天机器人语言聊天机器人Eliza问世80 年 代 中 期,IBM创造语音控语音控制打字机制打字机TangoraTangora,处理20000个单词世界第一部完全由人工人工智 能 创 作 的 小 说智 能 创 作 的 小 说 1the road问世微 软 展 示 全 自 动全 自 动同 传 系统同 传 系统首次提出判断机器是否是人工智能的方法,灵图被称作“人工智能”之父声龙发布了第一款消费级语音识别产品Dragon Dictate,售价高达9000美元可读性不强,拼写错误、辞藻空洞、缺乏逻辑等缺点明显基本深层神经网
24、络可以将英文语音翻译转化成中文语言阶段阶段事件事件影响影响只有文本界面,自然语言理解尚未取得真正突破连续语音的识别迅速发展,统计模型逐步取代模板匹配的方法,隐马尔科夫模型(HMM)成为语音识别系统的基础模型技术技术图形处理器GPU、张量处理器TPU等算力设备性能不断提升,互联网数据规模快速膨胀通过关键字扫描和重组完成交互任务深 度 神 经 网 路算 法(D NN)算法不断完善,语音识别技术快速发展特点特点从实验性向实用性转变,但受限于算法瓶颈,无法直从实验性向实用性转变,但受限于算法瓶颈,无法直接进行内容生成接进行内容生成资料来源:信通院人工智能成内容(AIGC)白皮书,中国移动雄安产业研究院
25、,国海证券研究所请务必阅读报告附注中的风险提示和免责声明112 0 1 82 0 2 02 0 1 92 0 1 42 0 1 72 0 2 1人物事件快速发展阶段(快速发展阶段(2010s2010s-20212021年)年)深度学习算法不断迭代,人工智能生成内容百花齐放,效果逐渐逼真至难以分辨深度学习算法不断迭代,人工智能生成内容百花齐放,效果逐渐逼真至难以分辨Ian J.Goodfellow提出生成对生成对抗网络抗网络GAN“小冰”推出世 界 首 部首 部100100%由人工由人工智能创作的诗智能创作的诗集集阳光失了玻璃窗英 伟 达 发 布StyleGan模型可自动生成高质量图片,几个月后
26、发布了StyleGan2人工智能生成画作在佳士得以43.25万美元成交,成为首首个出售的人工个出售的人工智能艺术品智能艺术品OpenAI推出DALL-E,主要应用于文本与图像交互生成内容,同年将跨模态 深 度 学 习 模 型CLIPCLIP开源开源被 广 泛 应用 在 图 像生 成、语音 生 成 等场景中DeepMind发布DVD-GAN模型用以生成连续视频阶段阶段事件事件影响影响GANCLIP模型搜集了大量数据,为输入文本生成图像/视频应用的落地奠定了基础技术技术关联文字和图像,并且关联特征非常丰富StyleGan特点特点资料来源:信通院人工智能成内容(AIGC)白皮书,机器之心Pro,腾讯
27、新闻,Denoising Diffusion Probabilistic Models,Attention is All You Need!,腾讯云,环球网,搜狐新闻,国海证券研究所DVD-GAN在图像生成方面比GAN更优,扩散模型威望大幅提升2020年,伯 克 利的 PieterAbbeel等人提出去噪扩散概率模型(DDPM)DDPMGANOpenAI 推 出 了GPT-3,拥有超过1750亿的训练参数量,被誉为“万能生成器”自 然 语 言 生 成 模 型GPT-3文本生成迎来重大突破,GPT-3庞大的运行规模使得它不仅能答题、写论文和生成代码等,还能编写曲谱、写小说等1.3 AIGC1.3
28、 AIGC算法发展历程:模型持续迭代算法发展历程:模型持续迭代Transformer架构提出Transformer架构推动深度学习算法突破发展,迸发出大模型请务必阅读报告附注中的风险提示和免责声明12井喷式发展阶段:井喷式发展阶段:20222022年年AIGCAIGC元年元年资料来源:36Kr,百度指数,华尔街见闻,谷歌研究,国海证券研究所上线于2021年10月的文本-图像模型DiscoDiffusion 开 始流行谷歌在2022年I/O大会上公布了对话式人工智能模型LaMDA2OpenAI推出文本-图 像 模 型 DALL-E2,可以从自然语言的描述中创建逼真的图像,超过150万用户测试微软
29、将DALL-E2集成到Bing搜索、Edge浏览器和新的Office中 DeepMind 推出了AI编码引擎AlphaCodeGitHub开放能够实时提供代码建议的Copilot的访问权限扩散模型是对GAN的彻底革新Stability AI推出文本-图像模型Stable Diffusion并开源以色列AI服务商 Hour One 宣布将2000万美元A轮融资用于投入研发文本-视频模型5月6月 Stable Diffusion模型助力AIGC破圈,文字生成图像取得跨越式发展8月10月Stability.ai融资1.01亿美元,估值达10亿美元 Jasper.ai 完 成 了1.25亿美元融资Op
30、enAl的大语言模型聊天机器人ChatGPT上线,建立在GPT-3.5模型之上AI图片视频服务商Runway完成5000万美元C轮融资,投后估值5亿美元11月12月4月2月小冰公司获10亿元人民币融资,估值超20亿美元 ChatGPT火爆全球注:曲线图为百度搜索指数,橙色的曲线代表AI绘画;蓝色曲线代表chatGPT,绿色曲线代表AIGC微软宣布向OpenAI投资数十亿美元(可能高 达 100 亿美元)谷歌研究院等提出了视频生成模型Dreamix1月2月1.3 AIGC1.3 AIGC算法发展历程:从模型到应用算法发展历程:从模型到应用请务必阅读报告附注中的风险提示和免责声明13 OpenAI
31、OpenAI:非盈利性转向封顶盈利性公司:非盈利性转向封顶盈利性公司,估值达估值达290290亿美金亿美金。2015年由马斯克等人创立的非盈利人工智能研究公司,启动资金10亿美金,成立初衷是与其它机构合作进行AI相关研究,并开放研究成果以促进AI技术发展,防止垄断。核心团队为CEO Sam Altman、Greg Brockman、IIya Sutskever,大都技术出身,在通用AI领域经验丰富。2019年宣布从“非盈利”性质过度到“封顶盈利性”,之后获微软10亿美元战略投资,并开启与微软在产品上的合作。据美国财经媒体Semafor报道,微软预计向ChatGPT的开发者OpenAI投资100
32、亿美元,OpenAI投后估值将高达290亿美元。资料来源:datalearner,OpenAI官网,澎湃新闻,华尔街见闻,腾讯新闻,金融界,智东西微信公众号等,国海证券研究所图表:图表:OpenAIOpenAI核心人员核心人员1.3 AIGC1.3 AIGC算法发展历程:算法发展历程:OpenAIOpenAI VS GoogleVS GoogleIIya Sutskever首席科学家Greg Brockman总裁(原CTO)Mira MuratiCTOSam AltmanCEO、创始人序号序号 日期日期融资轮次融资轮次融资金额融资金额投资机构投资机构12021年 A轮2.5亿美元-22021年
33、 种子轮延期-32020年 种子轮-Matthew Brown Companies42019年 战略融资10亿美元微软52019年 pre-种子轮-ReidHoffman 慈善基金、Khosla Ventures 62018年 天使轮-Gabe Newell、Jaan Tallinn、Ashton Eaton和Brianne Theisen-Eaton等72017年 亲友轮-82016年 亲友前轮10亿美元Elon Musk、Sam Altman、Linkdin 的联合创始人 Reid Hoffman、Paypal 联合创始人 Peter Thiel、YC 联合创始人Jessica Livin
34、gston等图表:图表:OpenAIOpenAI融资过程融资过程序号序号被投公司被投公司主营业务主营业务投资阶段投资阶段1AnysphereAI工具种子轮2Atomic Semi芯片制造种子轮3Cursor代码编辑种子轮4Diagram设计工具种子轮5HarveyAI法律顾问种子轮6Kick会计软件种子轮7Milo家长虚拟助理种子轮8qqbot.dev开发者工具种子轮9EdgeDB开源数据库A轮10Mem Labs记笔记应用A轮11SpeakAI英语学习平台B轮12Descript音视频编辑应用C轮图表:图表:OpenAIOpenAI部分对外投资部分对外投资注:数据截止到2023年1月注:数据
35、截止到2023年1月请务必阅读报告附注中的风险提示和免责声明14 OpenAIOpenAI技术发展历史技术发展历史1.3 AIGC1.3 AIGC算法发展历程:算法发展历程:OpenAIOpenAI推动推动AIAI算法模型发展算法模型发展资料来源:datalearner,机器之心Pro,国海证券研究所第 一 个 项 目OpenAIGymBeta发 布,以 开发 和 比 较 不同 强 化 学 习算法2016年4月发布GPT,一个在诸多语言处理任务上都取得了很好结果的算法,首个将Transformer与无监督预训练技术相结合的算法,其取得的效果好于已知算法2018年6月首次将生成模型从自然语言处理
36、领域拓展到其它领域:公布MuseNet,一个深度神经网络,可以用10种不同的乐器生成4分钟的音乐作品,并且可以结合从乡村到莫扎特到披头士的风格2019年4月开源一个重现强化学习算法的工具OpenAI Baselines,提供用于正确的强化学习算法实现的最佳实践发布拥有15亿参数GPT-2,基于800万网页数据、40GWebText作为训练数据。发布Microscope,一个用于分析神经网络内部特征形成过程的可视化工具2017年5月2019年2月2020年4月2021年1月发布CLIP,能有效地从自然语言监督中学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称发布DALL
37、E模型,一个120亿个参数的 GPT-3 版 本,被训练成使用文本-图像对的数据集,从文本描述中生成图像2021年1月发布InstructGPT,大量使用了人类反馈与指导,在GPT3的基础上,进一步精调,使得输出更加可控2022年1月发 布DALL E2.0,其效果比第一个版本更加逼真,细节更加丰富且解析度更高2022年4月发布Whisper,一个语音识别预训练模型,结果逼近人类水平,支持多种语言2022年9月发布ChatGPT,一个AI对话系统,可以写代码、写博客、写短剧等等2022年11月发布GPT-3模型,对于所有任务,无需进行任何梯度更新或微调,仅通过与模型的文本交互指定任务和少量示例
38、即可获得很好的效果;一个月后,发布Image GPT模型,将GPT的成功引入计算机视觉领域2020年5月请务必阅读报告附注中的风险提示和免责声明15 OpenAIOpenAI携手微软携手微软,获得获得资金支持资金支持,落地场景落地场景,借力微软云计算领域布局借力微软云计算领域布局。资金资金+算力:算力:2019年7月,OpenAI 接受了微软10亿美元的战略投资,同时将把微软的Azure作为其独家云计算供应商;2021年,微软加注投资,具体金额未公布;2023年,微软预计向OpenAI再投资100亿美元,在满足首批投资者收回初始资本后,微软将获得OpenAI75%利润,直到收回投资。业务业务协
39、作:协作:2021年,微软推出了Azure OpenAI服务预览;2022年,微软将DALL-E2模型集成到了Azure OpenAI、Microsoft Designer、BingImage Creator中。2023年1月,Azure OpenAI服务正式发布,企业可以申请访问包括GPT-3.5、Codex和DALL-E2等AI模型,之后还可能通过Azure OpenAI服务访问ChatGPT。2023年2月,微软推出ChatGPT支持的最新版本Bing搜索引擎与Edge浏览器,增加聊天写作功能。此外,微软计划将ChatGPT引入Office产品中,进一步提升市场份额。资料来源:中国新闻网
40、,搜狐新闻,Azure官网,腾讯网,微软科技公众号,Azure OpenAI服务官网等,国海证券研究所1.3 AIGC1.3 AIGC算法发展历程:算法发展历程:OpenAIOpenAI携手微软携手微软图表:图表:OpenAIOpenAI盈利后利润分配的四阶段盈利后利润分配的四阶段图表:图表:AzureAzure OpenAIOpenAI服务官网服务官网优先保证埃隆马斯克、彼得泰尔、雷德霍夫曼等优先保证埃隆马斯克、彼得泰尔、雷德霍夫曼等首批投资者收回初始资本首批投资者收回初始资本在在OpenAIOpenAI的利润达到的利润达到920920亿美元后亿美元后,微软在微软在OpenAIOpenAI的
41、持股比例将下降到的持股比例将下降到4949%,剩余的利润剩余的利润由其他风险投资者和由其他风险投资者和OpenAIOpenAI的员工分享的员工分享在利润达到在利润达到15001500亿美元后,微软和其他风险投资亿美元后,微软和其他风险投资者的股份将无偿转让给者的股份将无偿转让给OpenAIOpenAI的非营利基金的非营利基金微软将有权获得微软将有权获得OpenAlOpenAl 的利润,直至收回其的利润,直至收回其130130亿美元投资亿美元投资微软无分成微软无分成微软获得微软获得75%75%利润利润微软获得微软获得4949%利润利润微软无分成微软无分成请务必阅读报告附注中的风险提示和免责声明1
42、6资料来源:腾讯新闻,网易新闻,谷歌research官网,github,AudioLM:a Language Modeling Approach to Audio Generation,PHENAKI:VARIABLE LENGTH VIDEO GENERATION FROM OPEN DOMAIN TEXTUAL DESCRIPTIONS,国海证券研究所 2022年11月在AI年度活动上谷歌发布四项最新成果,其能够根据文本提示生成高分辨率的长视频、3D模型、音乐、代码、文字内容等。结合结合ImagenImagen VideoVideo和和PhenakiPhenaki两大模型的优势两大模型的优
43、势,推出超长连贯性视频生成模型:推出超长连贯性视频生成模型:Imagen Video是基于级联视频扩散模型的文本条件视频生成系统,即给出文本提示,就可以通过一个由frozen T5文本编码器、基础视频生成模型、级联时空视频超分辨率模型组成的系统来生成高清视频。Phenaki模型可通过一系列提示在开放域中生成所有时间段的视频,是谷歌首次以时间变量提示生成视频。LaMDALaMDA WordcraftWordcraft:在大语言模型LaMDA基础上开发的、能辅助专业作家写作的AI写文工具,帮助创作者突破“创作瓶颈”。AudioAudio LMLM:具备“长期连贯性”的高质量音频生成框架,不需要任何
44、文字或音乐符号表示的情况下,只在极短(三四秒即可)的音频样本基础上训练,可生成自然、连贯、真实的音频结果,不限语音或者音乐。文字生成文字生成3 3D D模型:模型:通过结合Imagen和最新的神经辐射场(Neural Radiance Field)技术,谷歌开发出了DreamFusion技术,可根据现有文字描述,生成具有高保真外观、深度和法向量的3D模型,支持在不同光照条件下渲染。将推出将推出BardBard对话机器人对话机器人。2023年2月,谷歌宣布将推出Bard AI聊天机器人,由谷歌大型语言模型LaMDA支持,但参数量更少,使公司能够以更低的成本提供该技术,Bard能在获得简单提示的情
45、况下生成详细答案。图表:谷歌图表:谷歌ImagenImagen模型架构模型架构图表:图表:谷歌谷歌PhenakiPhenaki模型架构模型架构1.3 AIGC1.3 AIGC算法发展历程:谷歌持续重注算法发展历程:谷歌持续重注AIGCAIGC研究研究整个架构共有7个子模型(1 个T5文本编码器、1 个基础视频扩散模型、3 个 SSR扩散模型、3 个 TSR扩散模型),共116亿个参数文本编码器将文本prompt编码为text_embedding;基础视频扩散模型以文本为条件,生成初始视频;SSR提高视频的分辨率;TSR提高视频的帧数主要包含两大部分:一个将视频压缩为离散嵌入(即 token)的
46、编码器-解码器模型和一个将文本嵌入转换为视频token的transformer模型请务必阅读报告附注中的风险提示和免责声明17图表:图表:DreamixDreamix模型应用于图像生成视频模型应用于图像生成视频资料来源:谷歌研究Dreamix:Video Diffusion Models are General Video Editors,国海证券研究所 2023年2月2日,谷歌研究院等提出了一种视频生成新模型Dreamix,受到了AI作图UniTune的启发,将文本条件视频扩散模型(video diffusion model,VDM)应用于视频编辑。核心是通过两种主要思路使文本条件VDM保持
47、对输入视频的高保真度:(1)不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺寸和添加噪声仅保留低时空信息;(2)通过微调原始视频上的生成模型来进一步提升对原始视频保真度。微调确保模型了解原始视频的高分辨率属性,对输入视频的简单微调会促成相对较低的运动可编辑性,这是因为模型学会了更倾向于原始运动而不是遵循文本prompt。图表:图表:DreamixDreamix模型应用于视频编辑模型应用于视频编辑图表:图表:DreamixDreamix模型原理模型原理1.3 AIGC1.3 AIGC算法发展历程:谷歌持续重注算法发展历程:谷歌持续重注AIGCAIGC研究研究将吃东西的猴子(上面
48、一排)变成跳舞的熊(最下面排),改变外观和运动,但保持对颜色、姿势、物体大小和拍摄角度的保真度,从而产生了一个时间上一致的视频“单一图像+文字”生成视频:在一个静态图像中注入复杂的运动,比如添加一个移动的鲨鱼,并让海龟游泳,在这种情况下,对物体位置和背景的视觉保真度被保留了下来“多图像+文字”生成视频:在给定主题下,能够提取给定多个图像的主题的视觉特征,然后在不同的场景中制作动画在应用程序预处理的基础上(左图),将输入内容转换为统一的视频格式。对于图像到视频,输入图像被复制并被变换,合成带有一些相机运动的粗略视频;对于目标驱动视频生成,其输入被省略,单独进行微调以维持保真度,然后使用Dream
49、ix Video Editor(右图)编辑这个粗糙的视频(首先通过采样破坏视频,添加噪声,然后应用微调的文本引导视频扩散模型,将视频升级到最终的时间空间分辨率)。请务必阅读报告附注中的风险提示和免责声明18资料来源:量子位,github,appspot,国海证券研究所1.3 AIGC1.3 AIGC算法发展历程:谷歌持续重注算法发展历程:谷歌持续重注AIGCAIGC研究研究超长连贯性视频生成模型超长连贯性视频生成模型Audio LMAudio LM刘宇昆在刘宇昆在WordcraftWordcraft撰写的短篇小说撰写的短篇小说Evaluative SoliloquiesEvaluative S
50、oliloquiesDreamFusionDreamFusion生成的生成的3D3D模型模型请务必阅读报告附注中的风险提示和免责声明191.3 AIGC1.3 AIGC算法发展历程:你追我赶,持续迭代算法发展历程:你追我赶,持续迭代资料来源:做AI做的事儿公众号,网易新闻,澎湃新闻,谷歌研究论文LaMDA:Language Models for Dialog Applications,国海证券研究所注:模型后面的数据为模型的参数数量基于自我注意力机制(self-attention)的变换器(transformer)模型:首次将其用于理解人类的语言,能够同时并行进行数据计算和模型训练,训练时长更