收藏 分销(赏)

Sora划时代:算力应用再加速.pdf

上传人:Stan****Shan 文档编号:1243312 上传时间:2024-04-19 格式:PDF 页数:34 大小:4.23MB
下载 相关 举报
Sora划时代:算力应用再加速.pdf_第1页
第1页 / 共34页
Sora划时代:算力应用再加速.pdf_第2页
第2页 / 共34页
Sora划时代:算力应用再加速.pdf_第3页
第3页 / 共34页
Sora划时代:算力应用再加速.pdf_第4页
第4页 / 共34页
Sora划时代:算力应用再加速.pdf_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、华西计算机团队华西计算机团队2024年2月19日请仔细阅读在本报告尾部的重要法律声明请仔细阅读在本报告尾部的重要法律声明证券研究报告|行业深度研究报告分析师:刘泽晶分析师:赵宇阳SAC NO:S1120520020002SAC NO:S1120523070006邮箱:邮箱:Sora划时代:算力应用再加速全球资讯精读+V:qu an qi u z i x u n 8核心逻辑Sora:划时代的文生视频大模型文本生成视频:Sora能够根据用户提供的文本描述生成长达60S的视频。深化语言理解:利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。图片生成能力:Sora可以根据用户需

2、求,生成可变大小的图像,最高可达惊人的2048 2048分辨率。新的模拟能力:Sora具有3D一致性、较长视频的连贯性和对象持续性,能与世界互动,模拟数字世界。多模态下游应用百花齐放多模态+视频创作:提升创作者效率。除了Sora、Runway外,Lumiere能够在单个过程中生成完整的视频序列,而非简单组合静态帧。这种技术能够同时处理视频的空间(即视频中的对象)和时间(即视频中的运动)方面,为用户带来更加自然和流畅的运动感知体验。多模态+自动驾驶:彻底改变人车交互。商汤提出DriveMLM模型,可实现闭环测试中操控车辆,超过之前的端到端和基于规则的自动驾驶系统方法。多模态+广告(电商):创造多

3、样化营销卖点。利用AI技术进一步提升数字人的多样性,比如人脸替换、背景替换、口音语音替换去适配我们的prompt,最后脚本、数字人脸替换、背景替换等,视频压制之后,就可以得到一个口播视频;还可以帮助商业实现营销海报的生成。多模态+教育:提升教学效率,加强人机互动。Stable Diffusion等图像生成模型,可以依据教学需求输入主体及其细节的文本描述,快速自动生成多种风格、高清逼真、蕴含美感的美育类教学资源,所生成的教学资源既具备显著的跨模态性,又具有新颖性与独特性。多模态+医疗:为临床医疗任务提供更为智能、高效的解决方案。临床医疗业务产生的大量数据以不同模态存储于数据库中,对它们整理、清洗

4、后,再经过预处理进行多模态融合。多模态融合可以有机整合不同的信息,相比单模态信息更加全面。多模态+安防:AI+安防加速演变。根据全球政企解决方案,目前在国内“AI+安防”领域AI技术三个落地到产品端的应用方向是:生物识别技术、视频结构化和物体识别系统。其中,生物识别技术应用时间最早,涉及较为范围广,且为人像识别的入口技术。受益标的:多模态素材:万兴科技、虹软科技、超讯通信、佳都科技、平治信息、博汇科技、美图公司;应用:科大讯飞、大华股份、海康威视、润达医疗、中科创达、千方科技、盛通股份;算力基础设施:中科曙光、开普云、高新发展、网宿科技、神州数码、拓维信息、海光信息、首都在线。风险提示:1)政

5、策落地不及预期;2)技术发展不及预期;3)经济发展不及预期。2全球资讯精读+V:qu an qi u z i x u n 8013Sora:划时代的文生视频大模型全球资讯精读+V:qu an qi u z i x u n 8Sora是由OpenAI发布的文生视频大模型,此模型发布预示着大模型时代进阶。Sora能够仅仅根据提示词,生成60s的连贯视频,远超行业目前大概只有平均“4s”的视频生成长度。Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够依据客户的文本提示,将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分

6、辨率的视频和图像,甚至包括生成长达一分钟的高清视频。打造虚拟世界模拟器。Sora采用了Transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora,也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向。1.1 Sora划时代文生视频大模型4资料来源:Sora官网,华西证券研究所文生视频大模型文生视频大模型SoraSora全球资讯精读+V:qu an qi u z i x u n 81.1 Sora划时代文生视频大模型5资料来源:Sora官网,华西证券研究所OpenAIOpenAI专门设计的解码器

7、模型,它可以将生成的潜在表示重新映射回像素空间专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间Sora将不同类型的视觉数据转化为统一的格式,以便于对生成模型进行大规模训练。将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。从宏观角度来看,首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频

8、转化为这些包。全球资讯精读+V:qu an qi u z i x u n 81.1 Sora划时代文生视频大模型6资料来源:Sora官网,华西证券研究所SoraSora根据文字生成视频根据文字生成视频视频压缩网络:Sora研究员专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,研究员还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。时空包:当给定一个压缩后的输入视频时,从中提取出一系列的时空包,这些包被用作转换token。这一方

9、案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,研究员只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。全球资讯精读+V:qu an qi u z i x u n 81.1 Sora划时代文生视频大模型7资料来源:Sora官网,华西证券研究所用于视频生成的缩放Transformers:Sora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转

10、换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。扩散转换器在视频生成领域同样具有巨大的潜力,不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。随着训练量的增加,扩散转换器生成的样本质量有了明显提高随着训练量的增加,扩散转换器生成的样本质量有了明显提高全球资讯精读+V:qu an qi u z i x u n 81.1 Sora划时代文生视频大模型8资料来源:Sora官网,36氪,澎湃新闻,同花顺,华西证券研究所Sora依托Transformers架构等技术手段,产品力全面碾压Runway等文生视

11、频模型。Sora是将Latent Diffusion Model架构与Diffusion Transformer架构结合,但是Runway只用了Latent Diffusion Model架构。由于Transformer架构强大的参数可拓展性,即随着参数量的增加,Transformer 架构的性能提升会更加明显,DiT在LDM的基础上,把模型从U-Net换成了Transformer,因而Sora比Runway具有更强大的性能。凭借Transformer架构可以随意设置位置编码,Sora可以接受任意分辨率和尺寸的素材,而Runway需要将素材裁剪至相同的大小。Sora引入GTP-4将简短的用户提

12、示转换为更长的详细字幕,然后发送到视频模型,有助于Sora更好理解客户需求;而Runway很难理解细微差别,坚持提示中的特定描述而忽略其他描述。Sora依靠从头训练了一套能直接压缩视频的自编码器,Sora 的自编码器不仅能在空间上压缩图像,还能在时间上压缩视频长度,使时长达到了一分钟,而Runway时长小于20秒。拼成“拼成“SORA”SORA”的逼真云的图像的逼真云的图像主要视频生成模型对比主要视频生成模型对比全球资讯精读+V:qu an qi u z i x u n 81.2 模型能力行业领先9资料来源:Sora官网,华西证券研究所SoraSora可以为各种设备生成与其原始纵横比完美匹配的

13、内容可以为各种设备生成与其原始纵横比完美匹配的内容Sora生成的视频具有多样化表现。在原始视频图像数据直接训练:过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。采样更灵活:Sora具备出色的采样能力,无论是宽屏1920 x1080p视频、垂直1080 x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原

14、型。而所有这一切,都得益于使用相同的模型。全球资讯精读+V:qu an qi u z i x u n 81.2 模型能力行业领先10资料来源:Sora官网,华西证券研究所改进构图与框架:实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧,充分展现了其在视频生成领域的卓越性能。将所有训练视频裁剪为方形的模型相比(左),将所有训练视频裁剪为方形的模型相比(左),SoraSora能呈现出更加完美的帧能呈

15、现出更加完美的帧全球资讯精读+V:qu an qi u z i x u n 81.2 模型能力行业领先11资料来源:Sora官网,华西证券研究所Sora深化语言理解。为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,研究员借鉴了DALLE3中的re-captioning技术,并应用于视频领域。首先,研究员训练了一个高度描述性的转译员模型,然后使用它为训练集中的所有视频生成文本转译。通过这种方式,研究员发现对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量。与此同时,与DALLE3类似,研究员还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视

16、频模型。这一创新使得Sora能够精确地按照用户提示生成高质量的视频。SoraSora深化的语言理解能力深化的语言理解能力全球资讯精读+V:qu an qi u z i x u n 8Sora具有图像和视频的多样化提示。它可以接受图像或视频等其他形式的输入。这就让Sora能够完成一系列图像和视频编辑任务,比如制作无缝循环视频、给静态图片添加动态、在时间线上扩展视频的长度等等。为DALLE图像赋予生命:Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频就是基于DALLE 2和DALLE 3的图像生成的。这些示例不仅证明了Sora的强大功能,还展示了它在图像和视频编辑领域的无限

17、潜力。12资料来源:Sora官网,华西证券研究所一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频1.2 模型能力行业领先全球资讯精读+V:qu an qi u z i x u n 8视频时间线的灵活扩展:Sora不仅能生成视频,还能将视频沿时间线向前或向后扩展。从同一个视频片段开始,向时间线的过去延伸。尽管开头各不相同,但最终都汇聚于同一个结尾。而通过这种方法,就能将视频向两个方向延伸,创造出一个无缝的循环视频。1.2 模型能力行业领先13资料来源:Sora官网,华西证券研究所SoraSora甚至可以创造出无限循环视频甚至可以创造出无限循环视频全球资

18、讯精读+V:qu an qi u z i x u n 81.2模型能力行业领先视频到视频编辑:将一种名为SDEdit 32 的编辑基于文本提示的图像和视频的技术应用于Sora,这项技术赋予了Sora转换零拍摄输入视频风格和环境的能力,为视频编辑领域带来了革命性的变革。视频的无缝连接:Sora还能在两个截然不同的输入视频之间实现无缝过渡。通过逐渐插入技术,我们能够在具有完全不同主题和场景构图的视频之间创建出流畅自然的过渡效果。14资料来源:Sora官网,华西证券研究所SoraSora转换零拍摄输入视频风格和环境转换零拍摄输入视频风格和环境全球资讯精读+V:qu an qi u z i x u n

19、 81.2模型能力行业领先15资料来源:Sora官网,华西证券研究所Sora具有图片生成能力。Sora的出色能力不止于数据处理和分析,它现在还能生成图像。这一创新功能的实现得益于一种独特的算法,该算法在一个精确的时间范围内,巧妙地在空间网格中排列高斯噪声补丁。值得一提的是,Sora的图像生成功能不仅限于特定大小的图像。它可以根据用户需求,生成可变大小的图像,最高可达惊人的2048 2048分辨率。SoraSora生成的图片生成的图片全球资讯精读+V:qu an qi u z i x u n 81.2模型能力行业领先Sora具有新的模拟能力。在大规模训练过程中,研究员发现视频模型展现出了许多令人

20、兴奋的新能力。这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。值得注意的是,这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差,而是纯粹通过模型的尺度扩展而自然涌现的。3D一致性:Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。16资料来源:Sora官网,华西证券研究所SoraSora的的3D3D一致性:冬天的日本一致性:冬天的日本SoraSora的的3D3D一致性:山间一致性:山间全球资讯精读+V:qu an qi u z i x u n 81.2模型能力行业领先较长视频的连贯性和对象持久性

21、:视频生成领域面对的一个重要挑战就是,在生成的较长视频中保持时空连贯性和一致性。Sora,虽然不总是,但经常能够有效地为短期和长期物体间的依赖关系建模。例如,在生成的视频中,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。同样地,Sora能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。17资料来源:Sora官网,华西证券研究所SoraSora制作出的窗台上的斑点狗制作出的窗台上的斑点狗SoraSora制作出的街头机器人制作出的街头机器人全球资讯精读+V:qu an qi u z i x u n 81.2模型能力行业领先与世界互动:Sora有时还能以简

22、单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触。随着时间的推移,一个人吃汉堡时也能在上面留下咬痕。18资料来源:Sora官网,华西证券研究所SoraSora制作出的画家的笔触制作出的画家的笔触SoraSora制作出的汉堡的咬痕制作出的汉堡的咬痕全球资讯精读+V:qu an qi u z i x u n 81.2模型能力行业领先模拟数字世界:Sora还能够模拟人工过程,比如视频游戏。它可以在高保真度渲染世界及其动态的同时,用基本策略控制我的世界中的玩家。这些功能都无需额外的训练数据或调整模型参数,只需向Sora提示“我的世界”即可实现。这些新能力表明,视频模型的持续扩展为开发

23、高性能的物理和数字世界模拟器提供了一条充满希望的道路。通过模拟生活在这些世界中的物体、动物和人等实体,我们可以更深入地理解现实世界的运行规律,并开发出更加逼真、自然的视频生成技术。19资料来源:Sora官网,华西证券研究所SoraSora模拟“我的世界”模拟“我的世界”全球资讯精读+V:qu an qi u z i x u n 81.3模型能力行业领先Sora依旧有局限性,但未来可期。尽管Sora在模拟能力方面已经取得了显著的进展,但它目前仍然存在许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,如玻璃破碎等。此外,在某些交互场景中,比如吃东西时,Sora并不能总是产生正确的对象状

24、态变化,包括在长时间样本中发展的不一致性或某些对象不受控的出现等。我们相信随着技术的不断进步和创新,Sora所展现出的能力预示着视频模型持续扩展的巨大潜力。未来,期待看到更加先进的视频生成技术,能够更准确地模拟现实世界中的各种现象和行为,并为人们带来更加逼真、自然的视觉体验。20资料来源:Sora官网,华西证券研究所SoraSora依旧有局限性依旧有局限性全球资讯精读+V:qu an qi u z i x u n 802多模态下游应用百花齐放21全球资讯精读+V:qu an qi u z i x u n 82.1 多模态+视频创作:提升创作者效率Lumiere:Lumiere的核心功能之一是其

25、支持文本到视频和图像到视频的转换能力。这得益于其采用的时空 U-Net(STUNet)架构,这一架构的设计重点在于提高 AI 生成视频中运动的真实感。Lumiere能够在单个过程中生成完整的视频序列,而非简单组合静态帧。这种技术能够同时处理视频的空间(即视频中的对象)和时间(即视频中的运动)方面,为用户带来更加自然和流畅的运动感知体验。Bilibili:在生成式人工智能领域,大语言模型展现出不俗的实力,无论是撰写文章、编写代码、还是开放式问答,都展现出无限的潜力。基于大语言模型强大的理解能力,通过将视频字幕处理成格式化的文本,输入给模型,让它结合上下文语境,挑选出最精彩的部分。通过提示工程(P

26、rompt Engineering),大语言模型在视频高能点的选取上也有很高的准确度。哔哩哔哩还在积极探索相关技术在其他业务形态下的应用场景,如:视频章节拆分与直播带货大纲来提高创作者效率。22资料来源:AI创业伙伴,哔哩哔哩技术,华西证券研究所LumiereLumiere视频设计视频设计BilibiliBilibili用户提示微调(用户提示微调(P P-tuningtuning)示意图)示意图全球资讯精读+V:qu an qi u z i x u n 82.2 多模态+自动驾驶:彻底改变人车交互LimSim+:一个自动驾驶中部署多模态LLMs的闭环平台。LimSim+提供了一个包含道路拓扑、

27、动态交通流、导航、交通控制和其他基本信息的闭环系统。提示是(M)LLM支持的智体系统基础,它包含通过图像或文本描述呈现的实时场景信息。LLM支持的智体系统具有信息处理、工具使用、策略制定和自我评估等功能。V2VFormer+:首个多模态V2V框架。对于每辆车,采用具有特定模态backbone的双流网络在 BEV 平面中进行相机-LiDAR 特征提取(使用稀疏交叉注意 SCA 模块进行相机-视图变换),并设计动态通道融合(DCF)以实现精细-粒度像素点聚合。给定多模态BEV图,进行数据压缩和共享以生成一组在自车-坐标处的特征图Fcav。随后,提出了全局-局部transformer协同策略,用于相

28、邻 CAV 之间的通道语义探索和空间相关建模。最后,将多车辆融合图 Fjoint 输入到预测头中以进行目标分类和定位回归。23资料来源:自动驾驶之心,机器视觉深度学习和自动驾驶,华西证券研究所LimSim+LimSim+的组件示意图的组件示意图V2VFormer+V2VFormer+架构图架构图全球资讯精读+V:qu an qi u z i x u n 82.2 多模态+自动驾驶:彻底改变人车交互商汤提出了DriveMLM模型,它和现有自动驾驶系统行为规划模块中的决策状态对齐,可实现闭环测试中操控车辆,超过之前的端到端和基于规则的自动驾驶系统方法。首先它将LLM的语言决策输出,和成熟模块化方案

29、中规控部分的决策状态对齐,由此LLM输出的语言信号就可转化为车辆控制信号。其次,DriveMLM的MLLM planner模块,包含多模态分词器(Multi-modal tokenizer)和MLLM解码器两个部分。前者负责将摄像头、激光雷达、用户语言需求、交通规则等各种输入转化为统一的token embedding;后者,即MLLM解码器则基于这里生成的token,再生成图片描述、驾驶决策和决策解释等内容。在CARLA中广泛使用的Town05Long基准上,它的驾驶得分(Driving Score)和路线完成度(Route Completion)明显比Apollo等非大模型方法都要高。24资

30、料来源:量子位,华西证券研究所DriveMLMDriveMLM框架框架和业内的其他驾驶方法相比,和业内的其他驾驶方法相比,DriveMLMDriveMLM实现了闭环测试的实现了闭环测试的SOTASOTA成绩成绩全球资讯精读+V:qu an qi u z i x u n 82.3 多模态+广告(电商):创造多样化营销卖点利用AI技术进一步提升数字人的多样性,比如人脸替换、背景替换、口音语音替换去适配我们的prompt,最后脚本、数字人唇形替换、背景替换、人脸替换,视频压制之后,就可以得到一个口播视频。客户得以利用数字人的方式去介绍产品对应的一些营销卖点。这样3分钟即可做好一个数字人,极大地提升了

31、广告主做数字人的能力。大模型还可以帮助商业实现营销海报的生成和商品背景的替换。通过大数据的训练之后,客户还希望有一些特别个性化的东西,未来还需要加入一些微调的方式。25资料来源:DataFunTalk,华西证券研究所复合模态的营销数字人视频生成,复合模态的营销数字人视频生成,3 3 分钟创造分钟创造 1 1 个数字人个数字人营销海报图生成,结合多模态表征的营销图片生成营销海报图生成,结合多模态表征的营销图片生成全球资讯精读+V:qu an qi u z i x u n 82.4 多模态+教育:提升教学效率,加强人机互动教学资源自动生成:在教学资源自动生成方面,当前通用领域的多模态大模型已展现出

32、一定的能力。Stable Diffusion等图像生成模型,可以依据教学需求输入主体及其细节的文本描述,快速自动生成多种风格、高清逼真、蕴含美感的美育类教学资源,所生成的教学资源既具备显著的跨模态性,又具有新颖性与独特性。人机协同过程支持:当前通用领域的多模态大模型也已展现出良好的潜力。在知识问答方面,百度提出的ERNIE大模型可以对领域实体知识与专业术语进行知识增强,并利用问答匹配任务进行模型训练,从而深入理解领域知识及其内在联系。教师教学智能辅助:在利用大模型开展教师教学智能辅助方面,当前工业界和学术界也已开始进行积极的探索。好未来基于教师线上教学语音转写产生的约2000万条教育文本数据,

33、构建了在线教学大模型TAL-EduBERT。26资料来源:电化教育研究,华西证券研究所教育领域大模型构建及其多类型教育任务适配教育领域大模型构建及其多类型教育任务适配“多模态汉字学习系统”基本架构“多模态汉字学习系统”基本架构全球资讯精读+V:qu an qi u z i x u n 82.5 多模态+医疗:为临床医疗任务提供更为智能、高效的解决方案RadFM 具有巨大的临床应用意义:支持三维数据:在实际临床环境中,CT 和 MRI 被广泛使用,大多数疾病的诊断在很大程度上依赖于它们。RadFM 的模型设计能够处理真实的临床成像数据。多图像输入:诊断通常需要输入来自各种模态的多影像作为输入,有

34、时甚至需要历史放射图像,因此支持多图像输入 RadFM 能够很好的满足此类临床需求。交错数据格式:在临床实践中,图像分析通常需要了解患者的病史或背景。交错数据格式允许用户自由输入额外的图像背景信息,确保模型能结合多源信息完成复杂的临床决策任务。27资料来源:Sora官网,华西证券研究所RadFM 首先在大规模的数据集 MedMD 上进行 Pre-training 然后在 RadMD 上进行领域适配。在模型架构上,RadFM 首次支持了 2D 和 3D 自由混合,文本和图像自由混合的输入形式。RadMD RadMD 上模态、上模态、2D/3D2D/3D、Anatomy Anatomy 分布展示分

35、布展示RadFMRadFM 模型架构模型架构全球资讯精读+V:qu an qi u z i x u n 82.6 多模态+安防:AI+安防加速演变算法精确度和效果提升:例如,在视频监控场景中这些技术可以通过对图像和声音的分析,实现目标行为识别和异常检测等功能。多模态算法融合应用:在安防领域,多模态技术可以将图像、语音和文本等数据进行融合,从而实现更全面和准确的情报分析和预警。AI算法从边缘智能向中心智能的倾斜:安防AI算法最开始是以中心智能算法处理为主,后来开始兴起边缘智能设备,把算法集成到终端;随着大模型的推广,中心智能的必要性将增加,AI的智能算法中心将起到新的核心作用。算法自适应学习:在

36、安防领域,这种技术可以通过对历史数据的分析和学习,实现对未知事件的快速响应和处理。智能决策支持:在安防领域,这种技术可以通过对事件的分类和预测,实现智能化的决策支持和应急响应。个性化服务:在安防领域,这种技术可以为不同的客户提供特定的安全方案和风险评估。28资料来源:Sora官网,华西证券研究所AIAI与安防关系与安防关系在安防行业应用较多的两类技术分别为识别技术和认知技术在安防行业应用较多的两类技术分别为识别技术和认知技术全球资讯精读+V:qu an qi u z i x u n 803投资建议29全球资讯精读+V:qu an qi u z i x u n 83.受益标的30资料来源:Win

37、d一致预测(截至2024年2月8日收盘价),华西证券研究所代码公司收盘价市值PEPS2024E2025E2024E2025E300624.SZ万兴科技84.20115.9579.4456.166.054.87603108.SH润达医疗15.0589.8815.4012.520.660.56688088.SH虹软科技26.09105.9349.7036.8212.279.81603322.SH超讯通信27.6643.5935.7324.091.521.32600728.SH佳都科技4.91105.2933.0423.231.461.26300571.SZ平治信息20.5728.7012.7910

38、.300.750.65688004.SH博汇科技15.158.6112.348.642.692.14300079.SZ数码视讯4.4663.73-002230.SZ科大讯飞43.551,008.4880.6954.833.943.15002236.SZ大华股份17.50576.5313.0510.901.501.29002415.SZ海康威视33.653,139.7518.4415.693.142.75300496.SZ中科创达52.79242.8423.4817.543.312.57002373.SZ千方科技9.59151.5418.7614.561.411.17002599.SZ盛通股份4

39、.4523.9223.1717.600.890.791357.HK美图公司2.54113.7420.6012.833.012.33688228.SH开普云39.2826.5214.0310.283.092.54603019.SH中科曙光34.00497.6220.0216.062.852.41000628.SZ高新发展39.11137.78-300017.SZ网宿科技8.59209.3539.5731.873.723.39000034.SZ神州数码24.81166.1211.299.540.130.12002261.SZ拓维信息11.78147.7049.0031.163.542.616880

40、41.SH海光信息76.721,783.23105.9878.2320.8115.73300846.SZ首都在线9.1242.57-全球资讯精读+V:qu an qi u z i x u n 804风险提示31全球资讯精读+V:qu an qi u z i x u n 84.风险提示32资料来源:华西证券研究所 政策落地不及预期:政策出台对科技企业发展具有较强指引,如果政策进展不及预期会影响行业内公司整体发展。技术发展不及预期:公司属于技术密集型企业,如果技术发展不及预期,或将在市场上竞争力减弱,并对公司整体业务产生影响。经济回暖不及预期:经济影响客户预算,如果经济恢复不及预期,影响下游需求恢

41、复。全球资讯精读+V:qu an qi u z i x u n 8免责声明33分析师分析师简介简介刘泽晶(首席分析师):中央财经大学硕士,13年证券从业经验,曾任职于招商证券、兴业证券、国泰君安、中信建投证券。2014-15年新财富前三,水晶球前三;2019年新浪金麒麟分析师计算机行业第四;金牛奖:2020、2019、2017、2016、2014第五、第三、第四、第三、第四;Wind金牌分析师:2023、2022,2020、2018、2015、2014第一,2021第二。赵宇阳(分析师):上海财经大学硕士,3.5年卖方研究经验,2023年加入华西证券研究所,第十届 Chioce 最佳分析师,第

42、十一届 Wind 金牌分析师第一名,擅长自上而下分析产业链趋势,挖掘投资机会,价值与弹性兼顾,主要负责AI与AI+方向。分析师承诺分析师承诺作者具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,保证报告所采用的数据均来自合规渠道,分析逻辑基于作者的职业理解,通过合理判断并得出结论,力求客观、公正,结论不受任何第三方的授意、影响,特此声明。评级说明评级说明公司评级标准公司评级标准投资评级投资评级说明说明以报告发布日后的6个月内公司股价相对上证指数的涨跌幅为基准。买入分析师预测在此期间股价相对强于上证指数达到或超过15%增持分析师预测在此期间股价相对强于上证指数在5%15%之间中性

43、分析师预测在此期间股价相对上证指数在-5%5%之间减持分析师预测在此期间股价相对弱于上证指数5%15%之间卖出分析师预测在此期间股价相对弱于上证指数达到或超过15%行业评级标准行业评级标准以报告发布日后的6个月内行业指数的涨跌幅为基准。推荐分析师预测在此期间行业指数相对强于上证指数达到或超过10%中性分析师预测在此期间行业指数相对上证指数在-10%10%之间回避分析师预测在此期间行业指数相对弱于上证指数达到或超过10%华西证券研究所:华西证券研究所:地址:北京市西城区太平桥大街丰汇园11号丰汇时代大厦南座5层网址:http:/ an qi u z i x u n 8THANKS全球资讯精读+V:qu an qi u z i x u n 8

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服