人工智能行业：GPT4及ChatGPT相关应用梳理.pdf

资源描述

GPT4GPT4及及ChatGPTChatGPT相关应用梳理相关应用梳理证券研究报告证券研究报告行业动态报告行业动态报告发布日期：2023年3月17日本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师：于芳博分析师：于芳博SAC编号：S1440522030001分析师：分析师：阎贵成阎贵成SAC编号：S1440518040002SFC 中央编号：BNS315分析师：金戈分析师：金戈SAC编号：S1440517110001SFC 中央编号：BPD352 核心观点核心观点：3月15日 OpenAI发布多模态大模型GPT-4，其不仅在语言处理能力上提高，还具备对图像的理解和分析能力。GPT-4商业化进程加快，开放API的同时还发布了在6个不同商业场景的应用落地。随后微软发布了震撼的微软365 Copilot，极大提升office的生产力和交互方式。此前，ChatGPT就已经展示了强大的能力，在文字创造、人机交互、教育、影音、零售等多场景落地应用。我们认为，多模态大模型已在多领域具有专家能力，未来将深度赋能千行百业，改变生产生活方式。1.2023年年3月月15日，日，OpenAI目前最强大的多模态预训练大模型目前最强大的多模态预训练大模型GPT-4正式发布正式发布。其能够处理文本、图像两种模态的输入信息，单次处理文本量是ChatGPT的8倍，GPT-4的表现大大优于目前最好的语言模型，同时在学术考试中的水平远超GPT3.5。这意味着GPT-4不仅在学术层面上实现了模型优化与突破，同时也展现出了成为部分领域专家的能力。2.GPT-4商业化进程加快。商业化进程加快。GPT-4在发布时便开放了其纯文本输入的API，这与GPT-3和GPT-3.5的滞后开放不同。同时，GPT-4这次一起推出了6个商业场景的具体应用落地，在优化人机交互体验、提供专业服务、提升组织效能、文化传承与保护等方面都展现了巨大的潜能，未来有望看到更多场景中的商业化拓展与落地。3.ChatGPT已经刮起已经刮起GPT生态狂潮生态狂潮。2023年3月1号，OpenAI基于GPT 3.5 Turbo模型开放了ChatGPTAPI。API收费模式为0.002美元/1000tokens。相较于前一代开放接口GPT 3.5，性能更强的同时，价格下降90%，加速ChatGPT相关应用生态的发展。4.应用百花齐放，创造新的生产方式应用百花齐放，创造新的生产方式。微软先后在搜索引擎Bing、企业服务平台Dynamic 365及开发者工具平台PowerPlatform等接入 ChatGPT/GPT-4能力。微软还发布了震撼的Microsoft 365 Copilot，极大提升office的生产力和交互方式。与此同时，在越来越多的企业宣布接入ChatGPT的能力，其中不乏一些已经取得优秀商业化的应用。如Jasper、Quizlet、Shop等，在语言文字创造、人机交互、教育、绘画、影音、零售等多场景落地应用。5.我们认为我们认为以GPT4/ChatGPT为代表的预训练大模型是这一轮AI浪潮的重要革新，重点推荐关注海内外优秀应用落地情况，AI芯片产业链等投资机遇。oPtQqQmMmOvMsNsMmMpNoM6MaOaQmOrRtRpMkPpPpMeRqRuN9PnMsQxNpOxPMYrQyQ目录一、一、ChatGPTChatGPT：从全民关注的爆款应用走向商业化开放，在多个场景中展现价值从全民关注的爆款应用走向商业化开放，在多个场景中展现价值二、二、GPT4GPT4：更强大的多模态大模型，带来更广泛的商业应用可能：更强大的多模态大模型，带来更广泛的商业应用可能 1.1 AIGC商业化演进：重点产品时间线资料来源：Sequoia，中信建投随着技术的快速进步，AI生成内容(AIGC)极大地解放了生产力，其广阔的应用场景及市场价值推动着其商业化的快速发展。垂直领域快速落地，爆款产品不断推出。垂直领域快速落地，爆款产品不断推出。随着技术不断演进，尤其是Diffusion、Transformer和Clip等模型的提出，AIGC的商业化在多个领域开始落地。其中代码生成、文本生成、图像生成、音视频/游戏等领域已有不少爆款级产品。1）代码领域，基于OpenAI的Codex模型，Github推出的Copilot具备代码的生成、补全、建议等功能，用户量突破百万级别。2）文本领域，ChatGPT目前已开放API接口，微软已经在Bing和Dynamic365等应用接入。3月份发布的多模态预训练大模型GPT-4已开放纯文本API，在图片理解、推理和学术考试中展现了强大能力，未来将适用于更广泛的应用场景。3）图像领域，Stable diffusion等文生图应用已突破千万级用户量，目前是商业模式最成熟的领域，国内也在积极布局。4）音视频/游戏领域，起步较晚，对模型复杂度和算力要求更高，百度的文心一言大模型已经具备对视频生成的能力。图：图：AIGCAIGC重点产品时间线重点产品时间线GPT-3DALL-E2Stable DiffusionDALL-EImagen VideoMake-a-vedioPhenakiJasper.AICopy.aiChatGPTCodex代码文本图像音视频/3D/游戏2020202120224月8月10月9月11月Midjourney7月6月CopilotCodeWhisperer三大AI绘图应用支持模型底层技术20232月Bard3月百度文心一言aiXcoderMeena科大讯飞SMART-TTS2019及更早底层技术微软小冰Stable Diffusion 2TabNineMagic3DOpenAIGoogle国产其他盗梦师6penGPT-4处于测试阶段Palm2022年发布2023.3开放api 1.2 ChatGPT开放接口，OpenAI商业化进一步推进OpenAI开放开放ChatGPTAPI和和WhisperAPI（应用程序接口），允许开发者将（应用程序接口），允许开发者将ChatGPT集成至他们的应用程序和服务中。集成至他们的应用程序和服务中。2023年3月1号，OpenAI宣布开放了ChatGPT API，其由自然语言大模型“GPT 3.5 Turbo”支持，开放的API收费模式为0.002美元/1000tokens，较前一代价格下降90%。OpenAI根据根据API调用的调用的token（分词）输入和输出总数计费（分词）输入和输出总数计费。例如调用输入10个token，输出20个token，则需要支付30个token的费用。同时token总数还需低于模型最大限制，GPT-3.5-turbo-0301版本的限制是4096个token。除此之外，本次除此之外，本次OpenAI还开放了还开放了Whisper API。是一种语音转换文字（speech to text）的模型，可以转写或翻译语音，支持包括英语、中文、阿拉伯语、日语、德语、西班牙语等几十种语言，使用Whisper API的费用为每分钟0.006美元。目前目前OpenAI已经开放了包括已经开放了包括ChatGPTAPI和和WhisperAPI在内的多个在内的多个API接口，逐步推进商业化进程：接口，逐步推进商业化进程：OpenAI开放的语言类API包括用于对话的GPT-3.5-turbo（多段对话）、InstructGPT（一问一答），其中InstructGPT根据其性能可以分为Ada、Babbage、Curie、Davinci（由弱至强），这四个模型还提供针对具体场景的微调接口，其中的Ada还可以作为研究的基础Embedding模型被调用。开放的多模态模型为Dall E，根据处理图像的像素不同进行收费。开放的音频模型为Whisper。表：表：OpenAIOpenAI开放的相关模型开放的相关模型资料来源：OpenAI，中信建投应用具体功能模型名定价（美金/1000tokens）语言模型对话GPT-3.5-turbo0.002InstructGPTAda0.0004Babbage0.0005Curie0.0020Davinci0.0200应用具体功能模型名定价（美金/1000tokens）语言模型Fine-TuningAda0.0004（训练）0.0016（调用）Babbage0.0006（训练）0.0024（调用）Curie0.0030（训练）0.0120（调用）Davinci0.0300（训练）0.12（调用）EmbeddingAda0.0004应用具体功能模型名定价多模态模型文生图DallE0.020美金/image（10241024）0.018美金/image（512512）0.016美金/image（256256）音频模型语音识别Whisper0.006美金/minute 1.3 微软与OpenAI深度合作，依托前沿AI技术提升产品能力微软作为微软作为OpenAI最为重要的合作伙伴和投资人，其旗下产品与最为重要的合作伙伴和投资人，其旗下产品与OpenAI的相关模型深度融合。的相关模型深度融合。1.微软旗下的搜索引擎结合了GPT4的技术，将搜索、创造、聊天结为一体，多方位地满足用户个性化的需求；2.微软旗下的企业服务平台Dynamic 365是融合CRM、ERP等功能的SaaS服务，其结合ChatGPT的技术推出Dynamics 365 Copilot，为销售、服务、营销到供应链等跨业务的人员提供帮助；3.微软旗下的开发者工具Power Platform，结合ChatGPT技术推出，Power Virtual Agents和AI Builder，分别提供构建聊天机器人的低代码方法和面向开发人员的生成AI功能。微软产品在融合了生成式微软产品在融合了生成式AI技术后展现出更强的产品能力和市场竞争力技术后展现出更强的产品能力和市场竞争力1.以Dynamic 365 Copilot为例，在原先的工作场景中，营销人员需要每天花费66%的时间进行邮件回复（根据Futurum研究），而Dynamics 365 Copilot的推出就有望大大减轻这方面的工作量。2.产品能力的提升也带来了广泛的市场关注度和认可度，以微软Bing为例，Bing接入ChatGPT一个月后,微软公布进展称，经过多年的稳步发展，加上数百万新Bing预览用户的推动，Bing每日活跃用户已突破1亿。在新Bing预览版的数百万活跃用户中，大约三分之一是Bing的新用户。图图：BingBing基于用户指令生成产品对比信息表格基于用户指令生成产品对比信息表格资料来源：OpenAI，中信建投图图：微软：微软PowerPower PlatformPlatform平台与平台与AIAI结合相关产品时间线结合相关产品时间线 1.4.1 B端应用：Dynamic365&Power PlatformDynamic365是微软推出的企业服务平台，是微软推出的企业服务平台，其中于2023年3月9日推出的的Dynamics 365 Copilot结合了ChatGPT相关的AI技术，用于 CRM 和 ERP。目前处于预览阶段，其可以为销售、服务、营销到供应链等跨业务的人员提供帮助，例如实现生成回复客户信息的电子邮件，为团队创建会议摘要，为营销活动提供灵感等。Power Platform是微软旗下的开发者工具，是微软旗下的开发者工具，其中于2023年3月6日推出的Power Virtual Agents和AI Builder都已经使用了OpenAI的GPT语言模型技术。其中Power Virtual Agents通过聊天机器人的形式实现低代码编程，比如将 AI 聊天机器人指向企业的特定资源，如网站或者知识库，简单配置便可使用，无须额外编写代码。而 AI Builder 结合了ChatGPTAPI（称为Azure OpenAI 服务）的生成 AI 功能，允许开发人员使用 GPT 模型生成文本，包括汇总报告、生成内容创意等等。图图：使用：使用DynamicDynamic 365365 CopilotCopilot辅助回复邮件辅助回复邮件资料来源：微软，中信建投图图：利用：利用PowerPower VirtualVirtual AgentsAgents便捷构建聊天机器人便捷构建聊天机器人 1.4.2 B端应用：JasperJasper：结合：结合GPT-3，打造多款产品，打造多款产品截至2022年12月底，Jasper付费用户达到7万，2022年年收入7500万美金,估值已达15亿美金。旗下有多款产品接入GPT-3进行商业性文字创作：1.Jasper Starter能够利用预定义的模板完成摘要、产品描述、博客文章。2.Boss Mode是一款写作助手，能够实现灵活便捷的商业文案写作。通过使用Boss Mode，用户仅需要自己编辑20%的内容，Jasper会完成80%的内容。3.Jasper for Business是专门为B端打造的服务,能够定制化生成文案。用户能够创建新的自定义工作流程，开发专门满足其需求的写作助手。4.Jasper Chat是一款起到激发想法和修改内容功能的聊天机器人，而Jasper Art能够为广告、博客文章生成图片。资料来源：Jasper官网，Contrary Research，中信建投图图：JasperJasper将关键词和提示转换为文章将关键词和提示转换为文章图图：JasperJasper能够翻译能够翻译2525种语言种语言图图：JasperJasper功能简述功能简述 1.4.3 B端应用：Brex&Slack&ChatSpot.aiBrex：与：与OpenAi合作，打造便捷化的金融信息平台合作，打造便捷化的金融信息平台Brex是一家美国的金融科技平台。2023年3月7日，Brex宣布推出基于OpenAI技术的先进人工智能工具。通过Brex Empower平台，客户可以在聊天界面中，使用自然语言来描述要求，获得相应的财务相关信息或是更为复杂的财务分析。Slack：基于：基于ChatGPT能力，助力日常办公的效率提升能力，助力日常办公的效率提升Slack是Salesforce旗下的团队协作工具，与Teams类似。2023年3月7日，Slack宣布引入OpenAI的ChatGPT，用户可以在应用程序中直接对ChatGPT提问来获得问题的答案。ChatGPT将协助用户进行内容理解、总结与归纳，进而实现工作效率的提高。这一功能最初为OpenAI内部团队的协作工具，现在已经向所有的Slack用户开放。ChatSpot.ai：将：将ChatGPT等等AIGC技术与技术与CRM结合，辅助实现多类任务结合，辅助实现多类任务HubSpot是一个著名的营销、销售、服务平台（CRM），其推出了一种新的生成AI工具ChatSpot，将HubSpot自己的CRM技术与OpenAI的ChatGPT、DALL-E 2和谷歌文档应用程序结合，可以用自然语言完成多类任务，如调取数据，生成报告等功能。图：图：SlackSlack中的中的ChatGPTChatGPT相关应用相关应用图图：BrexBrex产品示意图产品示意图资料来源：Brex官网，salesforce官网，OpenAI，中信建投 1.4.4 B端应用：HireStack&PencilHireStack：结合：结合GPT-3提升面试效率提升面试效率HireStack是一家人力资源公司，它利用GPT-3生成面试问题以及对应的答案。参考AI给出的回答，HireStack能够在面试时评估应聘者的专业能力以及与对应职位的匹配度，相比于传统的人力资源公司，AI能够极大提升HireStack工作效率。Pencil：基于：基于GPT-3生成多样化广告生成多样化广告Pencil可以生成效果良好、富有创意且符合品牌要求的广告文案和视频。GPT-3 使得 Pencil 不仅能够一般性地描述产品，而是能够围绕产品进行创意营销。例如，为打造一个手电筒广告，Pencil在广告中首先展现出在黑暗中工作是十分危险的，进而突出手电筒的重要性。更具创意的解决方案将使得Pencil的广告对潜在客户更具吸引力。图：图：PencilPencil基于一款产品生成多种类型的广告基于一款产品生成多种类型的广告图图：HireStackHireStack利用利用GPTGPT-3 3生成面试问题和答案生成面试问题和答案资料来源：HireStack官网，Pencil官网，中信建投 1.4.5 C端应用：Snapchat&DiscordSnapchat：基于：基于ChatGPTAPI推出聊天机器人推出聊天机器人MyAISnapchat是一款由斯坦福大学学生开发的图片分享软件。2023年2月28日Snapchat宣布推出近日基于OpenAI的ChatGPTAPI的人工智能聊天机器人“MyAI”。目前，这一功能仅对订阅了Snapchat+的高级用户开放，订阅费用为每月3.99美元。目前，付费用户数量为两百万，只占公司用户总数的一小部分。公司表示，在不久的将来，平台的所有客户都可以免费或付费使用MyAI。Discord：基于：基于ChatGPTAPI推出聊天机器人推出聊天机器人ClydeDiscord是一个游戏聊天应用与社区，每月有3000万用户在社区中体验AI相关的应用。2023年3月10日，Discord宣布引入OpenAIAPI推出了聊天机器人Clyde，其可以加入到Discord的不同频道中（通过输入“Clyde”就可以在任意频道中与Clyde进行对话），实现对话总结、基于对话中的问题作答、歌单推荐、与用户进行互动游戏等方面的功能。图：图：DiscordDiscord ClydeClyde图图：SnapchatSnapchat MYMY AIAI资料来源：SnapChat，Discord，中信建投 1.4.6 C端应用：BingBing：整合：整合Open AI新一代技术，带来搜索引擎范式转移新一代技术，带来搜索引擎范式转移2月8日，由ChatGPT和GPT-3.5提供支持的全新搜索引擎Bing正式亮相。新版Bing在传统的搜索外还有对话窗口，可向它提问或是征求它的意见。例如用户可以向其询问参加音乐节的建议。除此之外除此之外，新版，新版BingBing还可以进行创作还可以进行创作，例如根据提示帮助用户用户生成从电子邮件到社交媒体的文本，或是表格化的输出帮助用户更好对比产品的差异。此外，此外，BingBing在不断迭代在不断迭代，3月7日，Bing发布了具有三个风格的新版产品以更好满足用户个性化的需求。此外，移动版的Bing也在11日发布，用户在手机上即可使用最新版本的Bing。我们认为，新我们认为，新BingBing不同于传统的搜索引擎，将“搜索不同于传统的搜索引擎，将“搜索+创创造造+聊天”融为一体，能够更加灵活地满足用户多样化需求，或将带来搜索引擎的范式转移。聊天”融为一体，能够更加灵活地满足用户多样化需求，或将带来搜索引擎的范式转移。新新Bing下载量激增，日活已突破下载量激增，日活已突破1亿亿Bing接入ChatGPT一个月后,微软公布其进展称，经过多年的稳步发展，加上数百万新 Bing 预览用户的推动，Bing 每日活跃用户已突破1亿。在新 Bing 预览版的数百万活跃用户中，大约三分之一是 Bing 的新用户。资料来源：Bing，新智元，How-to Geek，中信建投图图：利用：利用BingBing生成社交媒体的文本生成社交媒体的文本图图：BingBing生成表格对比产品信息生成表格对比产品信息图图：新：新BingBing界面包含对话框界面包含对话框 1.4.7 C端应用：DuckAssist&PoeDuckDuckGo：与：与OpenAI合作，推出合作，推出DuckAssistDuckDuckGo是一个主打隐私保护的互联网搜索引擎，于2023年3月9日推出了测试版 DuckAssist，通过 AI 工具来帮助用户快速找到答案。DuckAssist 的设计目标是从维基百科等类似来源中，总结出用户所需要的答案，并以自然语言的方式传达给用户。DuckDuckGo邀请所有用户对DuckAssist的功能进行测试，且不需要注册用户即可直接使用相关功能，如果测试进展顺利，它将在“未来几周内”正式添加到浏览器中。Quora：基于不同的语言模型，推出了聊天机器人：基于不同的语言模型，推出了聊天机器人PoeQuora是一个专业问答平台/知识问答社区，类似于美国版的知乎。Quora推出了新的AI聊天机器人应用Poe，最早在2022年12月亮相，但在2023年2月全面发布。所有iOS用户都可以通过电话号码和电子邮件注册账户，然后就能在三种不同的AI聊天机器人中切换，获得相应的聊天结果。具体的聊天机器人包括Sage、Dragonfle（均由OpenAI支持）、Claude（由支持Anthropic）。目前Poe作为独立产品推出，但若Poe上的相关内容达到一定的质量标准，就会被发布至Quora网站上，供每月4亿访问者快速查询。图：图：QuoraQuora POEPOE图图：DuckAssistDuckAssist界面示意图界面示意图资料来源：DuckDuckGo，Quora，中信建投 1.4.8 C端应用：Quizlet&Instacart&ShopQuizlet：结合：结合ChatGPT API，推出，推出AI导师导师Q-ChatQuizlet是一个全球性的学习平台，有超过6000万的用户。结合ChatGPT API，Quizlet于2023年2月28日推出了AI导师Q-Chat，其可以基于相关学习材料提出自适应问题，生成有趣的聊天内容来与学生进行互动。Instacart：基于：基于ChatGPT和相关和相关AI技术，推出技术，推出Ask Instacart功能功能Instacart是一家美国的生鲜杂货电商平台。Instacart利用ChatGPT和自研的AI技术，结合平台上超过75000个零售合作伙伴店铺的产品信息，帮助客户实现他们的开放式购物目标，例如可以回答客户的“我的孩子们午餐吃什么健康的食物？”一类的开放性问题，这一功能名为Ask Instacart，将在今年晚些时候推出。Shopify：结合：结合ChatGPT，提供消费个性化推荐服务，提供消费个性化推荐服务Shop是Shopify的消费者应用程序，有上亿消费者在程序上寻找品牌和产品信息。通过与ChatGPT的结合，Shpo购物助手会根据用户文字描述的需求，扫描数百万商品快速找到买家所需，提供个性化推荐，实现物流程的简便化、高效化。图：图：AskAsk InstacartInstacart图图：QuizletQuizlet Q Q-ChatChat生成趣味问答与学生交互生成趣味问答与学生交互资料来源：OpenAI，中信建投图：图：ShopifyShopify中的中的shopshop协助找到买家所需协助找到买家所需提问什么是适合孩子的健康午餐给出食物推荐和购买链接提出需要寻找的服装需求根据用户需求推荐相关产品 1.4.9 C端应用：Anania&TabnineAnania：结合多种语言模型进行数据分析：结合多种语言模型进行数据分析Anania 是一款数据分析软件，GPT3是Anania使用的AI模型之一。其可以通过简单、自然的英语对话来分析用户的数据。用户可以通过它对数据进行搜集、分析、可视化和导出。例如用户输入“向我展示出周内和周末用手机进行对话的用户比例的差异”，Anania即可快速生成对比图表。Tabnine：结合：结合GPT-2生成代码生成代码Tabnine使用生成AI技术来预测并根据上下文和语法来推测用户的下一行代码。在编写代码时，Tabnine可以为用户推荐其预测的整行代码。或用户输入注释，Tabnine 则会为其推荐正确的代码。图：输入注释图：输入注释TabnineTabnine即可自动生成代码即可自动生成代码图图：输入句子：输入句子AnaniaAnania即可作出图表即可作出图表资料来源：Anania官网，Tabnine官网，中信建投注释：拟合随机森林模型Tabnine自动生成了相关代码 1.4.10 C端应用：Jarvis Lyrics&RationaleJarvis Lyrics：基于：基于GPT3的歌词生成工具的歌词生成工具Jarvis是歌曲创作的伴侣。它能够根据任何艺术家、流派、标题和歌词的提示生成歌词建议。然后，用户可以根据建议创作自己的歌词。该工具利用随机输入的语句或创意故事生成的歌词使得艺术家获得更多灵感。Rationale：基于：基于GPT3的决策助手的决策助手用户只需输入无法决定的选项，Rationale就会根据 GPT 和上下文学习算法列出该决定的优缺点、生成 SWOT 分析或进行多标准分析以帮助用户权衡选择。通过考虑所有相关因素和用户的背景，Rationale可以帮助用户做出理性的决定。图：用户输入“吃苹果”后图：用户输入“吃苹果”后RationaleRationale列出该决定的优缺点列出该决定的优缺点图图：输入歌手名称即可使用：输入歌手名称即可使用JarvisJarvis生成相关歌词生成相关歌词资料来源：Jarvis官网，Rationale官网，中信建投用户无法确定的事项缺点优点目录一、一、ChatGPTChatGPT：从全民关注的爆款应用走向商业化开放，在多个场景中展现价值从全民关注的爆款应用走向商业化开放，在多个场景中展现价值二、二、GPT4GPT4：更强大的多模态大模型，带来更广泛的商业应用可能：更强大的多模态大模型，带来更广泛的商业应用可能 2.1.1 GPT-4:OpenAI最强大的多模态大模型2023年年3月月15日，日，OpenAI发布多模态预训练大模型发布多模态预训练大模型GPT-4，并称其是目前最强大的多模态大模型。其主要特点如下：，并称其是目前最强大的多模态大模型。其主要特点如下：GPT-4具备从图像中获取和分析信息的能力：具备从图像中获取和分析信息的能力：GPT-4不仅拥有图像阅读能力，还可以从图像中提取逻辑，进行分析思考。以左图为例：问：如果把图中的绳子剪掉会怎么办？GPT-4:气球会飞走。GPT-4对图片的理解能力、分析逻辑能力、物理等学科的知识储备都赋予了这个模型强大的智能。GPT-4能够处理更长的文本输入：能够处理更长的文本输入：在ChatGPT模型中，单次输入的文本量为3000个单词左右，而GPT-4模型单次能够处理超过25000个单词，是上一代ChatGPT模型的近8倍，代表着对长文章的阅读、分析、生成能力大幅提高。图图：GPTGPT-4 4拥有从图像中提取逻辑的强理解力拥有从图像中提取逻辑的强理解力资料来源：OpenAI，中信建投图图：GPTGPT-4 4和和ChatGPTChatGPT单次输入的文本量对比单次输入的文本量对比 2.1.2 GPT-4:能力更为强大而全面的多模态预训练大模型GPT-4更具备创造力和协作能力：更具备创造力和协作能力：它可以与用户一起生成、编辑和迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。如下左图所示，GPT-4根据用户要求生成了一个解释灰姑娘故事情节的句子，并且每个单词首字母需满足字母表A-Z的排序。GPT-4相较于相较于ChatGPT有更强的高级推理能力：有更强的高级推理能力：GPT-4能够回答出ChatGPT所不能回答的更为复杂的逻辑问题。如下右图所示，给定三个人物不同的空闲时间，要求模型安排出合适的会议时间，ChatGPT无法在此问题上给出正确答案（右图灰白色文字），而GPT-4能够合理的完成这一要求（右图绿色文字）。而在GPT-3.5难以处理的如AP Calculus BC（AP微积分）考试中，GPT-4的水平超过40%的应试者。图图：GPTGPT-4 4根据用户要求创作根据用户要求创作资料来源：OpenAI，中信建投图图：GPTGPT-4 4能够处理能够处理ChatGPTChatGPT无法处理的复杂推理问题无法处理的复杂推理问题要求用一句话描述灰姑娘的剧情且句子中每个单子的首字母需要满足字母表A-Z的排序ChatGPT生成的答案是错误的而GPT-4给出了正确的答案 2.2.1 GPT-4:从语言模型走向多模态模型，带来更为丰富的应用场景图图1 1：GPTGPT-4 4处理图像相关的物理问题处理图像相关的物理问题资料来源：OpenAI，中信建投图图2 2：GPTGPT-4 4根据论文截图给出摘要（左）并回答相关问题（右）根据论文截图给出摘要（左）并回答相关问题（右）GPT-4是大型多模态模型，能够接受图像和文本两种模态的输入，再通过文字给出正确的文本答复，在多个不同的应用场景中展现是大型多模态模型，能够接受图像和文本两种模态的输入，再通过文字给出正确的文本答复，在多个不同的应用场景中展现出强大的能力。出强大的能力。1）给出一道物理题和相应的示意图，GPT-4可以给出具体的解题步骤和相应的答案（如下图1所示）2）给出论文的截图，GPT-4可以总结出论文的主要内容，并根据用户进一步的提问补充其中的细节，在用户的指令下，GPT-4进一步解释了论文中的第二个图像涉及的具体步骤。（如下图2所示）用户输入物理题及其对应示意图GPT-4分步骤给出解答用户输入论文图像及摘要指令GPT-4生成论文摘要GPT-4根据用户要求补充解释论文中图像的具体步骤 2.2.2 GPT-4:从语言模型走向多模态模型，带来更为丰富的应用场景图图3 3：GPTGPT-4 4提取图像中的数据并完成相应计算提取图像中的数据并完成相应计算图图5 5：GPTGPT-4 4解释漫画的内容解释漫画的内容图图4 4：GPTGPT-4 4解释图片含义及幽默的原因解释图片含义及幽默的原因3）用户给出一张具有相关数据信息的图表并提出了一个和图表数据相关的问题，GPT-4可以识别出图表中对应的数据，给出问题的处理步骤和处理结果。如下图3所示，给定一张含有芬兰、格鲁吉亚、西亚每日人均肉类消费的图表，GPT4按照要求计算出了格鲁吉亚和西亚每日人均肉类消费的和并给出了对应步骤。4）输入一张图片并提出和图片相关的问题，GPT-4可以基于图片给出准确的回答。如下图4所示，输入一张“VGA线充手机”的图片并要求GPT-4解释图片幽默的原因，GPT-4成功按照用户的要求给出了图片的三个部分的具体含义并正确给出了图片之所以看上去滑稽是因为“将较大的VGA数据线接到了相对迷你的现代手机上”。而在图5的例子中，GPT-4成功解释了关于神经网络层数的漫画内容。资料来源：OpenAI，中信建投用户输入数据图表及相关问题GPT-4分步骤给出解答用户输入图像并提问为什么图像看上去滑稽GPT-4解释图像为什么会滑稽用户输入漫画并要求阐述漫画内容GPT-4解释漫画对应的内容 2.3 GPT-4:从“百科全书”逐步成为文理通吃的“专家”相较于过去的相较于过去的GPT系列模型，系列模型，GPT-4在更多应用领域成为专家，包括为机器学习模型评判标准和为人类设计的专业测试。在更多应用领域成为专家，包括为机器学习模型评判标准和为人类设计的专业测试。在为机器学习模型设计的传统基准上，在为机器学习模型设计的传统基准上，GPT-4的表现大大优于了目前的最好的语言模型，以及大多数的表现大大优于了目前的最好的语言模型，以及大多数SOTA模型模型相较于GPT-3.5以及当前最好的语言模型，GPT-4在机器学习模型学术基准数据集上的表现实现了全面突破，在7项数据集中的测试均优于当前最优的语言模型。除了在Drop基准数据集上与QDGAT模型有一定差距，GPT-4在其余6项基准数据集的测试都实现了当前世界最优秀的性能。在MMLU数据集中，GPT-4不仅在英语语言上的性能实现了突破，在其他语言方面的表现也优于现在的语言模型。在为人类设计的各种专业测试和学术基准数据集中，在为人类设计的各种专业测试和学术基准数据集中，GPT-4展现出媲美甚至优于人类的水平。展现出媲美甚至优于人类的水平。GPT-3.5模型在一些相对简单的人类专业测试中已经展现出不错的性能，但当任务的复杂度上升后，其便难以处理，而GPT-4模型在一些相对困难的任务中也已经取得相当优异的性能，例如其在模拟律师考试中取得了应试者中前10%的成绩，而GPT-3.5模型只有倒数10%的成绩，甚至在GPT-3.5难以处理的如AP Calculus BC（AP微积分）考试中，GPT-4的水平也已经超过40%的应试者。表：表：GPTGPT-4 4在机器学习模型学术基准数据集中的表现在机器学习模型学术基准数据集中的表现资料来源：OpenAI，中信建投图图：GPTGPT-4 4在在MMLUMMLU不同语言上的性能不同语言上的性能图图：GPTGPT-4 4在人类专业测试中的表现在人类专业测试中的表现语言模型的最佳性能所有模型的最佳性能GPT-3.5在英语语言上MMLU任务的性能 2.4 GPT-4：在可控性和真实性方面比ChatGPT有大幅提升GPT-4更加可控，回答更加符合事实：更加可控，回答更加符合事实：Open AI 花费了 6 个月时间使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行迭代调整，从而在可控性和真实性上取得了很好的结果。在内部评估中，GPT-4 回答可能生成有害内容的输入的可能性降低了 82%，产生符合事实回复的可能性高出 40%。引入人类反馈进行训练。引入人类反馈进行训练。Open AI引入了ChatGPT用户以及50名来自人工智能、网络安全、生物安全和国际安全等领域的专家提交的反馈来训练模型，以使模型的回答避免含有某些不恰当的言论。从实际使用中不断提升。从实际使用中不断提升。Open AI将以前模型的使用经验应用到 GPT-4 的安全研究和监控系统中。例如Open AI会自动检测用户的行为是否违背安全性原则。若违反，系统会临时发布警告暂停或禁止用户的行为。与 ChatGPT 一样，随着越来越多的人使用它，Open AI将定期更新和改进 GPT-4。GPT-4协助进行安全方面的研究。协助进行安全方面的研究。GPT-4 的高级推理和指令遵循功能加快了安全研究工作。Open AI使用 GPT-4 来帮助创建训练数据，以便在训练、评估和监控中对分类器进行微调和迭代。资料来源：Open AI，中信建投图图：GPTGPT-4 4降低危险行为比率降低危险行为比率引入人类的反馈进行训练从实际使用中持续提升GPT-4协助进行安全方面的研究图图：Open AIOpen AI通过三方面提升通过三方面提升GPTGPT-4 4可控性和真实性可控性和真实性 2.5 ChatGPT升级GPT-4版本，GPT-4开放相应API加速商业化，ChatGPT升级了对应的升级了对应的GPT-4版本：版本：在GPT-4发布后，OpenAI直接将GPT-4接入了ChatGPT。订阅了ChatGPT Plus的用户可以有使用上限的GPT-4访问权限。GPT-4开放了相应的开放了相应的API：GPT-4纯文本API可以通过注册申请的方式获取，但目前图像输入仍处于Alpha测试阶段，尚未开放给用户。价格方面，输入长度为8K的版本输入和回复的价格分别为每1000个token 0.03美金和0.06美金，输入长度为32K的版本输入和回复的价格分别为每1000个token 0.06美金和0.12美金。GPT-4商业化落地加速：商业化落地加速：GPT-4强大的性能和解决丰富场景下具体问题的能力让其在优化人机交互体验、提供专业服务、提升组织效能、文化传承与保护等方面都展现了巨大的潜能。表：表：GPTGPT-4 4和和ChatGPTChatGPT APIAPI价格对比价格对比资料来源：OpenAI，中信建投模型名定价输入长度GPT-3.5-turbo0.002美金/1K tokensGPT-4（纯文本）0.03美金/1K tokens8K长

展开阅读全文