1、内容简介马斯克称ChatGPT将颠覆世界;微软为ChatGPT投资数百亿美元,并计划将其整合到Offce办公软件和Bing搜索引擎之中;在一些高校和学术机构中,兴起了关于用ChatGPT写论文是否合规的大讨论;甚至,一些咨询公司也开始担心自己的饭碗会被抢走2023年,应用ChatGPT的热情已经被点燃,ChatGPT的应用场景不断快速拓展。本书以通俗的语言和生动的案例,将ChatGPT、AIGC和元宇宙等热点一网打尽,图文并茂,全面展示幕后的技术路径、涌动的投资热潮和无限可能的未来场景,是一本深入浅出的通识书。本书将为你拨开迷雾,搞懂底层逻辑,把握住人工智能新时代的成长机会。7内容简介马斯克称
2、ChatGPT将颠覆世界;微软为ChatGPT投资数百亿美元,并计划将其整合到Offce办公软件和Bing搜索引擎之中;在一些高校和学术机构中,兴起了关于用ChatGPT写论文是否合规的大讨论;甚至,一些咨询公司也开始担心自己的饭碗会被抢走2023年,应用ChatGPT的热情已经被点燃,ChatGPT的应用场景不断快速拓展。本书以通俗的语言和生动的案例,将ChatGPT、AIGC和元宇宙等热点一网打尽,图文并茂,全面展示幕后的技术路径、涌动的投资热潮和无限可能的未来场景,是一本深入浅出的通识书。本书将为你拨开迷雾,搞懂底层逻辑,把握住人工智能新时代的成长机会。8推荐序FOREWORD未来已来,
3、不管人类是否欢迎它。在这个时代,所有人都感觉到,世界的变化太快了,知识的更新太快了,我们很难跟上这种变化。在心理上、行为上、动作上和策略上,我们该如何应对巨变?每一个工作,每一个工种,每一个步骤,每一个流程,都在被技术所赋能、所改变。比如现在很多人认为,人工智能(AI)将会代替人类,有了ChatGPT,人类的工作就会被取代。实际上,大家都忽略了最基本的一点,人类这种被称作“智人”的动物,在历史的长河中遇到过很多次濒临灭绝的状况,但人类并没有灭绝,因为人类有主观能动性。人是一种极具智慧的、能够适应复杂变化的智能生物。为什么AI的出现会带来如此大的争议?有些人知道应对AI该怎么做,但是决定不这么做
4、,因为他们觉得这么做不好。当然还有很多人知道AI很好,但不知道具体该怎么做。要不要用AI代替人类的工作流,取决于人的世界观、价值观、知识、经验、能力,以及所在族群的文明、文化、关系、特征,这些因素叠加在一起,才有可能得出一个结论人类是否愿意拥抱最新的科技,去学习、去体悟。不过,AI将会代替人类,为人类造福,还是适可而止?这些情况都有可能发生。AI这扇门已经打开,不管你愿不愿意拥抱它,不管你觉得它是好是坏,你都一定要努力学习、努力拥抱、批判性地接受它,让人类成为它的主人。如今,在人类与机器的教育之间,其实更重要的是人类的教育。9在这个时代,所有人都感觉到,世界的变化太快了,知识的更新太快了,我们
5、很难跟上这种变化。在心理上、行为上、动作上和策略上,我们该如何应对巨变?每一个工作,每一个工种,每一个步骤,每一个灭绝的状况,但人类并没有灭绝,因为人类有主观能动性。人是一种极做,但是决定不这么做,因为他们觉得这么做不好。当然还有很多人知道AI很好,但不知道具体该怎么做。要不要用AI代替人类的工作流,取决于人的世界观、价值观、知识、经验、能力,以及所在族群的文明、文化、关系、特征,这些因素叠加在一起,才有可能得出一个结论人类是否愿意拥抱最新的科技,去学习、去体悟。不过,AI将会代替人AI这扇门已经打开,不管你愿不愿意拥抱它,不管你觉得它是好是坏,你都一定要努力学习、努力拥抱、批判性地接受它,让
6、人类成为它对于AI会如何进化,现在还没有明确的结论,所以我们要先拥抱、先学习。人类从前以为自己的知识很值钱,但是在未来,知识需要以人的智慧表达出来。虽然知识是死的,但是人类可以通过主观能动性利用知识,经实践后产生智慧,再形成新的知识。如今,社会上不断出现能够被机器学习的、由人类智慧提供的新的知识。因此,知识要被利用起来,机器要不断地学习,不断地提炼,不断地沉淀,这样一来,社会很可能趋于良性发展。王喜文博士的这本书与读者一起分享了前沿科技的最新成果,不仅给科技工作者、政府职员、学者、企业从业人员提供了研究依据,也给学生、教师等群体带来了丰富的课堂案例。本书逻辑清晰、通俗易懂,让人耳目一新,对AI
7、的未来充满憧憬希望本书能给AI的广大参与者、关注者和对前沿科技感兴趣的朋友带来些许帮助。韦青微软中国首席技术官10对于AI会如何进化,现在还没有明确的结论,所以我们要先拥抱、先学习。人类从前以为自己的知识很值钱,但是在未来,知识需要以人的智慧表达出来。虽然知识是死的,但是人类可以通过主观能动性利用知识,经实践后产生智慧,再形成新的知识。如今,社会上不断出现能够被机器学习的、由人类智慧提供的新的知识。因此,知识要被利用起来,机器要不断地学习,不断地提炼,不断地沉淀,这样一来,社会很可能趋于良性发展。王喜文博士的这本书与读者一起分享了前沿科技的最新成果,不仅给科技工作者、政府职员、学者、企业从业人
8、员提供了研究依据,也给学生、教师等群体带来了丰富的课堂案例。本书逻辑清晰、通俗易懂,让人耳目一新,对AI的未来充满憧憬希望本书能给AI的广大参与者、关注者和对前沿科技感兴趣的朋友带来些许帮助。韦青微软中国首席技术官11前言FOREWORD当我们还停留在千篇一律的“基础设施层、数据层、平台层、应用层、用户层”的互联网架构图之时,大洋彼岸的互联网技术已经又取得了跨时代的进步。马斯克称ChatGPT将颠覆世界;微软为ChatGPT投资数百亿美元,并计划将其整合到Office办公软件和Bing搜索引擎之中;在一些高校和学术机构中,兴起了关于用ChatGPT写论文是否合规的大讨论;甚至,一些咨询公司也开
9、始担心自己的饭碗会被抢走2023年,应用ChatGPT的热情已经被点燃,ChatGPT的应用场景不断快速拓展。ChatGPT是AIGC(AI Generated Content,人工智能生成内容)技术进步的成果体现。在我们的生活中,人工智能早已普及,比如工业机器人替代人类去喷漆、焊接,导航App自动规划路径,人脸识别技术在生活中被广泛应用尽管上述人工智能已经可以替代人类完成某种工作或者具备人类的某种特征,但是人工智能仍旧与真正的人类相去甚远。要使人工智能更接近人类,那么人工智能就必须具备人类拥有的创作能力,这就是AIGC存在的意义。AIGC开启了AI绘画、AI作曲、AI写作,乃至AI生成影视作
10、品的新篇章,可以说是人工智能历史中的跨越式升级。ChatGPT的出现为所有人提供了以自然语言对话方式进行文本生成的新方式和新工具,将大幅降低构建元宇宙的门槛,使我们可以用与以往构建互联网时完全不同的方式来构建元宇宙。大量的非专业人员可以通过语言来描述自己的需求,而ChatGPT会根据接收到的需求自动生成设计图和代码,使构建元宇宙的效率得到极大提升,成本得到极大降低,元宇宙中的内容也得到极大丰富。与此同时,ChatGPT将彻底改变12ChatGPT是AIGC(AI Generated Content,人工智能生成内容)技术进步的成果体现。在我们的生活中,人工智能早已普及,比如工业机器活中被广泛应
11、用尽管上述人工智能已经可以替代人类完成某种工作或者具备人类的某种特征,但是人工智能仍旧与真正的人类相去甚远。要使人工智能更接近人类,那么人工智能就必须具备人类拥有的创作能力,这就是AIGC存在的意义。AIGC开启了AI绘画、AI作曲、AI写作,的新方式和新工具,将大幅降低构建元宇宙的门槛,使我们可以用与以往构建互联网时完全不同的方式来构建元宇宙。大量的非专业人员可以数字人的构建技术:从数字人的面貌、穿着、形态设计,数字人的行动和姿态,以及数字人的自然语言沟通,到数字人的任务执行、数字人与环境的感知和交互等。ChatGPT将使数字人的构建更为便捷和简单,让数字人的功能更加丰富。2023年对于人工
12、智能来说是一个里程碑式的年份。随着ChatGPT和AIGC风靡全球,人工智能技术近10年来再一次兴起并走向台前,进入公众的视野。在过去几年中,科技巨头们已相继成立人工智能实验室,投入越来越多的资源抢占人工智能市场,甚至有些企业整体转型为人工智能公司,加紧谋划人工智能的未来布局。我国及其他各国政府都把人工智能当作未来的战略主导,出台战略发展规划,从国家层面进行整体推进,迎接即将到来的人工智能时代。这一次人工智能的兴起,不仅仅局限于实验室研究。相关理论和关键共性技术的研究与商业化应用在同时推进,这使人工智能领域涌现出更多的产品化解决方案和服务化落地应用案例,让公众真实地感受到了它的冲击力和影响力。
13、尤其是在大型语言模型(LLM)、基于人类反馈的强化学习、多模态模型和自然语言处理等基于深度学习算法应用的领域,人工智能正在迅速产业化,产业竞争的赛道也将随之变得更加拥挤。13数字人的构建技术:从数字人的面貌、穿着、形态设计,数字人的行动和姿态,以及数字人的自然语言沟通,到数字人的任务执行、数字人与环境的感知和交互等。ChatGPT将使数字人的构建更为便捷和简单,让数字人的功能更加丰富。2023年对于人工智能来说是一个里程碑式的年份。随着ChatGPT和AIGC风靡全球,人工智能技术近10年来再一次兴起并走向台前,进入公众的视野。在过去几年中,科技巨头们已相继成立人工智能实验室,投入越来越多的资
14、源抢占人工智能市场,甚至有些企业整体转型为人工智能公司,加紧谋划人工智能的未来布局。我国及其他各国政府都把人工智能当作未来的战略主导,出台战略发展规划,从国家层面进行整体推进,迎接即将到来的人工智能时代。这一次人工智能的兴起,不仅仅局限于实验室研究。相关理论和关键共性技术的研究与商业化应用在同时推进,这使人工智能领域涌现出更多的产品化解决方案和服务化落地应用案例,让公众真实地感受到了它的冲击力和影响力。尤其是在大型语言模型(LLM)、基于人类反馈的强化学习、多模态模型和自然语言处理等基于深度学习算法应用的领域,人工智能正在迅速产业化,产业竞争的赛道也将随之变得更加拥挤。14第一篇 ChatGP
15、T令Google坐立不安,让微软All in语言是人类沟通交流的最主要工具之一,一直有互联网公司在挑战机器人智能沟通交流能力的极限。最早的有IBM的Watson,苹果用户惯用的Siri,后来还有微软小冰等。但用户的使用反馈并不是特别理想。因为,上述人工智能机器人只能帮助人们进行简单的信息查询,连两轮以上的连续对话交流都做不到。它们和电子商务平台的机器人客服十分类似,只能机械式、简单重复地应答,没有记忆,没有想象力,最多就是把手动输入关键字升级为语音输入。相比之下,ChatGPT能进行多轮对话,并产生具有丰富知识、独特创意,乃至高于人类基本水平的对话内容,两者之间有天壤之别。15第一篇 Chat
16、GPT令Google坐立不安,让微软All in语言是人类沟通交流的最主要工具之一,一直有互联网公司在挑战机器人智能沟通交流能力的极限。最早的有IBM的Watson,苹果用户惯用的Siri,后来还有微软小冰等。但用户的使用反馈并不是特别理想。因为,上述人工智能机器人只能帮助人们进行简单的信息查询,连两轮以上的连续对话交流都做不到。它们和电子商务平台的机器人客服十分类似,只能机械式、简单重复地应答,没有记忆,没有想象力,最多就是把手动输入关键字升级为语音输入。相比之下,ChatGPT能进行多轮对话,并产生具有丰富知识、独特创意,乃至高于人类基本水平的对话内容,两者之间有天壤之别。16第一章 闪亮
17、登场的智能科技2022年12月,ChatGPT还只是个具备聊天功能的社交网络媒体应用。但2023年伊始,ChatGPT已经被公认为是继互联网、智能手机之后,带给人类第三次“革命”的科技产品。互联网开辟了“空间革命”,使实时与全世界链接成为现实,让我们不必千里迢迢奔赴现场,就可以通过互联网进行沟通、教学、视频会议,让政治、社会、商业产生连锁变化;智能手机的出现,带来了“时间革命”,通过可拓展安装的各种App(应用软件),我们可以实现最快交易、快速送达,让生活、工作、消费产生巨大变化;而ChatGPT的横空出世,有望掀起“思维革命”,ChatGPT可以代替人类进行创意创作、咨询解答、翻译服务、客服
18、服务改变人类思考和处理问题的方式,并由此重塑各行业生态,乃至重塑整个世界(见图1-1)。图1-1 ChatGPT引发的思维革命在ChatGPT中,GPT就是Generative Pre-training Transformer(预训17实时与全世界链接成为现实,让我们不必千里迢迢奔赴现场,就可以通过互联网进行沟通、教学、视频会议,让政治、社会、商业产生连锁变服服务改变人类思考和处理问题的方式,并由此重塑各行业生态,在ChatGPT中,GPT就是Generative Pre-training Transformer(预训练生成模型),OpenAI的语言模型可以助力教育领域、虚拟治疗师、写作辅助工
19、具、角色扮演游戏等,在这些领域,社会偏见、错误信息和毒害信息的存在是比较麻烦的,只有规避这些系统缺陷才能使其更具有用性。ChatGPT能够回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码等,它也会承认错误、质疑不正确的前提并拒绝不恰当的请求。短短两个月,人们源源不绝地挖掘出ChatGPT的更多技能,包括替写代码、作业、论文、演讲稿、活动策划、广告文案、电影剧本等各类文本,根据描述绘图、翻译、写诗词,甚至扮演面试官、电影中的角色、陪聊、解忧讲故事者,乃至给予家装设计、编程调试、人生规划等方面的建议。只要你悉心调教,ChatGPT甚至能从擅长交流的“咨询大师”快速进化,成为高效学习工具。
20、经过连续追问,它能为你列举出辅助学习的大量书单和资料链接,帮你提炼一篇文章的关键要点、一个领域的知识图谱及核心脉络,甚至帮你在灵感枯竭时打开创意脑洞。ChatGPT看起来什么都懂,就像一本百科全书。其流畅的回答方式,丰富的知识储备,给用户带来了极大的震撼。瑞银集团的一份报告显示,在ChatGPT推出仅两个月后(2023年1月末),它的活跃用户量已经突破了1亿,打破了抖音的9个月的纪录,成为史上用户增长速度最快的App之一。而突破1亿用户,App Store用了2年,Instagram用了2.5年,WhatApp用了3.5年,推特用了5年(见图1-2)。在过去几个月里,一大群人涌入网站,给Cha
21、tGPT提了各种要求。有软件工程师要求它调试代码,它做到了;有美食博主要求它写一份健康巧克力曲奇的食谱,它做到了;还有使用者让它为其编写绘画提示,以输入至另一个人工智能绘画应用Midjourney,它做到了,Midjourney根据它的文本描述成功创作出艺术作品。据说,斯坦福大学医学院的皮肤科医生Roxana Daneshjou在研究AI在医学上的应用时,向它提出了许多医学问题,并得到了充分的解答18写作辅助工具、角色扮演游戏等,在这些领域,社会偏见、错误信息和毒害信息的存在是比较麻烦的,只有规避这些系统缺陷才能使其更具有息分类、写代码等,它也会承认错误、质疑不正确的前提并拒绝不恰当括替写代码
22、、作业、论文、演讲稿、活动策划、广告文案、电影剧本等各类文本,根据描述绘图、翻译、写诗词,甚至扮演面试官、电影中的角色、陪聊、解忧讲故事者,乃至给予家装设计、编程调试、人生规划化,成为高效学习工具。经过连续追问,它能为你列举出辅助学习的大量书单和资料链接,帮你提炼一篇文章的关键要点、一个领域的知识图月末),它的活跃用户量已经突破了1亿,打破了抖音的9个月的纪录,成为史上用户增长速度最快的App之一。而突破1亿用户,App Store用有软件工程师要求它调试代码,它做到了;有美食博主要求它写一份健康巧克力曲奇的食谱,它做到了;还有使用者让它为其编写绘画提示,根据它的文本描述成功创作出艺术作品。据
23、说,斯坦福大学医学院的皮肤科医生Roxana Daneshjou在研究AI在医学上的应用时,向它提出了许图1-2 部分应用用户突破1亿的时间以前也出现过很多智能聊天机器人,但都没有ChatGPT这样神奇。ChatGPT可以进行长时间、流畅的对话,以回答人们的问题,并能撰写人们要求的几乎任何类型的书面材料,包括商业计划、广告活动方案、诗歌、笑话、计算机代码和电影剧本等。ChatGPT的应答时间十分短暂,它会在几秒钟内生成回答,用户无须等待,而且它生成的很多内容质量都还不错(见图1-3)。19人们要求的几乎任何类型的书面材料,包括商业计划、广告活动方案、暂,它会在几秒钟内生成回答,用户无须等待,而
24、且它生成的很多内容图1-3 试用ChatGPT作诗经过一段时间的试用,已经有很多人发现ChatGPT写论文、考试、做表格(整理信息)、编写程序、写诗歌等的能力可以超越80%的普通人,甚至能通过大学入学考试、Google程序员招聘等。这将大大影响教育行业。语言是逻辑思维的载体,如果ChatGPT因为具有强大的文字与语言处理能力而不学习如何使用语言,那么其他一切都将变成空中楼阁(见图1-4)。20人,甚至能通过大学入学考试、Google程序员招聘等。这将大大影响教语言处理能力而不学习如何使用语言,那么其他一切都将变成空中楼阁图1-4 ChatGPT的主要特征ChatGPT这次突然引爆舆论,在业内人
25、士看来颇有些不可思议,连开发ChatGPT的OpenAI自己也没想到,它们可以顺利获得微软100亿美元的投资。微软大规模投资OpenAI,并宣布除了Office,搜索引擎Bing也要全面集成ChatGPT,势必要打破Google对搜索引擎20多年的垄断。这一举措逼得Google连投竞争对手,并把业务组织完全变阵。OpenAI是美国的AI实验室,是非营利组织,其功能定位是促进和发展友好的人工智能,使人类整体受益。OpenAI成立于2015年底,创始人是埃隆马斯克(Elon Musk)及前YC总裁山姆阿尔特曼(SamAltman)(见图1-5)。维基百科资料显示,从时间轴来看,2015年底,Ope
26、nAI成立,组织目标是通过与其他机构和研究者自由合作,向公众开放专利和研究成果。2016年,OpenAI宣称将制造通用机器人,希望能够预防人工智能21始人是埃隆马斯克(Elon Musk)及前YC总裁山姆阿尔特曼(Sam织目标是通过与其他机构和研究者自由合作,向公众开放专利和研究成的灾难性影响,推动人工智能发挥积极作用。2019年3月1日成立OpenAI LP子公司,目标是盈利和商业化。2019年7月22日微软投资OpenAI 10亿美元,双方合作为Azure(微软的云服务)开发人工智能技术。2020年6月11日OpenAI宣布推出GPT-3语言模型,微软于2020年9月22日取得独家授权。2
27、022年11月30日,OpenAI发布了名为ChatGPT的自然语言生成式模型,以对话方式进行交互。2023年1月,微软和OpenAI洽谈投资100亿美元事宜,并希望将OpenAI的人工智能技术纳入Word、Outlook、PowerPoint和其他应用程序中。图1-5 OpenAI的发展历程222019年7月22日微软投资OpenAI 10亿美元,双方合作为Azure(微2020年6月11日OpenAI宣布推出GPT-3语言模型,微软于2020年9月2022年11月30日,OpenAI发布了名为ChatGPT的自然语言生成式模由此可见,微软不但很早对OpenAI进行了投资,而且在敏锐地发现C
28、hatGPT的潜力后,再次重磅投入100亿美元,并且快速地在Office服务中集成了ChatGPT,Bing搜索引擎更是迅速部署ChatGPT并且上线。这对Google造成了巨大冲击仿佛以“关键字搜索”为标志的“古典搜索引擎”将被淘汰了。当然,微软并非心血来潮,这次投资OpenAI的行动之所以如此决绝与迅速,实际上源自微软对几乎错过了整个互联网时代的不甘。20世纪90年代是计算机的时代,微软一枝独秀;2000年以来是互联网的时代,Google、Amazon等巨头快速崛起,势头远超微软。事实上,微软早在2006年就启动了AI与隐私相关的研究。自2010年以来,负责语音处理和语言理解研发的部门一直
29、由微软研究院副总裁Peter Lee领导,谋求将这些AI功能用到Office办公软件和Bing搜索引擎中,为对话转录、语法检查等功能提供技术支持。此后,微软一直利用先进的AI技术,潜移默化地改善各类产品的用户体验。在现任CEO萨提亚纳德拉(SatyaNadella)的带领下,微软2019年给OpenAI投资了10亿美元,2020年买断了GPT-3背后基础技术的独家使用许可,从此与OpenAI建立了深厚的关系,并换来相当多的优先使用权限,包括将OpenAI大部分技术用于Bing搜索引擎等产品的优先授权,以及Azure云平台成为OpenAI的独家云供应商。微软这项对OpenAI的颇具前瞻性的投资,
30、已经显露出巨大回报。在OpenAI发布GPT-3大模型后没多久,微软就悄悄地将GPT-3集成到自家产品中,用于完善Office的自动补齐单词等功能,优化语音转文本工具。一位微软高级销售经理称,微软推出OpenAI功能的速度比他之前在微软研究院从事AI开发的速度快得多。当然,OpenAI也离不开微软的软件和硬件的支持。据说,OpenAI模型在Azure中占用的空间和计算比微软语言模型Turing-NLG更多。对于像大型语言模型这样的计算密集型开发,降低成本最为关键。假设每月有1000万用户,每天运行ChatGPT的成本估计高达100万美元。微软23绝与迅速,实际上源自微软对几乎错过了整个互联网时
31、代的不甘。20世早在2006年就启动了AI与隐私相关的研究。自2010年以来,负责语音处理和语言理解研发的部门一直由微软研究院副总裁Peter Lee领导,谋求法检查等功能提供技术支持。此后,微软一直利用先进的AI技术,潜移断了GPT-3背后基础技术的独家使用许可,从此与OpenAI建立了深厚的于像大型语言模型这样的计算密集型开发,降低成本最为关键。假设每CEO纳德拉曾透露,微软已经建造了一台超级计算机来处理OpenAI的工作,能以竞争对手一半的成本处理一些AI计算。除此之外,由于微软是OpenAI最大的投资方,在OpenAI推出每月20美元的ChatGPT Plus订阅服务后,OpenAI从
32、ChatGPT收到的商业报酬越多,就意味着微软能获得的回报越大。按照预测,OpenAI 2023年的预期收入将达到2亿美元,2024年将达到10亿美元。Google这类搜索引擎是互联网时代里里程碑式的产物之一。Google可以说是互联网时代的“信息神庙”,它拥有丰富的人类知识并可以主导信息的流向和生产。任何人要想检索信息都需要登录网站,在这座“神庙”中行进。然而,随着数据的不断增加,信息爆炸让信息检索变得越来越困难,互联网充斥着的信息垃圾常常掩盖了有价值的信息,搜索引擎的广告排名也让用户体验越来越差,以至于人们对搜索引擎的二次智能搜索功能产生了强烈的诉求。搜索引擎采用平台化的集中式管理模式。因
33、为平台有广告植入的空间和广告流量,所以用户需要到平台上自主检索,平台往往会列出几十页检索页面让用户自行筛选。在移动互联网时代,这种网页布告栏式的传统互联网交互方式已经落后。为了打破Google占据的消费互联网搜索引擎入口的优势,微软的Bing搜索一直在尝试反击,目标就是用人工智能技术优化搜索结果(基于很少有人点开搜索结果第二页的现实,用AI算法尽可能把最优结果往前提,可以抵消Google大规模爬虫系统的优势)。ChatGPT采用一对一的生成式对话方式,用户可以直接得到结果,而不是拿到一堆需要二次人工筛选的信息。ChatGPT有对话记忆功能,用户可以专注于这个对话,直到得到满意的结果。经过数千亿
34、个单词语料的自然语言模型训练,ChatGPT可以用舒适感很强的表达方式与人对2420美元的ChatGPT Plus订阅服务后,OpenAI从ChatGPT收到的商业报酬越多,就意味着微软能获得的回报越大。按照预测,OpenAI 2023年的难,互联网充斥着的信息垃圾常常掩盖了有价值的信息,搜索引擎的广告排名也让用户体验越来越差,以至于人们对搜索引擎的二次智能搜索搜索引擎采用平台化的集中式管理模式。因为平台有广告植入的空间和广告流量,所以用户需要到平台上自主检索,平台往往会列出几十页检索页面让用户自行筛选。在移动互联网时代,这种网页布告栏式的Bing搜索一直在尝试反击,目标就是用人工智能技术优化
35、搜索结果(基于很少有人点开搜索结果第二页的现实,用AI算法尽可能把最优结果往用户可以专注于这个对话,直到得到满意的结果。经过数千亿个单词语话,使用户体验大幅提升。现在的微软只是回来了,试图用OpenAI的ChatGPT,将Google通过投资DeepMind、Boston Dynamics、Waymo积累的光环击碎。微软CEO纳德拉说:“对于知识型工作者来说,这完全等于工业革命。”还有人说,ChatGPT将像搜索引擎杀死黄页一样摧毁Google。摩根士丹利公开表示,ChatGPT可能给Google母公司的盈利能力带来长期威胁。为了应对ChatGPT的威胁,已退出Google日常业务的两位Goo
36、gle联合创始人紧急重返公司,多次发起会议商讨对策。Google还向研发ChatGPT竞品的创业企业Anthropic投资了约3亿美元,该企业的创始成员曾为创造ChatGPT的OpenAI工作。如今,大家都很好奇ChatGPT是否能改变世界?答案是“能”!在全球经济不明朗的大环境里,ChatGPT的诞生似乎吹起了一股清风,ChatGPT被寄予以智能科技来改善世界经济、促进社会进步的美好愿望。自从ChatGPT出现后,突然之间,每个人都在谈论人工智能如何影响他们的工作、学习和生活。ChatGPT之所以让大家感到震撼,是因为其用户体验大大超越以往的人机对话产品。普通使用者感觉到,自己不再是跟“人工
37、智障”对话,ChatGPT对问题的理解很深入,生成的文本也很流畅,的确像是一个“人”在进行回复。甚至还有工程师尝试用ChatGPT改善智能家居体验。据说,一名高级Web开发人员用短短不到1小时的时间,通过与ChatGPT背后的GPT-3大模型交互,结合SiriShortcuts做出了一个更智能的语音助手。这个语音助手不仅能控制整个苹果HomeKit智能家居系统,而且能够以超低的延迟轻松回答各种问题。他给予了ChatGPT极高的评价,称尝试过这个产品后,包括苹果Siri、亚马逊Alexa、Google Home在内的所有“智能”助手,都显得如此愚蠢而没用。此外,ChatGPT将取代部分人类工作者
38、的说法也耸人听闻地传开了,他们是:软件开发人员、网络开发人员、程序员、广告人、新闻记者等内容创作者,以及律师、市场研究分析师、教师、金融分析师、财25现在的微软只是回来了,试图用OpenAI的ChatGPT,将Google通过投资DeepMind、Boston Dynamics、Waymo积累的光环击碎。微软CEO为其用户体验大大超越以往的人机对话产品。普通使用者感觉到,自己ChatGPT改善智能家居体验。据说,一名高级Web开发人员用短短不到1Siri、亚马逊Alexa、Google Home在内的所有“智能”助手,都显得如此了,他们是:软件开发人员、网络开发人员、程序员、广告人、新闻记者等
39、内容创作者,以及律师、市场研究分析师、教师、金融分析师、财务顾问、交易员、平面设计师、会计师、客服等(见图1-6)。这个取代的过程似乎有点残酷。未来,从产品和投资的角度看,现在的客服、翻译、文员、初级程序员、文案、家教等以文字工作为主业的从业者将受到第一波冲击,规模将达到上千万人,比如印度就将受到巨大的影响。随着失业人口增加、行业巨变,紧接着大量的语言处理相关公司将失去价值,之前火过一阵子的语音助手都将无人问津图1-6 ChatGPT可能取代的人类工作者26务顾问、交易员、平面设计师、会计师、客服等(见图1-6)。这个取代的过程似乎有点残酷。未来,从产品和投资的角度看,现在的客服、翻译、文员、
40、初级程序员、文案、家教等以文字工作为主业的从业者将受到第一波冲击,规模将达到上千万人,比如印度就将受到巨大的影响。随着失业人口增加、行业巨变,紧接着大量的语言处理相关公司将失去价值,之前火过一阵子的语音助手都将无人问津图1-6 ChatGPT可能取代的人类工作者27第二章 快速迭代的发展历程在ChatGPT一词中,Chat是指对话方式,GPT是指背后的技术,其是一种基于互联网可用数据训练的文本生成深度学习模型。它用于文本问答、文本摘要、语言翻译、文本分类、代码生成和对话对答等工作中。从最初版本的GPT-1到GPT-4(ChatGPT),仅用4年时间ChatGPT就实现了快速的迭代式演进(见图2
41、-1)。2018年,GPT-1诞生,这一年也是NLP(自然语言处理)的预训练模型元年。在性能方面,GPT-1有着一定的泛化能力,能够用于和监督任务无关的NLP任务。其常用任务包括:自然语言推理:判断两个句子的关系(包含、矛盾、中立)。问答与常识推理:输入为文章及若干答案,输出为每个答案的预测准确率。语义相似度识别:判断两个句子的语义是否相关。分类:判断输入的文本属于指定的哪个类别。28是一种基于互联网可用数据训练的文本生成深度学习模型。它用于文本 自然语言推理:判断两个句子的关系(包含、矛盾、中 问答与常识推理:输入为文章及若干答案,输出为每个图2-1 GPT-1到GPT-4的演进过程虽然GP
42、T-1在未经调试的任务上有一些效果,但其泛化能力远低于经过微调的有监督任务,因此GPT-1只能算得上一个还算不错的语言理解工具而非对话式AI。GPT-2于2019年正式推出,不过,GPT-2并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计48层,参数量达15亿,学习目标则使用无监督预训练模型做有监督任务。在性能方面,除了理解能力,GPT-2在生成方面第一次表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演,这些通通不在话下。在“变得更大”之后,GPT-2的确展现出了普适而强大的能力,并在多个特定的语言建模
43、任务上实现了彼时的最佳性能。之后,GPT-3出现了,它作为一个无监督模型(现在经常被称为自监督模型),几乎可以完成自然语言处理的绝大部分任务,例如,面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等。而且,该模型在诸多任务上表现卓越,例如,在法语英语和德语英语机器翻译任务中达到当时的最佳水平,自动生成的文章几乎让人29过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计48层,参数量达15亿,学习目标则使用无监督预训练模型做大”之后,GPT-2的确展现出了普适而强大的能力,并在多个特定的语言监督模型),几乎可以完成自然语言处理的绝大部分任务,例如,面向等。而
44、且,该模型在诸多任务上表现卓越,例如,在法语英语和德语英语机器翻译任务中达到当时的最佳水平,自动生成的文章几乎让人无法辨别出自人类还是机器(正确率仅为52%,与随机猜测相当)。更令人惊讶的是,在两位数的加减运算任务中,该模型的正确率几乎达到100%,甚至还可以依据任务描述自动生成代码。一个无监督模型功能多、效果好,似乎让人们看到了通用人工智能的希望,可能这就是GPT-3影响力如此之大的主要原因。实际上,我们可以将GPT-3看成一个简单的统计语言模型。从机器学习的角度来说,语言模型是指对词语序列的概率分布进行建模,即利用已经说过的片段作为条件,预测下一个时刻不同词语出现的概率分布。语言模型可以衡
45、量一个句子符合语言文法的程度(如衡量人机对话系统自动产生的回复是否自然流畅),同时也可以用来预测并生成新的句子。例如,对于一个片段“杭州东站到了,乘客们请准备下车”,语言模型可以预测“请”后面可能出现的词语。一般的语言模型会预测下一个词语是“下车”,强大的语言模型能够捕捉时间信息,预测并且生成符合语境的词语“准备下车”。通常,一个语言模型是否强大主要取决于两点:首先,看该模型是否能够调用全部的历史上下文信息,上述例子中如果无法捕捉“杭州东站到了”这个远距离的语义信息,语言模型就无法预测下一个词语“准备下车”。其次,还要看是否有足够丰富的历史上下文可供模型学习,也就是说训练语料是否足够丰富。由于
46、语言模型属于自监督学习,优化目标是最大化所见文本的语言模型概率,因此任何文本无须标注即可作为训练数据。由于GPT-3具有更强的性能和更多的参数,亦包含了更多的主题文本,显然优于前代的GPT-2。作为目前最大的密集型神经网络之一,GPT-3能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的哲学家来预测生命的真谛。且GPT-3不需要微调,在处理语法难题方面,它只需要一些输出类型的样本(少量学习)。可以说GPT-3似乎已经满足了我们对于语言专家的一切想象。30令人惊讶的是,在两位数的加减运算任务中,该模型的正确率几乎达到学习的角度来说,语言模型是指对词语序列的概率
47、分布进行建模,即利布。语言模型可以衡量一个句子符合语言文法的程度(如衡量人机对话系统自动产生的回复是否自然流畅),同时也可以用来预测并生成新的通常,一个语言模型是否强大主要取决于两点:首先,看该模型是就是说训练语料是否足够丰富。由于语言模型属于自监督学习,优化目标是最大化所见文本的语言模型概率,因此任何文本无须标注即可作为但是GTP-3并不完美,当前人们最担心的人工智能的主要问题之一,就是聊天机器人和文本生成工具等很可能会不分青红皂白地对网络上的所有文本进行学习,进而产生错误的、恶意的、冒犯的,甚至是具有攻击性的语言输出,这将会充分影响到它们的下一步应用。2022年初,OpenAI发布了Ins
48、tructGPT。相比GPT-3,OpenAI采用对齐研究(Alignment Research),训练出更真实、更无害,而且能更好地遵循用户意图的语言模型InstructGPT。InstructGPT是一个经过微调的新版本GPT-3,可以将有害的、不真实的和有偏差的输出最小化。开发人员通过监督学习叠加从人类反馈中获得的强化学习,来提高GPT-3的输出质量。在这种学习中,人类对模型的潜在输出进行排序,强化学习算法则对产生类似于高级输出材料的模型进行打分。训练数据集以创建提示开始,其中一些提示基于GPT-3用户的输入,比如“给我讲一个关于西游记的故事”或“用几句话给一个6岁的孩子解释一下春节的由
49、来”。开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应。人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的GPT-3,将它变成InstructGPT,以生成每个提示的现有响应。下一步是训练一个模型,使其为更好的响应提供更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对每个回复进行评分。在给出一个提示和两个响应后,一个打分模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。开发人员利用第三组提示和近端策略优化(Proximal PolicyOptimization,PPO)的强化学习方法进一步微调了语言模
50、型。给出提示31一,就是聊天机器人和文本生成工具等很可能会不分青红皂白地对网络上的所有文本进行学习,进而产生错误的、恶意的、冒犯的,甚至是具2022年初,OpenAI发布了InstructGPT。相比GPT-3,OpenAI采用对齐研究(Alignment Research),训练出更真实、更无害,而且能更好地开发人员通过监督学习叠加从人类反馈中获得的强化学习,来提高开发人员将提示分为三个部分,并以不同的方式为每个部分创建响人类作家会对第一组提示做出响应。开发人员微调了一个经过训练下一步是训练一个模型,使其为更好的响应提供更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100