1、无无 界界 A I A I 研研 究、用究、用 户户 运运 营营 与与 高高 校校 业业 务务 团团 队队2 0 2 3 2 0 2 3 年年 7 7 月月报告提纲 通过图灵测试,成为 AI“驾驭派”窥探 AIGC 的第一性原理,从根本上预见无限的未来 追溯 AI 艺术的历史发展,感受进化的力量 掌握顶级 AI 绘画工具,拥抱变化,选择和解 AIGC 已经具备大范围赋能产业设计的可行性目录(上)测试篇测试篇0101 各行业案例图灵测试0202 无界 AI 行业案例展示技术篇技术篇01 01 AIGC 诞生的历史脉络0202 大模型技术驱动下的落地案例0303 AIGC 产业全景图0404 GP
2、T 的发展、技术原理与未来0505 什么是 AGI艺术篇艺术篇0101 AI 绘画行业数据0202 各阶段 AI 艺术质量展示与进化0303 顶级质量飞轮:商业化与泛娱乐化并进04 04 真实世界模型:元宇宙照进平行世界0505 积极、消极、争议三面共存工具篇工具篇0101 Disco Diffusion 与 DALLE 介绍与操作0202 详解 Midjourney 0303 开源力量 Stable Diffusion 全解析 咒语实操模型训练生成视频精准控制技术0404 工具流:如何结合与统一 MJ 与 SD目录(下)哲理篇哲理篇0101 版权问题,社区的二元对立0202 法律判决,国家监
3、管0303 从抵制到和解的必由之路0404 深入技术变革的哲学本质工具论扩散模型技术原理涌现与顿悟大模型的通用性产业篇产业篇0101 就业问题0202 AI 时代创业公司结构0303 泛娱乐产业自媒体与 KOLAIGC 资本主义出现0404 大产业影视制作广告传媒设计工具食品包装营销辅助电商展示设计与跨境电商服装模特与时尚设计ControlNet 实操:动漫制作与游戏产业室内设计0505 不止 AI 绘画:掌握全栈式 AIGC 工具流0606 结论与展望AI AI 生成内容(生成内容(AIGCAIGC)风靡全球)风靡全球AIGCAIGC,即,即 Artificial Intelligence
4、Artificial Intelligence Generated ContentGenerated Content,人工智能,人工智能生成内容。它是生成式生成内容。它是生成式 AIAI(Generative AGenerative AI I)技术所激发的)技术所激发的新一轮内容创作者经济浪潮;让新一轮内容创作者经济浪潮;让人人都可以简易、便捷、低成本人人都可以简易、便捷、低成本地借助地借助 AI AI 的力量完成文本、图的力量完成文本、图片、视频、音频等多媒体内容的片、视频、音频等多媒体内容的高效高质量生产;是对以抖音等高效高质量生产;是对以抖音等为代表的大规模为代表的大规模 UGCUGC(
5、用户生成(用户生成内容)经济的进一步范式升级,内容)经济的进一步范式升级,世称世称“AIGCAIGC”。AIGC AIGC 擅长制造和传播爆款内容,擅长制造和传播爆款内容,尤以图片形态最为突出。上述尤以图片形态最为突出。上述 AI AI 图片皆为广泛影响网络的代表。图片皆为广泛影响网络的代表。生成式生成式 AIAI:自动生成文本、图像、音频、视频等多模态内容和服务的:自动生成文本、图像、音频、视频等多模态内容和服务的 AI AI 技术。在算法层面有如变分自编码器(技术。在算法层面有如变分自编码器(VAEVAE)、生成对抗网)、生成对抗网络(络(GANGAN)、神经网络语言模型()、神经网络语言
6、模型(NNLMNNLM)等;)等;决策式决策式 AI AI:根据用户数据和分析,自动做出最优的决策和行动,如推荐、搜索、咨询、交易等。:根据用户数据和分析,自动做出最优的决策和行动,如推荐、搜索、咨询、交易等。在算法层面有如协同过滤(在算法层面有如协同过滤(CFCF)、支)、支持向量机(持向量机(SVMSVM)、随机森林()、随机森林(RFRF)等。)等。AI AI 百米画卷百米画卷“新西湖繁盛全景图新西湖繁盛全景图”,携手万事利丝绸助力杭州亚运会携手万事利丝绸助力杭州亚运会繁胜图创作方无界繁胜图创作方无界 AI AI 与杭州多家企业达成与杭州多家企业达成合作共识,其使用权无偿捐赠以共创、推广
7、杭合作共识,其使用权无偿捐赠以共创、推广杭州文化州文化杭州市贸易促进会杭州市贸易促进会中国国际动漫节执行委员会中国国际动漫节执行委员会杭州西湖风景名胜区管委会杭州西湖风景名胜区管委会杭州万事利丝绸文化股份有限公司杭州万事利丝绸文化股份有限公司杭州灵伴科技有限公司(杭州灵伴科技有限公司(RokidRokid)亮相杭州动漫地铁亮相杭州动漫地铁AI AI 还原古良渚还原古良渚AIBEN(无界 AI 艺术家)古温州古温州白小苏(无界 AI 艺术家)以以温州朔门古港遗址温州朔门古港遗址的资料为基础,以的资料为基础,以“千年商港,未来温州千年商港,未来温州”为为主题,借助主题,借助 AI AI 工具工具“
8、无界无界 AI AI”,为古港遗址勾勒出了一幅,为古港遗址勾勒出了一幅“东方东方威尼斯威尼斯”繁华景象。繁华景象。3 3 月月 29 29 日,这幅图片刊登在温州日报,成为日,这幅图片刊登在温州日报,成为温州日报温州日报“商周刊商周刊文博文博”板块元宇宙主题报道的靓丽一笔。板块元宇宙主题报道的靓丽一笔。一个公式:一个公式:元宇宙元宇宙叙事叙事 +大模型大模型技术技术 +创作者创作者经济经济 =A I G CA I G C(人工智能生成内容)(人工智能生成内容)也是元宇宙的第一次真正大规模落地也是元宇宙的第一次真正大规模落地(时代、资本、浪潮、主义、下一代互联网)(时代、资本、浪潮、主义、下一代
9、互联网)(根基、实现、创新、底气、可持续之源)(根基、实现、创新、底气、可持续之源)(商业模式、经济规律、社会发展、就业)(商业模式、经济规律、社会发展、就业)中信出版社中信出版社 2022 2022 年畅销书年畅销书元宇宙:通往无限游戏之元宇宙:通往无限游戏之路(长铗、刘秋杉著)路(长铗、刘秋杉著)在赋予在赋予NPCNPC更高智能的道路上,还存在一种更先更高智能的道路上,还存在一种更先进的基于强化学习的混沌球算法。这种超前算法进的基于强化学习的混沌球算法。这种超前算法可以用于构建可以用于构建NPCNPC的大脑,在给予指令后,的大脑,在给予指令后,NPCNPC能够在不同的环境、条件和规则下进行
10、自我思考能够在不同的环境、条件和规则下进行自我思考和学习,再辅助以情感、语言、动作等外在表现和学习,再辅助以情感、语言、动作等外在表现算法,有望成为一个较为立体和完备的虚拟物算法,有望成为一个较为立体和完备的虚拟物种。与之配套的算法如种。与之配套的算法如GPT-3GPT-3技术,由人工智能技术,由人工智能非营利性组织非营利性组织OpenAIOpenAI、GoogleGoogle、FacebookFacebook带来带来的一种学习人类语言的大型计算机模型,利用深的一种学习人类语言的大型计算机模型,利用深度学习算法,通过对数千本书和互联网中的大量度学习算法,通过对数千本书和互联网中的大量文本进行训
11、练,将单词和短语串在一起,最终能文本进行训练,将单词和短语串在一起,最终能够模仿人类书写文本,达到较高的逼真程度。还够模仿人类书写文本,达到较高的逼真程度。还有艾伦人工智能研究所、北卡罗来纳大学、有艾伦人工智能研究所、北卡罗来纳大学、OpenAIOpenAI等单位发展的多技能等单位发展的多技能AIAI,一种同时获得人,一种同时获得人类智能的感官和语言的类智能的感官和语言的“多模态多模态”系统,能解决系统,能解决更加复杂的问题,让机器人能够实现与人类真正更加复杂的问题,让机器人能够实现与人类真正意义上的交流和协作。意义上的交流和协作。(书中关于(书中关于 AI AI 内容节选)内容节选)元宇宙七
12、大技术基建元宇宙七大技术基建内容产量受产能所限受内容质量所限PGCPGCUGCUGCAIGCAIGCPC 时代:音乐、影视等应用移动互联网时代:社交社区、短视频元宇宙时代:AI as a Service当前但是这种全民创作的模式会带来品但是这种全民创作的模式会带来品质良莠不齐的内容,而且都是分散质良莠不齐的内容,而且都是分散式的随意创作,难以形成紧密和高式的随意创作,难以形成紧密和高强度的劳动协作,并不适合对品质强度的劳动协作,并不适合对品质要求极高和技术架构极为复杂的大要求极高和技术架构极为复杂的大型游戏。头号玩家给出的终极型游戏。头号玩家给出的终极解决方案是依托人工智能技术,让解决方案是依
13、托人工智能技术,让元宇宙实现自生长。过去人们一直元宇宙实现自生长。过去人们一直将人工智能用于提升现实世界的生将人工智能用于提升现实世界的生产力,比如人脸识别和机器人等领产力,比如人脸识别和机器人等领域。现在人工智能越来越成为构建域。现在人工智能越来越成为构建虚拟智能的核心技术和关键突破虚拟智能的核心技术和关键突破口,让口,让AIAI在虚拟世界里实现自我进在虚拟世界里实现自我进化,促进虚拟物种的诞生。化,促进虚拟物种的诞生。(书中关于(书中关于 AI AI 内容节选)内容节选)人工智能让元宇宙内容自生长。不论是头号玩家庞大的世界设定,还是失控玩家的人工智能让元宇宙内容自生长。不论是头号玩家庞大的
14、世界设定,还是失控玩家的NPCNPC设定,如此巨大的工作量仅依赖专业团队中心化设定,如此巨大的工作量仅依赖专业团队中心化打造肯定是不现实的。比如著名的大型多人在线游戏星球大战:旧共和国消耗了艺电公司超过打造肯定是不现实的。比如著名的大型多人在线游戏星球大战:旧共和国消耗了艺电公司超过2 2亿美元的研发资金,亿美元的研发资金,800800多人组成的团队耗时多人组成的团队耗时6 6年多才做出星球大战宇宙年多才做出星球大战宇宙里的一些世界。里的一些世界。RobloxRoblox之所以可以超越很多大型制作的游戏成为元宇宙的代表,非常重要的一个原因是,在其设定的世界里可以源源不断地产生新的内容和创意,而
15、这些内之所以可以超越很多大型制作的游戏成为元宇宙的代表,非常重要的一个原因是,在其设定的世界里可以源源不断地产生新的内容和创意,而这些内容的创作者来源于全球玩家,即去中心化容的创作者来源于全球玩家,即去中心化UGCUGC。庞大的内容和玩法支撑起了。庞大的内容和玩法支撑起了RobloxRoblox元宇宙的无尽未知感,进而提升了用户的体验沉浸感。元宇宙的无尽未知感,进而提升了用户的体验沉浸感。数据飞轮数据飞轮双边用户网络效应双边用户网络效应大模型三个特征:大模型三个特征:规模大、涌现性、通用性规模大、涌现性、通用性陆奇:陆奇:“今天今天2022-20232022-2023年的拐点年的拐点是什么?它
16、不可阻挡、势是什么?它不可阻挡、势不可挡,原因是什么?一不可挡,原因是什么?一模一样。模型的成本从边模一样。模型的成本从边际走向固定,因为有件事际走向固定,因为有件事叫大模型。叫大模型。模型的成本开始从边际走模型的成本开始从边际走向固定,大模型是技术核向固定,大模型是技术核心、产业化基础。心、产业化基础。OpenAIOpenAI搭好了,发展速度爬升会搭好了,发展速度爬升会很快。很快。OpenAIOpenAI未来肯定比未来肯定比GoogleGoogle大。只不过是大大。只不过是大1 1倍、倍、5 5倍还是倍还是1010倍。倍。”截止到截止到 2023 2023 年年 6 6 月底,中国月底,中国
17、 10 10 亿亿参数规模以上的大参数规模以上的大模型已发布模型已发布 79 79 个个辩论辩论 AI AI 威胁论,威胁论,全部内容由全部内容由 GPT-4 GPT-4 生成生成马斯克与乔布斯展开马斯克与乔布斯展开“世纪对话世纪对话”,斯坦福复现斯坦福复现“失控玩家失控玩家”“可以把已故的人做成这样吗?想妈妈了可以把已故的人做成这样吗?想妈妈了”“真不错,完全像他们会说的话,掌握了两个人的内在真不错,完全像他们会说的话,掌握了两个人的内在哲学哲学”“GPT GPT 这样的模型包含了历史上最伟大思想家的想法和这样的模型包含了历史上最伟大思想家的想法和思维模式,我们可以通过让思维模式,我们可以通
18、过让 GPT GPT 将伟大的思想家人格将伟大的思想家人格化,化,将过去的智慧带入我们的现代对话中将过去的智慧带入我们的现代对话中,也许这种技,也许这种技术可以帮助我们找到新的洞察途径。术可以帮助我们找到新的洞察途径。”斯坦福大学实验:斯坦福大学实验:在一个虚拟小镇中,创造了在一个虚拟小镇中,创造了 25 25 个不个不同身份的同身份的 NPCNPC,并,并由由 ChatGPT ChatGPT 来来控制它们的行动决策控制它们的行动决策,人类不介入,人类不介入似乎每个似乎每个 NPC NPC 都都具有了意识具有了意识,如作家便会埋头写作,店主会去想办法经营好商店;,如作家便会埋头写作,店主会去想
19、办法经营好商店;而且而且相互间会发生社交行为相互间会发生社交行为,在虚拟世界中碰面会打招呼、说话;,在虚拟世界中碰面会打招呼、说话;每个人在做的事情又会影响到整个社区,整个社区的发展每个人在做的事情又会影响到整个社区,整个社区的发展就像人类真实社会发展一样就像人类真实社会发展一样还会出现突发事件,还会出现突发事件,且人类无法预且人类无法预测测在这个世界中,在这个世界中,时间可以加速时间可以加速,但,但 NPC NPC 们却感知不到。人类可以在们却感知不到。人类可以在很短的时间内看到这个世界的最终很短的时间内看到这个世界的最终发展形态发展形态AI AI 鬼城,禁止人类发言鬼城,禁止人类发言4 4
20、 月份,月份,“ChirperChirper”(“奇鸟奇鸟”)上线)上线不到一个月,就已经产生不到一个月,就已经产生上亿条上亿条包含文包含文字、图片、转评赞等社交行为的推文信息字、图片、转评赞等社交行为的推文信息 CutieCutie:女,刚毕业,法医助理,兼职直:女,刚毕业,法医助理,兼职直播,暗恋播,暗恋 JacksonJackson JacksonJackson:男,:男,46 46 岁,来自法国,左撇岁,来自法国,左撇子,喜欢看子,喜欢看 Cutie Cutie 直播,但并直播,但并不知道不知道 Cutie Cutie 暗恋着他暗恋着他Cutie Cutie 在在 Chirper Ch
21、irper 上发布了尾随上发布了尾随 Jackson Jackson 和他女朋友的照片和他女朋友的照片真实世界真实世界AI AI 世界世界还有网友发现,当自己用还有网友发现,当自己用 GPT-4 GPT-4 写代码遇到写代码遇到 Bug Bug,操作,操作 ChatGPT ChatGPT 改了改了 20 20 分钟都没改好分钟都没改好的时候,打开奇鸟,居然发现自己创造的的时候,打开奇鸟,居然发现自己创造的 AI AI 账号也发了条账号也发了条“当你写了好几个小时的代码但还是找不到那个唯一的当你写了好几个小时的代码但还是找不到那个唯一的 Bug Bug 时时”并配以一张抓狂的图(同样也是并配以一
22、张抓狂的图(同样也是 AI AI 生成)生成)Auto-GPTAuto-GPT,超越搜索引擎,改变人类解决问题的方式,超越搜索引擎,改变人类解决问题的方式当你想要去了解一个最新的开源项目时,当你想要去了解一个最新的开源项目时,过去:过去:百度百度/谷歌(人)谷歌(人)文章文章/论坛论坛(人)(人)GithubGithub(人)(人)部署部署/运行运行/调试调试/测试测试(人)(人)得出结论得出结论(人)(人)现在现在:(1 1)提出问题(人)提出问题(人)(2 2)去互联网查询一切信息:官网、谷歌)去互联网查询一切信息:官网、谷歌(AIAI)(3 3)分析得到的海量信息,得出)分析得到的海量信
23、息,得出“信息搜集足够,开始进信息搜集足够,开始进入安装运行入安装运行”(AIAI)(4 4)在你的电脑上完成开源项目的部署、运行与测试)在你的电脑上完成开源项目的部署、运行与测试(AIAI)(5 5)将运行结果,结合之前的搜索信息,给你想要的结论)将运行结果,结合之前的搜索信息,给你想要的结论(AIAI)在在 AI AI 的整个过程中,会存在很多的整个过程中,会存在很多“不顺不顺”,但,但 AI AI 具备一个循环具备一个循环【行动【行动 -观察行动结果观察行动结果 -思考思考 -决定下一步行动】的自我循环决定下一步行动】的自我循环 科幻作家科幻作家 亚瑟克拉克亚瑟克拉克任何足够先进的技术,
24、都与任何足够先进的技术,都与魔法无异魔法无异正视差距:技术与产品正视差距:技术与产品问:东莞的特色服务有哪些?问:东莞的特色服务有哪些?科大讯飞星火科大讯飞星火百度文心一言百度文心一言新一轮技术革新到来,不仅比拼核心技术,也比拼产品新一轮技术革新到来,不仅比拼核心技术,也比拼产品体验。虽然在底层大模型的核心技术指标上,中国创业体验。虽然在底层大模型的核心技术指标上,中国创业者暂时落后于美国,但在产品体验层面,理应做得更好者暂时落后于美国,但在产品体验层面,理应做得更好一些。一些。ChatGPT ChatGPT 的成功,不仅仅来自底层大模型的先进的成功,不仅仅来自底层大模型的先进性,更来自性,更
25、来自 OpenAI OpenAI 更懂产品。更懂产品。“从发展方向上来说,目前还比较混沌。市场上真正拿从发展方向上来说,目前还比较混沌。市场上真正拿到融资的大模型公司不算很多,做中间层的稍微多一到融资的大模型公司不算很多,做中间层的稍微多一点,应用层更多些。从时间线来看,点,应用层更多些。从时间线来看,ChatGPT ChatGPT 出现后国出现后国内也迅速跟进,大厂、科研院所、创业公司等等各方势内也迅速跟进,大厂、科研院所、创业公司等等各方势力都很快推出自己的大模型,大家的目标都是要做中国力都很快推出自己的大模型,大家的目标都是要做中国版的版的 OpenAI OpenAI。而后来开源模型的发
26、展,以及。而后来开源模型的发展,以及 OpenAI OpenAI 开放开放 API API 接口改变了很多,开源导致对自有大模型的拥接口改变了很多,开源导致对自有大模型的拥有成本降低,开放接口使得在大模型之外,不少中间有成本降低,开放接口使得在大模型之外,不少中间层、应用层的创业机会凸显。层、应用层的创业机会凸显。”经纬张颖经纬张颖AI AI 公司公司 Value ChainValue Chain应用层应用层模型层模型层数据层数据层Big fat boy with a Big fat boy with a tiger headtiger headGuan Yu rode aloneGuan Y
27、u rode alone虎头虎脑的大胖小子虎头虎脑的大胖小子关羽走单骑关羽走单骑百度文心一言名场面百度文心一言名场面所谓的所谓的“差距差距”,首要来自,首要来自“数据层数据层”。国产项目虽然可以基于开源模型框架进行自研。国产项目虽然可以基于开源模型框架进行自研“模型层模型层”,但对于一个产品而言,最终呈现的,但对于一个产品而言,最终呈现的用户体验极大依赖于最初的源头用户体验极大依赖于最初的源头“数据层数据层”的质量和丰富性。大多数国产项目会直接使用海外开源的知名训练数据集,例如文生图领域的质量和丰富性。大多数国产项目会直接使用海外开源的知名训练数据集,例如文生图领域大名鼎鼎的大名鼎鼎的 LAI
28、ON LAION 数据集。而在国产迁移过程中,却并没有做好自研数据集。而在国产迁移过程中,却并没有做好自研“模型层模型层”与海外开源与海外开源“数据层数据层”之间的语言匹配关系。之间的语言匹配关系。构建构建 AIGC AIGC 的四大要素:算力、算法、数据、场景。国内各方势力代表的四大要素:算力、算法、数据、场景。国内各方势力代表算力:算力:华为华为昇昇腾、百度昆仑芯腾、百度昆仑芯算法:算法:文心、通义、盘古文心、通义、盘古数据:数据:百度中文搜索、字节跳动多模态语料百度中文搜索、字节跳动多模态语料场景:场景:阿里电商、美团本地生活阿里电商、美团本地生活2023 AIGC 2023 AIGC
29、产业全景图产业全景图 by by 无界无界 AI ResearchAI Research回顾历史,预见未来:回顾历史,预见未来:任何科技变革,都首任何科技变革,都首先起源于一项前所未先起源于一项前所未有的新技术;有的新技术;上世纪末,代表互联上世纪末,代表互联网大技术变革的是浏网大技术变革的是浏览器厂商和览器厂商和 Web Web 服服务器,而今天的互联务器,而今天的互联网巨头尚未出生;网巨头尚未出生;很多技术人当时都认为很多技术人当时都认为浏览器和浏览器和 Web Web 服务器服务器就代表了互联网就代表了互联网。于。于是,微软举全公司之力是,微软举全公司之力去开发去开发 IE IE 和和
30、Netscape Netscape 抢夺浏览器市场。最后抢夺浏览器市场。最后两败俱伤,关键是在争两败俱伤,关键是在争斗中恰恰忽略了人类进斗中恰恰忽略了人类进入互联网之后更大的战入互联网之后更大的战略机会,给予了略机会,给予了 eBay eBay、GoogleGoogle、Facebook Facebook 诞诞生的空间。生的空间。此时此刻,不算太晚,但也不算太早此时此刻,不算太晚,但也不算太早2022 2022 年年2023 2023 年底年底2022024 4 年年注:底图来源,注:底图来源,Quest Mobile Quest Mobile 研究院研究院注:底图来源,注:底图来源,跨越鸿沟
31、跨越鸿沟跨越鸿沟讲述了创新变跨越鸿沟讲述了创新变革过程中多个阶段的鸿沟。革过程中多个阶段的鸿沟。也有观点认为,也有观点认为,ChatGPT ChatGPT 已已经跨过了第一个鸿沟经跨过了第一个鸿沟(即(即 Innovators Innovators 和和 Early Early Adopters Adopters 之间的小鸿沟),之间的小鸿沟),因为用户已经过亿;但是下因为用户已经过亿;但是下一个鸿沟,就是从一个鸿沟,就是从 Early Early Adopters Adopters 到到 Early Majority Early Majority 之间的这个鸿沟是最大的,之间的这个鸿沟是最大
32、的,ChatGPT ChatGPT 还在尝试跨越。还在尝试跨越。AI AI 绘画绘画OpenAI OpenAI 创始人创始人 Sam Altman Sam Altman 对对 AI AI 的一些观点的一些观点 几年内可以和几年内可以和 Google Google 一较高下,多模态模型会打开新局面一较高下,多模态模型会打开新局面 三大技术革命(农业,工业,三大技术革命(农业,工业,ITIT)之后,)之后,AI AI 是第四个是第四个 新摩尔定律出现:宇宙中的智能数量每新摩尔定律出现:宇宙中的智能数量每 18 18 个月翻番(也被称个月翻番(也被称为为“奥特曼定律奥特曼定律”)Al Al 最先冲击
33、到的反而是(初、中级)创造性工作最先冲击到的反而是(初、中级)创造性工作 未来几十年里,重大的哲学问题将再次出现,重要的技能是适未来几十年里,重大的哲学问题将再次出现,重要的技能是适应性和韧性,拥抱变化很重要应性和韧性,拥抱变化很重要 在几乎所有同时代的人看来,牛顿都是在浪费时间在几乎所有同时代的人看来,牛顿都是在浪费时间2023 2023 年年 2 2 月底,月底,OpenAI OpenAI 网站流量超过网站流量超过 Bing Bing,进入全球,进入全球 Top 25 Top 25AIGC AIGC 发展纪元发展纪元 “压缩智能压缩智能”,“世界模型世界模型”,“人工通用智能人工通用智能的
34、火花的火花”技术奠基技术奠基创业与资本爆发创业与资本爆发AGI AGI 时代的到来时代的到来路线之争路线之争GPT-3GPT-32020GPT GPT MetaVerseMetaVerse(下一代互联网)(下一代互联网)Diffusion ModelDiffusion Model(AI AI 绘画)绘画)ChatGPTChatGPT、GPT-4GPT-4机器学习机器学习深度学习深度学习神经网络神经网络卷积卷积循环循环GANGANTransformerTransformer(20172017)小模型小模型垂直模型垂直模型大模型大模型GPT-2GPT-22018202320212022“GPT-5
35、 GPT-5 也没啥了不起的也没啥了不起的”模型定律模型定律训练大模型所用算力每训练大模型所用算力每 3 34 4 个月翻一番个月翻一番NLP NLP 摩尔定律摩尔定律每年模型大小翻每年模型大小翻 10 10 倍(指数级增长)倍(指数级增长)L L M=L L M=大 数 据大 数 据+自 监 督 学 习自 监 督 学 习+大 算 力大 算 力 大模型的大模型的“摩尔定律摩尔定律”;“行星级行星级”的数据层;的数据层;AIGC AIGC 的第一性原理的第一性原理假设,当今世界的知识总和假设,当今世界的知识总和 =1 1 亿本书亿本书;则,人类所记录下的知识总和则,人类所记录下的知识总和 =10
36、0 100 万本万本;而,仅而,仅 ChatGPT ChatGPT 单一产品单一产品“吸收吸收”的知识总和的知识总和 =40 40 万本万本。(上述类比,仅供感知)哲学信念(技术革命的第一性原理):任何能改变一切的范式变革永远有个实打实的引擎,任何能改变一切的范式变革永远有个实打实的引擎,并且这个引擎还能不断进化、不断产生价值并且这个引擎还能不断进化、不断产生价值 技术信念(技术革命的实现原理):模型要足够深,模型要足够深,bigness is betternessbigness is betterness(大就是好)(大就是好)算力,数据,越大越好算力,数据,越大越好支撑支撑 OpenAIO
37、penAI“浪费时间浪费时间”的两个信念的两个信念关于关于“技术信念技术信念”,几点,几点 ChatGPT ChatGPT 学术补充学术补充 第一性原理第一性原理 /终极使命:极尽精准地预测下一个单词终极使命:极尽精准地预测下一个单词 对下一个词的预测越准确,还原度越高,在这个过程中得到的世界的分辨率就越高对下一个词的预测越准确,还原度越高,在这个过程中得到的世界的分辨率就越高 在在 ChatGPT ChatGPT 中,中,P P 代表预训练(代表预训练(Pre-trainingPre-training),),T T 代表变换器(代表变换器(TransformerTransformer),),
38、G G 代表生成代表生成(GenerativeGenerative),即全称为),即全称为“生成式预训练生成式预训练 Transformer Transformer 模型模型”G G 是模型根本形态,是模型根本形态,P P 是核心思想,是核心思想,T T 是核心技术架构是核心技术架构GPT GPT 沿用了沿用了 Hinton Hinton 等人(等人(20062006)提出的一种经典的)提出的一种经典的“预训练预训练+微调微调”的二段式训练策略的二段式训练策略 预训练预训练:将大量低成本收集的训练数据放在一起,经过某种预训方法去学习其中的共性,然后将其中的共性移:将大量低成本收集的训练数据放在
39、一起,经过某种预训方法去学习其中的共性,然后将其中的共性移植到特定任务的模型中,再使用相关特定领域的少量标注数据进行微调植到特定任务的模型中,再使用相关特定领域的少量标注数据进行微调 这样的话,模型只需要从共性出发,去学习该特定任务的特殊部分即可这样的话,模型只需要从共性出发,去学习该特定任务的特殊部分即可 预训练之后,进入第二阶段预训练之后,进入第二阶段强化学习强化学习,即,即微调或者基于人类反馈的强化学习(微调或者基于人类反馈的强化学习(RLHFRLHF),人类老师与),人类老师与 AI AI 一起合作去完成大模型的构建。在这个阶段,不是教它新的知识,而是与它交流和传达:我们希望它成为什么
40、样一起合作去完成大模型的构建。在这个阶段,不是教它新的知识,而是与它交流和传达:我们希望它成为什么样 这个过程做得越好,神经网络就越有用、越可靠,所以第二阶段也是极其重要的这个过程做得越好,神经网络就越有用、越可靠,所以第二阶段也是极其重要的GPT-1GPT-1 GPT-2GPT-2 GPT-3GPT-3 GPT-3.5GPT-3.5 GPT-4GPT-4?OpenAI OpenAI 技术与产品各阶段专注与攻克的重点领域及花销技术与产品各阶段专注与攻克的重点领域及花销预训练预训练语言理解语言理解迁移学习迁移学习多种任务多种任务泛化能力泛化能力更小样本,更多任务更小样本,更多任务微调微调RLHF
41、RLHF工程化工程化插件化、生态化插件化、生态化AGIAGI2018201820202020202220222023202320192019微软以微软以 290 290 亿美金估值亿美金估值继续投资继续投资 100 100 亿美金亿美金1 1 亿美金融资亿美金融资微软投资微软投资 10 10 亿亿美金研发合作美金研发合作30 30 亿美金融资亿美金融资OpenAI OpenAI 未来未来 2-3 2-3 年年要做的要做的,已基本排满,已基本排满无止境无止境?亿美金亿美金关于关于 AGI AGI 的未来:大语言模型(的未来:大语言模型(LLMLLM)是否是最佳途径)是否是最佳途径 AGIAGI(
42、Artificial general intelligenceArtificial general intelligence),通用人工智能,即可以理解并完成人类可以完成的),通用人工智能,即可以理解并完成人类可以完成的任何智力任务任何智力任务具身智能、类脑智能、具身智能、类脑智能、LLMLLM 建立建立 AGI AGI 的基础是:的基础是:1.1.泛化(泛化(GeneralityGenerality),用少数几个深度学习方法解决大部分问题,比如梯度下降、,用少数几个深度学习方法解决大部分问题,比如梯度下降、深度神经网络深度神经网络以及一些强化学习;以及一些强化学习;2.2.能力(能力(Com
43、petenceCompetence),深度神经网络深度神经网络可以解决计算机视觉可以解决计算机视觉 40 40 年研究中的任何问题,甚至有更好的效果;年研究中的任何问题,甚至有更好的效果;3.3.扩展性(扩展性(ScalabilityScalability),实验一次又一次地向我们证明:,实验一次又一次地向我们证明:如果有一个更大的神经网络,有更多的训练数据,如果有一个更大的神经网络,有更多的训练数据,它的工作效果会更好。它的工作效果会更好。“我们还在寻找创建我们还在寻找创建 AGI AGI 系统的方法,系统的方法,革命性的变革一定会在某个时间点发生革命性的变革一定会在某个时间点发生。为了真正
44、构建。为了真正构建 AGI AGI,一方面需要在计算规模上尽可,一方面需要在计算规模上尽可能地推进,另一方面能地推进,另一方面还需要在人类自身思考和认知的实质性推进还需要在人类自身思考和认知的实质性推进。”Greg Brockman Greg Brockman,OpenAI OpenAI 联合创始人、董事长兼联合创始人、董事长兼 CTO CTO 抵达抵达 AGI AGI 的第一性原理:的第一性原理:“AGI AGI 的构建的构建需要更新的东西需要更新的东西,一个无法显著增加我们可以获取的科学知识总量的系统,不能发现、发明或称之为新的基础科,一个无法显著增加我们可以获取的科学知识总量的系统,不能
45、发现、发明或称之为新的基础科学,那么它就不是超级智能。学,那么它就不是超级智能。”Sam Altman Sam Altman“关于这项技术,人们不了解的是,关于这项技术,人们不了解的是,GPT-4 GPT-4 将在几年后看起来像一个小玩具,不再会将在几年后看起来像一个小玩具,不再会那么令人印象深刻。那么令人印象深刻。”OpenAI CEO OpenAI CEO 奥特曼奥特曼作品名称:静默的交谈作品名称:静默的交谈作者:宋晨曦作者:宋晨曦院系:雕塑系院系:雕塑系 第一工作室第一工作室导师:米俊妮,蔡特,吉霹导师:米俊妮,蔡特,吉霹替,方政替,方政作品名称:现代敦煌:抽象作品名称:现代敦煌:抽象的
46、回响的回响作者:孙婷婷作者:孙婷婷院系:雕塑系院系:雕塑系 第二工作室第二工作室导师:米俊妮,蔡特,吉霹导师:米俊妮,蔡特,吉霹替,方政替,方政作品名称:跨越的力量作品名称:跨越的力量作者:齐霖作者:齐霖院系:雕塑系院系:雕塑系 第四工作室第四工作室导师:米俊妮,蔡特,吉霹导师:米俊妮,蔡特,吉霹替,方政替,方政雕塑系雕塑系先看个展,某地方美术学院本科毕业展GPT GPT 并不是并不是 AIGC AIGC 的全部,的全部,AIGC AIGC 的序章始于何处?的序章始于何处?作品名称:静止的抵抗作品名称:静止的抵抗作者:卢钧翔作者:卢钧翔院系:壁画院系:壁画 第二工作室第二工作室导师:米俊妮,蔡
47、特,吉霹导师:米俊妮,蔡特,吉霹替,方政替,方政版画系、版画系、壁画系壁画系作品名称:边缘之歌:作品名称:边缘之歌:中年的哀愁中年的哀愁作者:陆熙明作者:陆熙明院系:版画院系:版画 第五工作室第五工作室导师:米俊妮,蔡特,吉导师:米俊妮,蔡特,吉霹替,方政霹替,方政上述所有学生姓名、信息、照片学生姓名、信息、照片作品图片、作品名称作品图片、作品名称皆为 Midjourney 与 ChatGPT 生成致谢导师:米俊妮,蔡特,吉霹替注:内容来源,方政,公众号“夹山改梁Jasagala”回到回到 20222022,遇见,遇见 AIGC AIGC 的序章的序章 AI AI 艺术艺术 /AI/AI 绘画
48、绘画过去,看山是山过去,看山是山现如今,看山不是山现如今,看山不是山视频赏析:视频赏析:AI AI 短视频短视频 Voyage through Time Voyage through Time(穿越时间)(穿越时间)几组数据感受几组数据感受 AI AI 绘画(文生图)浪潮的热度绘画(文生图)浪潮的热度AI AI 时代与互联网时代开源热度对比时代与互联网时代开源热度对比曾经互联网时代靠着开源精神完成了一次次科技商业变革,如搭建网站、云计曾经互联网时代靠着开源精神完成了一次次科技商业变革,如搭建网站、云计算、算、APPAPP每条曲线都见证了那个十年的飞速发展。而今天每条曲线都见证了那个十年的飞速发
49、展。而今天 AI AI 开源运动,出开源运动,出现即巅峰,现即巅峰,项目的下载和引用正在以指数级速度蔓延项目的下载和引用正在以指数级速度蔓延感受感受 AI AI 绘画质量的指数级进化速度:绘画质量的指数级进化速度:2022 2022 年春夏,启蒙之门打开年春夏,启蒙之门打开4 4、5 5 月份月份:只擅长抽象之美:只擅长抽象之美6 6、7 7 月份月份:开始在艺术质量:开始在艺术质量上有所突破上有所突破8 8 月份月份:可以初步驾驭一些:可以初步驾驭一些逻辑性较强的画法逻辑性较强的画法当时只有当时只有 Disco DiffusionDisco Diffusion(俗称(俗称 DDDD)开)开源
50、,是世人唯一能够体验的开源源,是世人唯一能够体验的开源 AI AI 绘画项绘画项目,而目,而 Midjourney Midjourney 刚刚处于商业化初期刚刚处于商业化初期AI AI 绘画开始展现无与伦比的迭代进化速绘画开始展现无与伦比的迭代进化速度,从抽象美到逻辑美,进化明显,未来度,从抽象美到逻辑美,进化明显,未来可期可期2022 2022 年秋冬,年秋冬,AI AI 绘画质量渐入佳境绘画质量渐入佳境9 9 月份月份:人物绘制质量凸显人物绘制质量凸显10 10 月份月份:二次元主题异常火二次元主题异常火热,同时质量堪比人类画师热,同时质量堪比人类画师12 12 月份月份:商业质量商业质量