2023年技术人的百宝黑皮书.pdf

资源描述

1、前言叙述一段历史，历史学家们往往会锁定一个时间维度上的“重要节点”。走过这个节点，世界的风向、社会的信念、人们对未来的态度发生改变，世界可以清晰地被分为“之前”与“之后”。回望淘宝的技术历史，2008年，淘宝率先提出并实践去IOE，逐步掌握中国企业互联网技术发展的命脉自主权；2010年手机淘宝上线，淘宝进入移动电商时代；2019年，双11核心系统100%上云，电商应用架构全面拥抱云技术行至2023这一年，我们确凿无疑地看到，以AI人工智能为代表的新技术正成为全球商业发展的新动能。幸运的是，过去24年我们曾积累下丰富的用户场景与行业经验，每一份文字、图像、视频、代码、数据，一片片构筑起我们未来想

2、象力的基石，为AI技术提供最佳的应用场。今年天猫双11，面向商家和消费者的一系列围绕AI的探索创新产品陆续落地。这是AI技术在电商领域的首次大规模应用，我们也积攒下点点滴滴的新思考和新沉淀。所以，我们在这里相遇了。这里是淘天业务技术2023一整年的精华技术内容合集，涵盖了AIGC与大模型、终端技术、服务端架构、数据算法等多个技术领域，沉淀了淘宝直播、购物车、拍立淘等多个业务的技术解决方案，细小的改变背后是对技术深度理解的体现，也是对用户体验与用户价值的纵深追求。我们希望能将这份知识沉淀和价值追求共享给你，并怀抱着开放自由的交流心态，真诚期望与大家沟通和共鸣。本书内容页数1000+、全部内容将近

3、40w字。希望你喜欢，并分享给身边的朋友。新年快乐！CONTENTS目录第一部分年度精选技术栈内容基于AIGC的3D场景创作引擎概述探索 StableDiffusion：生成高质量图片学习及应用基于Stable Diffusion的AIGC服饰穿搭实践AIGC生成3D模型探索与实践FlashAttention2原理解析以及面向AIGC的加速实践AIGC技术在淘淘秀场景的探索与实践AIGC图像生成的原理综述与落地畅想从零开始的stable diffusionPrompt设计与大语言模型微调大模型升级与设计之道：ChatGLM、LLAMA、Baichuan及LLM结构解析GPT Prompt编写的

4、艺术：如何提高AI模型的表现力Stable Diffusion WebUI 从零基础到入门技术新浪潮：正在崛起的AI工程师LangChain:大语言模型的新篇章021848627189100119133156189212222229AIGC与大模型篇前端智能化在淘宝的2022实践总结淘宝widget链路方案总结淘宝HTTP3/QUIC技术演进与实践天猫汽车商详页的SSR改造实践SSR在天猫优品大促会场的探索实践JVMTI 在淘宝 Profiler 中的应用淘宝首页大促新玩法“猫头”背后的技术挑战和设计淘宝小游戏背后的质量保障方案2023 年大淘宝 Web 端技术概览基于 Git 的开发工作流主

5、干开发特性总结开放网关架构演进跨端架构下客户端侧API维护方案总结移动端浏览器性能优化探索淘宝 APP 网络架构演进与弱网破障实践低代码逻辑编排观：PlayMaker前端如何做好用户体验？前端工程中的设计模式应用iOS Crash 治理：淘宝VisionKitCore 问题修复261287296309319325343357370394400408421430451462479541终端技术篇Hologres RoaringBitmap实践：千亿级画像数据秒级分析在淘宝，商品技术团队每天都在干什么？在淘宝，营销技术团队如何支持双11？认识 WebAssembly 与 Rust 实践一个服务端同

6、学的Vue框架入门及实践581595604614647服务端技术篇java动态脚本执行效率对比评测一种多场景通用备份容灾方案淘宝斗地主残局玩法技术方案总结9个服务端提升debug效率的IDEA Debugger技巧浅析设计模式4模板方法模式浅析设计模式5-责任链模式DDD之于业务支撑的意义策略模式在数据接收和发送场景的应用秒级启动的集成测试框架如何在业务代码中优雅地使用责任链模式慢SQL治理经验总结674682688702717727740753760778786基于扩散模型的3D智能创作引擎与内容投放算法最新实践基于组合优化的3D家居布局生成看千禧七大数学难题之NP问题电商3D购物新体验：A

7、R量脚和AR试戴背后的算法技术前端3D技术概述基于 MNN 在个人设备上流畅运行大语言模型ARM汇编快速入门7958038118258378503D/XR 技术篇在淘宝，音视频技术团队解决了内容电商什么问题？淘宝iOS拍立淘微距能力探索与实现淘宝拍立淘多码识别方案总结863876888多媒体技术篇淘宝拍照基于端云协同的视频流实时搜索实践CVPR 2023淘宝视频质量评价算法被顶会收录 CVPR 2023淘宝视频质量评价算法被顶会收录大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军（内含夺冠方案）896 903911深度统一粗排在淘宝主搜索的优化实践每日好店淘宝店铺推荐系统实践每日好店店品

8、排序探索模型升级Generator-Evaluator重排模型在淘宝流式场景的实践LLM在电商推荐系统的探索与实践CIKM论文解读|淘宝内容化推荐场景下对多场景全域表征的思考与应用ICCV2023|基于动作敏感性学习的时序动作定位淘宝用户体验分析方法论VOC数据洞察在淘宝详情的应用与实践物流产品体验诊断与优化BPPISE数据科学案例框架数据驱动性能体验优化大数据基础技能入门指南92093394094895997298899410121021103010361045算法/大数据篇负责淘宝业务前端开发9年，聊聊我的心得“技术开发最应该做什么？”，聊聊我在服务端开发5年的理解和收获聊聊我在淘宝做性能

9、分析的经历聊聊我做 NeRF-3D重建性能优化经历聊聊我在店铺开放域做性能优化的体会聊聊我在淘宝的成长公式和业务思考聊聊我从底层算法到业务算法转型的这一年思考力：如何更好地做出判断105710671072107910841090109611002023大淘宝技术工程师推荐书单推荐领域新人必看书籍：推荐系统实践程序员必读|业务架构解构与实践111511221131技术人的必读书单第二部分技术人生与学习成长系列技术人的经验总结年度精选技术栈内容第一部分技术人的百宝黑皮书2023版01第一部分年度精选技术栈内容技术人的百宝黑皮书2023版201年度精选技术栈内容AIGC与大模型篇AIGC与大模型篇基

10、于AIGC的3D场景创作引擎概述作者：Meta技术团队通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状，让商家像玩转2D一样去玩转3D，让普通消费者也能参与到3D内容创作和消费中，真正实现内容生产模式从PGC/UGC过渡到AIGC，是我们3D场景智能创作引擎一直追求的目标。前言随着元宇宙的大火，国内外各大厂纷纷下场开始为下一代互联网技术布局，旨在为用户提供更好的体验。体验包括方方面面，比如更好的游戏体验、更好的社交体验、更高效的办公体验当然也包括更好的消费体验。作为国内最大的电商平台，我们团队也在持续思考如何基于元宇宙的技术，给消费者带来更好的购物体验以及给商家带来更好的营商体验。

11、回归到电商“人、货、场”三要素上，通过虚拟人技术以及商品三维重建技术，“人”和“货”在3D化上已经迈出了重要的一步，而“场”作为连接“人”和“货”的重要载体，目前还严重依赖于专业人员通过专业的DCC软件进行创作，门槛高、耗时长、成本高、效率低，这就导致了中小商家以及C端用户在现阶段难以大规模参与，即使是头部大品牌商家制作的3D场景内容也很有限。然而大规模的虚拟世界需要有大规模的虚拟内容作为支撑进行构建，基于AIGC的能力加速“场”的自动化构建从而降低3D场景制作门槛就显得非常有必要。3D场景制作流程概述3D场景制作在游戏行业已经形成了一套非常成熟的工业化、流水线生产的解决方案。下面通过游戏行业

12、场景制作方式来简单介绍一下3D场景制作的整体流程。游戏中一个完整的场景制作流量一般可以分成如下六个步骤：1.游戏策划提需求2.原画师承接，并绘制出对应的原画3.建模师制作对应的三维模型和材质贴图技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇图片来源：https:/ 3D场景智能创作引擎技术架构，下面介绍一下创作引擎核心的几个算法。前背景生成技术前背景生成技术核心解决构建的3D场景与待展示的商品或者店铺相匹配问题。即给定一款商品生成与之匹配的3D场景对该商品进行展示或者给定一个店铺的商品生成与这批商品调性相符的店铺场景。对于不同品类的商品，所需场景复杂度是完全不一样的。以手

13、机和沙发为例，一般展示手机的3D场景以抽象的风格为主，比如星空、天空、或者一些抽象艺术风类似于手机内置的壁纸其主要目的是配合手机的外观以及屏幕壁纸颜4技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇色进行展示，整体场景相对简单，而展示沙发一般以实景场景为主并且需要在一个非常好看的客厅空间进展展示，为了营造温馨或者奢华的视觉效果还需额外大量的辅搭物品，如下图所示：为了解决不同复杂度场景生成问题，我们构建了两套场景生成技术，以下简称单场景生成技术和复杂场景生成技术，下面分别介绍这两种技术方案简单场景生成技术简单场景生成技术核心解决场景内贴图生成问题，根据不同的商品生成与之匹配的

14、场景贴图，并用生成的贴图根据一定的场景构建方式构建出新的场景，从而完成简单3D场景创作。我们采用的技术方案是基于Diffusion Model进行贴图生成，模型结构如下图所示：5技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇6给手机生成的星空背景贴图如下图所示：同时，我们基于手机屏幕壁纸也做了一些创意的贴图生成，效果如下图所示：直接根据手机壁纸进行场景贴图生成，构造与手机相符的3D场景。同时也可以基于该技术进行AI创意输出，设计师在搭建场景时给到设计师更多的灵感输入。另外，基于AIGC生成贴图的好处在于不受图片版权限制。复杂场景生成技术如上述沙发的例子，在构建复杂场景时仅

15、仅考虑场景贴图是远远不够的，需要围绕该商品构建整个客厅场景，硬装上包括背景墙、地板、灯具、窗帘等等、软装上包括辅搭家具、辅搭配饰、地毯等等。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇7如上图所示，我们先后尝试过四种生成方案，均未取得理想的效果，原因如下：1.基于pair 1生成N方案:该方法直接将1-N的问题当成多个1-1的问题来处理，缺点是，搭配不存在递推关系，即A与B搭，A与C搭，不能得出结论说B与C搭，所以，一旦生成的序列过长，基本没有审美可言，基于我们提出的BLEU n-gram的评测方法效果最差;2.TransE方案：主要研究如何在更高位空间内解决递推关系，

16、缺点是在有限规模的数据集下，不能找到一个高维空间可以对所有的家具进行表达，进而导致递推关系不成立；3.transformer方案：需要大规模的数据集进行训练，由于设计域的数据集都比较小导致训练不充分，匹配关系基本都学得不够好，其向量内聚性也不够好;技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇84.GCN方案：该方法的优点是节点的度越大，表征得越充分，度越少，表征得越不充分，极端情况是度为0，表征能力就很差。很适合解类似于完形填空的N生成1问题，针对1生成N问题，初始情况下度为0，很难稳定生成比较好的场景;设计领域存在一个明显的设计特点，物理空间上越接近的物体其相关性要求

17、越高，还是以沙发为例，比如客厅的主沙发和副沙发，往往要求其在款式、颜色、风格上要保持一致，物理空间距离越远设计上的自由度就会越大，比如客厅的沙发和卧室的床或者餐厅的餐桌之间设计自由度就会很高，没有明显的限制。根据设计与物理空间远近强相关这一关系，我们对原有的transformer进行了部分改进，在复杂场景中将待生成的辅搭物品根据空间距离划分成多个组，从而将一次性生成一整个长序列分解成生成多个强相关的短序列组合，同时每个短序列又作为先验知识，用于生成下一个短序列，这样做的好处是能够保证局部空间的强相关性以及当前空间与其他空间的相容性，而且实验发现能大大降低对样本的消耗量。通过实践我们发现该方案不

18、仅适用于单商品的场景生成，也适用于店铺维度的场景生成，整体的网络结构如下图所示：运镜技术构建纯3D场景不会涉及到运镜相关的技术，然而一旦需要把3D场景转成内容进行分发，比如基于3D场景生成图片用于制作宝贝的商品主图，或者基于3D场景制作短视频在各大短视频平台进行分发，或者基于3D场景制作全景图进行3D展示，或者在虚拟世界的虚拟屏幕上进行广告投放时，智能运镜技术就显得非常有必要。智能运镜技术可以类比成一个虚拟摄影师，通过这个虚拟摄影师可以在已经生成的3D场景里拍摄出非常好看的图片、视频、全景图等优质素材供给各渠道进行分发。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇9运镜

19、技术最大的难点是相机参数标注难度过大，成本过高，无法开展批量化标注。相机标注要有专业的摄影师与3D设计师一起参与，每一个机位的标注都需要设计师与摄影师协同配合，成本非常高，如果找非专业人士标注直接进行标注，效果非常不理想，为了解决无法进行批量化标注的问题，我们先后迭代了两个大的版本，我们称之为基于摄影构图的运镜技术和基于现有构图的逆向运镜技术，下面分别介绍这两种运镜技术。基于摄影构图的运镜技术顾名思义就是将摄影构图的技术参数化，并将其应用于3D场景的拍摄中，比如最常见的构图技巧为“井”字构图法，如下所示：将待拍摄的画面通过两条横线和两条竖线分隔成九个象限，产出四个焦点，这四个焦点称之为黄金分割

20、点，只要把待展示的物体放到这4个焦点的上，就能产出一幅比较不错的图片，还是以沙发为例，通过运用“井”字构图法，分别将焦点置于（2，1）和（1，2）处，就能拍摄出不错的图片，如下图所示：技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇10另外一种常用的构图技巧“井”字构图法的另外一种构图方法，简称“三分”构图法，将待拍摄的画面通过两条横线分隔成三个象限，并把在3D场景中待拍摄的物体放置在下面一条线上，也能拍出比较好的图片：基于摄影构图技术算法已经能够拍摄出与普通摄影师相媲美的图片或者短视频，它的缺点在于摄影构图千变万化，通过调整相机高度、相机相对物体的距离，俯仰角、FOV等参

21、数同样的构图技巧能拍摄出非常不一样效果，而且不同品类的商品虽然构图理论是同一套，但最终呈现的效果也可以完全不一样。因此，需要根据不同的类目需要去调节不同的参数，工作量巨大，该方法适用于项目冷启动阶段且急需产出素材的时候，无法大规模推广。基于现有构图的逆向运镜技术逆向指的是逆向商家的运镜，商家经过多年的摸索，已经把最优质的拍摄方法都沉淀在了商品主图中，因此，最直接的方式就是从商品主图中逆向摄影师拍摄时的相机参数。但直接从商品主图中还原摄影师拍摄时候的相机参数难度巨大，两者之间缺少直接的联系。由于物体在3D空间中的坐标是已知的，如果我们能预估出物体在图像中的3D bounding box从而得到其

22、8个顶点的坐标，那么就可以将其转换成图形学中的Perspective-n-Point（pnp）问题，该问题可以通过Direct Linear Transformation(DLT)方法进行求解，得到相机参数，并将其迁移到3D场景中，就能实现机位生成。我们通过UniPose对商品主图进行预测得到物体的3D bounding box以及对应的8个顶点坐标，为了提高模型效果，同时加入了物体姿态估计、热图估计。训练数据则是来自于随机角度渲染出的2D图以及部分人工标注数据，模型框架如下所示：技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇11有了主物体在2D空间下的8个顶点的坐标，以

23、及在3D空间下的对应的坐标，通过DLT算法就能求解出对应的相机参数：其中x是物体2D图像坐标，X是3D世界坐标，K是相机内参矩阵，R是相机外参矩阵，Xo为相机位置坐标。迁移到3D场景中时，由于3D场景内物体在尺寸上与商品主图不一定完全一致，为了保证主物体在画面中的占比，需要进行机位微调，如下图所示是微调的过程，微调的目标就是主物体在画面中的占比技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇12有了逆向运镜技术，不仅可以直接获取商家的运镜方法，也极大降低了标注成本不再需要专业的摄影师和3D设计师协同进行标注，同时也为运镜技术进行规模化推广到所有品类奠定了技术基础。算法基于3

24、D场景生成技术+智能运镜技术制作的效果图如下所示，同样是针对沙发场景，我们可以生成几十种运镜效果：场景素材价值预估技术有了3D场景生成技术和运镜技术后机器已经可以批量化、规模化、低成本的进行场景制造，据我们统计目前沙发类目下单品展示的3D场景平均一个模型已经可以构建出超过500个场景，再加上运镜技术每个场景至少能生产5张优质图，也就意味着针对一个3D模型，我们可以生产出1500张优质图，这么多优质素材如何投放能够效率最大化，这一问题随着场景制造能力逐步提升所面临的挑战也在逐渐增大。此处我们的解法是进行素材价值优选，优选最有效的素材进行投放，比如搜索场景我们以CTR为目标优选出CTR最高的素材进

25、行投放。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇13我们以目前跟搜索合作在搜索侧透出机器产出的3D场景素材为例，简单阐述一下场景素材价值预估与传统CTR预估的区别：1.只负责供给素材，不干预排序：在这种情况下，一个素材CTR高，并不一定能代表我们生成的素材好，需要考虑该素材透出的坑位，以及商品本身的CTR；2.传统CTR预估针对item维度对全局item进行预估，而我们是素材维度对同一个item机器产出的不同素材进行预估;3.由于我们只做离线的素材供给，因此仅有图像本身的特征以及投放后的统计类特征；4.给不同商家供给的素材、给同一个商家不同商品供给的素材，所用的3D

26、场景需要有足够的多样性，否则在搜素展现时，同质化会非常严重；在没有大流量训练的前提下，仅仅从图像层面进行粗粒度特征提取，模型效果远不如汤普森采样。为此，我们对图片的信息进行了细粒度的解构做了大量的特征工程，同时基于逆向运镜技术从图片中解构出了相机参数作为2D图片独有的3D特征，从而将商家拍摄的图片与3D场景下生成的图片在特征维度进行了统一，如下为我们抽取的部分特征:技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇14通过投放以及对日志数据的分析，我们发现了一些有趣的现象，如下图所示：我们通过大量的投放实验发现合理的前背景搭配以及合理的机位选择能对商品CTR带来显著的影响。住

27、宅家具类目的实验表明，更合理的前背景搭配以及有效的运镜CTR差异能够超过15%。另外，基于当前的工作，我们也在探索设计的白盒化，即可以从前背景搭配、运镜、主物体占比画面面积等维度出发对一张图的点击率进行分析，或者给到商家一些指导，帮助商家进一步优化主图的点击率，进而提升运营效率。模型生成技术在进行游戏创作时最缺的是美术资产，比如要搭建一个中世界风的游戏，前期需要创作大量的美术资产，如下图所示，如今游戏产业针对美术资产的创作已经形成了一个比较完善的工业化解决方案。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇15电商行业也类似，为了对万物进行场景构建，我们同样需要丰富多样的

28、3D美术资产。而与游戏厂商可以针对每款游戏进行重金投入花费巨额成本进行资产创作不同，我们不可能要求所有商家都进行重资产投入，特别是中小商家或者C端用户。面对电商特有的多样、高频的营销场景以及海量不同的商品特质，都要求我们必须要有低成本、高质量的美术资产创作方案来适配海量场景构建需求。目前我们的解法是通过AIGC技术进行纹理创作，下图所示是基于AI进行模型生成效果：应用介绍通过上面的介绍可知，将AI构建的3D场景通过运镜技术内容化后，分别可以输出图片、视频、3D空间等相关内容，结合淘宝APP、手机天猫APP相关场景，我们分别做了一些实践。3D场景图片化图片是目前淘宝APP各渠道分发最多的素材，不

29、管是商品详情页、搜索、首猜还是其他导购场都需要用到图片进行分发。因此图片也是商家花重金建设的最核心资产，甚至有些商家戏称自己是一家图片制作公司。据我们跟一些头部家装大商家的调研，如果是实拍图，一套主图的成本就在20005000元不等。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇16如今，3D场景的自动生成能力结合运镜技术，AI已经具备了批量化造图的能力，我们将AI制作的图片搜索以及首页猜你喜欢，在公域非付费流量替换商品主图进行透出，我们希望借助AI的能力让商家能够得到额外的收益。目前淘宝搜索、SKU搜索引擎、搜索筛选项、首页猜你喜欢的部分类目已经接入我们的能力日均曝光千

30、万级，CTR有明显提升并且获得了头部大商家的认可。AI的持续造图能力，不仅能够给商家带来优质的图片素材，同时也可以防止用户的浏览疲劳，始终能够给消费者提供更新更好的素材供其消费。通过这个项目，我们跟家装头部大商家建立了很好的合作，包括林氏木业、全友家居、芝华士、顾家、喜临门、慕思等等帮助他们持续提升在公域透出的效率，目前已经有3000+店铺授权我们使用公域自然流量。可以想象未来商家基于AI能力进行素材创作并进行分发的巨大空间，其制作效率与传统实景拍摄相比，将会有一个多么大的提升，特别是后疫情时代，AI为商家提供了另一种可替代的造图能力，甚至可以想象，未来商家只要有一个3D模型，AI就能完成商家

31、所需素材的创作需求。3D场景视频化短视频化的时代，我们通过3D技术也为短视频的生成持续助力。在3D场景中拍摄视频与拍摄图片相似，单一视角拍摄变成了序列视角拍摄。目前，我们生成的短视频已经在淘宝APP、手机天猫部分类目的商详落地，帮助商家降低视频创作的成本，提升视频创作的效率。3D空间展示3D空间展示依赖3D场景的构建，目前我们生成的3D场景以3D样板间的形式在极有家相关频道进行了透出,极大降低了商家搭建3D样板间的成本技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇17总结与展望作为下一代互联网虽然元宇宙仍处在非常早期的阶段，我们也在持续探索元宇宙电商场景的表现形式，不过我

32、们始终坚信低成本、高质量、低门槛、大规模的3D场景构建技术必然是未来构建元宇宙的基础设施。通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状，让商家像玩转2D一样去玩转3D，让普通消费者也能参与到3D内容创作和消费中，真正实现内容生产模式从PGC/UGC过渡到AIGC是我们3D场景智能创作引擎一直追求的目标。仰望星空的同时也要脚踏实地，未来很长一段时间手机仍然电商最重要的媒介，因此图片和视频仍然是商家重资产投入的环节以及消费者消费规模最大的内容，希望我们的3D场景智能创作引擎在目前的2D分发时代能够给更多的商家以及业务在素材上降本增效，丰富消费者个性多元的消费需求。团队介绍大淘宝技术

33、Meta团队，目前负责面向消费场景的3D/XR基础技术建设和创新应用探索，创造以手机及XR 新设备为载体的消费购物新体验。团队在端智能、端云协同、商品三维重建、3D引擎、XR引擎等方面有着深厚的技术积累，先后发布深度学习引擎MNN、端侧实时视觉算法库PixelAI、商品三维重建工具Object Drawer、端云协同系统Walle等。团队在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等顶级学术会议和期刊上发表多篇论文。欢迎视觉算法、3D/XR引擎、深度学习引擎研发、终端研发、AIGC等领域的优秀人才加入，共同走进3D数字新时代。简历请投递至:chengfei.lcfal

34、ibaba-技术人的百宝黑皮书2023版01年度精选技术栈内容探索 StableDiffusion：生成高质量图片学习及应用18探索 StableDiffusion：生成高质量图片学习及应用作者：艾贺（致问）本文主要介绍了 StableDiffusion在图片生成上的内容，然后详细说明了StableDiffusion 的主要术语和参数，并探讨了如何使用 prompt 和高级技巧（如图像修复、训练自定义模型和图像编辑）来生成高质量的图片。介绍StableDiffusionStableDiffusion是什么Stable Diffusion是一种潜在的文本到图像扩散模型，能够生成逼真的图像，只需任

35、何文本输入，就可以自主自由创造漂亮的图像，使众多不会拍照的人在几秒钟内创造出惊人的图片。StableDiffusion可以生成不同的图片风格，比如：Anime 动画，realistic 写实，Landscape 风景，Fantasy 奇幻，Artistic 艺术。还有很多其他的风格，都可以在网上看到。StableDiffusion主要术语有一些图示来直观理解StableDiffusion，比较深奥，不过多解释：https:/ AUTOMATIC1111 GUI 合并两个模型，转到 Checkpoint Merger 选项卡，在 Primary model(A)和 Secondary model

36、(B)中选择要合并的两个模型。2.调整乘数(M)来调整两个模型的相对权重。将其设置为 0.5 将以相等重要性合并两个模型。3.按下运行按钮后，新合并的模型就可以用了。微调模型：Embedding&Lora&Hypernetwork1.CheckPoint：这些是真正稳定的扩散模型。它们包含生成图像所需的所有内容，不需要额外的文件。它们通常很大，大小为2-7 GB。本文的主题是它们。2.Embedding：也称为Textual inversions。它们是定义新关键词以生成新对象或样式的小文件。通常为10-100 KB。您必须与CheckPoint模型一起使用。3.LoRA：它们是用于修改样式的

37、检查点模型的小补丁文件。它们通常为10-200 MB。您必须与CheckPoint模型一起使用。也是用于给先有模型做一些微小的改变；可以对原有模型做补丁，然后通过关键词触发风格，人物。4.Hypernetwork：它们是添加到CheckPoint模型的附加网络模块。它们通常为5-300 MB。您必须与Check-Point模型一起使用。01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版21ControlNet 控制姿势ControlNet是一种稳定的扩散模型，可以复制作品和人体姿势。想要使用的话再扩展中安装sd-webui-controlnet扩展即可。正常情况下我们想要控制

38、人物的姿势是十分困难的，并且姿势随机，而ControlNet解决了这个问题。它强大而多功能，可以与任何扩散模型一起使用。主要作用：1.边缘检测，家具摆放等2.人体姿势复制可用的模型以及说明：01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版22抽样算法不同抽样算法的生成时间对比：使用不同的抽样算法生成的图片：a busy city street in a modern city01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版23Stable Diffusion 主要参数列表h t t p s:/s t a b l e-d i f f u s i o n-a

39、 r t.c o m/k n o w-t h e s e-i m p o r t a n t-p a r a m e-ters-for-stunning-ai-images/#Sampling_methods01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版24如何生成高质量的图片什么是prompt？在StableDiffusion中，prompt是指为GPT模型提供输入的文本段落或句子。它是用来引导模型生成有意义、准确的响应的关键因素之一。好的Prompt结构1.Subject(required)主体2.Medium 艺术类别3.Style 艺术风格4.Artist 艺术家

40、5.Website 艺术流派6.Resolution 清晰度7.Additional details 额外的细节8.Color 色彩同时可以考虑满足以下的条件：1.在描述主题时要详细和具体。2.使用多个括号（）来增强其强度，使用来降低。3.艺术家的名字是一个非常强的风格修饰符，使用的时候要知道这个是什么风格。Prompt风格参考如果不确定要用什么风格，可以去下面的两个地址搜一下对应的风格1.关键词检索（laion-aesthetic-6pls）：https:/laion-aesthetic.datasette.io/laion-aesthetic-6pls/images2.艺术风格汇总list

41、 of artists for SD：https:/rentry.org/artists_sd-v1-4prompt3.查询参考：https:/ 降低权重；a(word)-将对单词的权重增加1.1倍 a(word)-将对单词的权重增加1.21倍（=1.1*1.1）a word-将对单词的权重减少1.1倍 a(word:1.5)-将对单词的权重增加1.5倍 a(word:0.25)-将对单词的权重减少4倍（=1/0.25）prompt也可以从某个点位开始考虑生成指定的内容：from:to:when示例：a fantasy:cyberpunk:16 landscape1.开始时，模型将绘制一幅fa

42、ntasy景观。2.在第16步之后，它将切换到绘制一幅cyberpunk:景观，继续从fantasy停止的地方绘制。另外一种语法：cow|horse in a field第1步，提示是“cow”。第2步是“horse”。第3步是“cow”，以此类推。一些参考promptnegtive提示符：ugly,tiling,poorly drawn hands,poorly drawn feet,poorly drawn face,out of frame,extra limbs,disfigured,deformed,body out of frame,bad anatomy,watermark,si

43、gnature,cut off,low contrast,underexposed,overexposed,bad art,beginner,amateur,distorted face01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版32(ugly),(duplicate),(morbid),(mutilated),out of frame,extra fingers,mutated hands,(poorly drawn hands),(poorly drawn face),(mutation),(deformed),(ugly),blurry,(bad anatomy)

44、,(bad proportions),(extra limbs),cloned face,(disfigured),out of frame,ugly,extra limbs,(bad anatomy),gross proportions,(malformed limbs),(missing arms),(missing legs),(extra arms),(extra legs),mutated hands,(fused fingers),(too many fingers),(long neck)如何想出好的prompt：https:/stable-diffusion- img2img，

45、也可以自己上传到img2img；3.用刷子进行绘制想要修改的区域，刷完之后，重新生成。01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版33其中的一些参数：模型记得选择SDv1.5修复模型(sd-v1-5-inpainting.ckpt)。训练自己的模型？可以直接在Colab云端训练，本地也不用配置环境，训练也很快：h t t p s:/c o l a b.r e s e a r c h.g o o g l e.c o m/g i t h u b/L i n a q r u f/k o h y a-t r a i n-er/blob/main/kohya-LoRA-dream

46、booth.ipynb#scrollTo=WNn0g1pnHfk5想在本地训练：1.参考：https:/ 太容易重复；2.准备把图片制作有有固定尺寸，创建一个目录：_ 一次可以训练多个概念01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版343.开始训练、选择在colab上训练是最方便的方式，本地就省去了很多配置。以上要准备的内容简单说就是：图片、类型、唯一名字https:/ Driver中。然后自己在本地测试：prompt：a woman,hitokomoru,with a cat on her head negtive:(worst quality:2),(low qua

47、lity:2),disfigured,ugly,old,wrong finger使用自己的Lora VS 不使用Lora还有一次可以训练多个概念，把文件件组织好就行了01年度精选技术栈内容AIGC与大模型篇技术人的百宝黑皮书2023版35图片编辑 pix2pix编辑配置文件configs/instruct-pix2pix.yaml，改为如下内容：1 use_ema:true /默认为false 2 load_ema:truedenoising 改为1.0,抽样使用Euler a算法；常用参数：1.text cfg:越大代表生成的内容越接近我们的文字描述2.image cfg:越大代表越接近我们

48、的原始图片，越小代表可以越不按照原始图片生成01年度精选技术栈内容AIGC与大模型篇36技术人的百宝黑皮书2023版下面是一些常用的指令模板：1.Change the Style to(an artist or style name)2.Have her/him(doing something)3.Make her/him look like(an object or person)4.Turn the(something in the photo)into a(new object)5.Add a(object)6.Add a(object)on(something in the photo

49、)7.Replace the(object)with(another object)8.Put them in(a scene or background)9.Make it(a place,background or weather)10.Apply(a emotion or something on a person)有时候重新表达指令可以改善结果（例如，“turn him into a dog”与“make him a dog”与“as a dog”）。增加steps的值有时可以改善结果。人脸看起来奇怪？Stable Diffusion自编码器在图像中人脸较小的情况下会有问题。尝试：裁剪

50、图像，使人脸在画面中占据更大的部分。资料地址：模型下载地址：h t t p s:/h u g g i n g f a c e.c o/t i m b r o o k s/i n s t r u c t-p i x 2 p i x/r e s o l v e/-main/instruct-pix2pix-00-22000.ckpt线上体验地址：https:/huggingface.co/spaces/timbrooks/instruct-pix2pix使用脚本Stable Diffusion的webUI中默认有一些脚本，可以方便我们尝试一些不同的生成方式。01年度精选技术栈内容AIG

展开阅读全文