1、C o m m u n i c a t i o n&I n f o r m a t i o n T e c h n o l o g y N o.4.2 0 2 3通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)基于A I 制图的数据集制作方法及可行性论证朱莉,汉易鑫,袁利强,王猛东北林业大学机电工程学院,哈尔滨,1 5 0 0 4 0摘 要:为了解决传统数据集采集困难、部分数据对环境要求高等问题,提出一种基于A I 制图的图像数据集扩展方法并通过实验证明其可行性。验证实验以改进后的残差网络(r e s i d u a l n e t w o r k,R e s N e t)为基础
2、,采用等间距学习率调整法实现模型优化,同时使用原数据集进行对照实验。实验结果表明:利用A I 生成图像作为数据集的方法是具备可行性的,该方法准确率相较于样本较少的数据集提高了9.3 与作为对照的原数据集训练的模型相比提高了7.8?关键词:A I 制图;残差网络;卷积神经网络;数据增广中图分类号:T P 3 9 1.4文献标识码:A文章编号:1 6 7 2-0 1 6 4(2 0 2 3)0 4-0 0 8 7-0 61 引言人们在现在的生产生活中时常会用到机器学习方法来解决遇到的问题,人工智能(A r t i f i c i a l I n t e l l i g e n c e,A I)逐步
3、成为近几年来人们乐此不疲的话题。深度学习作为机器学习学科中的一个重要分支,其通过运用具有复杂结构的多层神经网络对现有数据集的特征进行非线性变换来实现对特定问题的建模。随着计算机算力的提高,近年来深度学习在各方面被广泛应用,诸如图像识别、目标检测等任务方面更是有了长足的发展凹,但是其对数据集的严格要求仍然极大地束缚与限制着深度学习的应用与发展。在实际应用中,若使深度学习网络得到更好的效果,需要在训练模型时尽可能使用更多、更精确的数据进行训练,但在采集相应数据集时常会受到环境等因素的制约,具体因素如下:一方面很多数据集采集成本高,耗时长,受到时间与环境限制过大,且对某些特定现场要求比较严格;另一方
4、面部分数据集涉及隐私及版权,在使用方面会有限制。根据以上背景,提出一种数据集拓展的方法用来更好更精确地建立模型并将其应用在实际生产任务中是十分有必要且迫切的。传统方法是使用图像增广对图像数据集进行拓展。图像增广能够通过对图像的拉伸、变形、反转、改变色调等手段,对训练图像进行一系列变化后生成细节不同的图像,对原图像数据集进行进一步扩充,在改变样本的同时减少模型对某些属性的依赖,以此提高模型的泛化能力2 1。王奕鹏3 等人使用数据增广与迁移学习实现了海参养殖水质氨氮软测量,杨炳新4 等人在抑郁症识别方面通过数据增广与模型集成策略取得了很大进展,陈悦5 等人将数据增广运用到C N N 网络用于地震数
5、据重建。图像增广作为拓展数据集的传统手段具有适用范围广、应用场合较多的优势,但是其局限性也很明显,该方法生成的图片一般相似度较高且在部分使用场合具有限制,例如在对颜色要求较高的场合无法使用数据增广对图片的亮度、对比度、饱和度与色调进行调整。目前已有研究人员着手寻找更精巧的数据集拓展方法。M a r y a mR a h n e m o o n f a r 与C l a y S h e p p a r d 等人在使用深度学习模型计算小番茄数量时通过手绘像素色块作为图像数据集,该方法适用于颜色差别较为明显的场景;吴昊等人在进行棋盘角点检测与图像超分辨两种图像处理任务时提出通过计算机合理生成合成训练
6、集完全取代实际数据集的方式来训练网络,目前该方法仍存在不确定性,需要更进一步的研究;薛振峰图尝试使用合成数据集对岩渣分析使其接近现实数据;尼日利亚数据科学公司研究人员也曾通过人工智能算法尝试生成非洲流行服饰作为数据集。针对如何拓展数据集,提出一种基于A I 制图的建立数据集的思路方法建立赛博数据集(C y b e r D a t a s e t),将赛博数据集定义推广至更深的层面,并通过实验对该方法进行可行性验证。建立赛博数据集不完全使用实际数据集,其部分数据为基于计算机程序根据要求生成相应图片,通过A I 制图所生成的图片扩大数据集规模,以此来避免复杂环境下数据集不易采集的问题,并通过高分辨
7、率的A I 图片进一步提高模型的精确度。收稿日期:2 0 2 3 年4 月6 日;修回日期:2 0 2 3 年6 月1 3 日8 7通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)2 赛博数据集2.1 背景与原理A I 制图是一种计算机生成绘画的方式,其原理是通过人工智能算法来创作绘画。虽然其概念早在几年前便被提及,但是其真正得到大规模应用始于2 0 2 2 年,之后随着模型的不断更新其绘制效果也在持续提升。A I 制图本质是通过大量图片数据使用智能算法按照使用者要求按照标签(t a g)进行重组变换,组成新的图片。A I 中大部分模型使用文本生成图片一般都是基于O p e n
8、A I 提出的C L I P,该方法大多基于d i f f u s i o n m o d e l 模型来尝试对图像进行生成与修改润色。其中,C L I P 是学习任意给定的图像和标题(c a p t i o n)之间的相关程度,其原理是计算图像和标题各自e m b e d d i n g 之后的高维数学向量的余弦相似度(c o s i n e s i m i l a r i t y)1 0。目前A I 绘画制图多用于人像、动漫图像绘制。随着模型不断更迭,该方法对于物品绘制的精确度也在不断提升,且目前可以使用图片生成图片等方式形成类似数据,不同于以往文字生成图片,该方法可以更准确地得到用户想要
9、的图片数据。2.2 定义、优势及限制赛博(C y b e r),原意为舵手,在现代词义中代表电脑仿生、人工智能。文中所提出的建立数据集的方式需要借助人工智能思想,故使用赛博一词为该方法命名,其具体定义如下。赛博数据集是不完全使用实际数据集,而是基于计算机程序根据生产生活需求生成相应图片所制成的数据集。除图像数据集外,赛博数据集定义也可以引申至其他类型的数据集,即所有非实物的通过人工制作或程序生成的数据集均可归为赛博数据集。赛博数据集最大的优势是可以通过A I 制图生成图片扩大已有的数据集规模,以此来避免复杂环境下数据集不易采集的问题。相较于实际拍摄而言,A I 制图具有更加便捷,生成速度更快,
10、且不需要到现场便可得到相似现实样本的优势,更有甚者其可以对现实中不存在的事物进行绘制。与图像增广相比,赛博数据集不只对原图本身进行变形与调色,而是通过标签生成全新的形态结构不同的图像,能够有效地增加数据集内部图像的区分度,提高所训练模型的泛化能力。同时赛博数据集可以根据用户的设置自由选择生成图像的分辨率,通过高分辨率的A I 图片进一步提高模型的精确度。其简洁易上手的操作也使其具备推广的条件,用户只需通过个人电脑便可以得到自己所需求的图片用来制作数据集。不置可否,虽然赛博数据集有着传统的图像增广所没有的优势,但是在使用场景方面仍然存在限制与局限性。例如,在使用图生图方式对已有图像数据集进行拓展
11、时,由于其生成图像中物品的形态特征与原物品相似,需要对图像进行多次迭代与使用更细致的标签对其进行改善;对于没有原图像集的文字生成图片方式,需要对所生成的图片进行细致描述才能够生成符合要求的图像,同时也需要对模型进行更加精准的训练,2.3 采集方法与过程在程序界面,通过S t a b l e D i f f u s i o n 选择已经训练好的模型进行图像生成。程序提供多种图片生成方式,包括通过文本生成图片、通过已有图片生成类似图片等等。如果用户有指定需求或者想对图片内容、分辨率、色调等进行自主修改,可以通过在提示词一栏自行输入相应标签,以此来进行画面控制。图1 分别是最常见的文生图与图生图示例
12、。文本生成图片的方式需使用不同标签对所需图像进行精确描述,适用于对于样本变化较大的场景;图片生成图片中所得的图像中物体总体框架类似原图,若想增大与原图差异,可以通过不断更迭继续使用图生图的方式,使模型的泛化能力得到进一步的提高。将生成的图像混入原数据集或单独将虚拟图像制作为一个数据集即可得到所需求的赛博数据集。o n t图1 制图示例,分别通过文生图与图生图生成猫图片下面是对赛博数据集的可行性实验验证。实验采用改进的R e s N e t 1 8 卷积神经网络对C I F A R-1 0 的d e m o 数据集进行图像识别分类,并通过生成赛博数据集对实验结果进行处理,观察是否能够对实验结果进
13、行进一步优化。若赛博数据集对实验结果有提升则可以证明赛博数据集可以作为真实数据集的拓展在实际应用中使用。3 实验数据与处理3.1 实验数据采用数据集为C I F A R-1 0 的d e m o。C I F A R-1 0 在深度学习领域与计算机视觉领域中具有重要地位,是物体识别与深度学习的经典数据集,内含1 0 种物品图像。在实验中随机选取其中1 0 0 0 张图像,每类物品图像数量在8 0 1 2 0 张不等。图2所示为部分图片。图2 C I F A R-1 0 数据集部分图片展示,从左至右依次为t r u e k、s h i p、a u t o m o b i l e、a i r p l
14、 a n e 类别8 8人工智能基于A l 制图的数据集制作方法及可行性论证使用网站N o v e l A I 进行A I 制图。实验采用S t a b l eD i f f u s i o n 中已经经过训练的大小为7 g 的l a t e s t 模型,采用文生图方式进行图像生成。下面图3 是部分A I 制图图片示例。生成图片默认分辨率为5 1 2*5 1 2 像素。R e L u批量规范化层3 3 卷积层R e L U批量规范化层3 3 卷积层1 1 卷积层图3 A I 制图数据集部分图片展示,从左至右依次为t r u c k、s h i p、a u t o m o b i l e、a
15、i r p l a n e 类别3.2 数据处理采用数据集所生成图片尺寸与原尺寸不同,为便于卷积神经网络对图片及逆行学习,特采用数据增广处理,将所有图片尺寸调整为4 0*4 0 像素。A I 制图方面选取采样迭代步数为2 0,使用E u l e r a 采样方式进行处理,提示词相关性为7,无额外参数。3.3 实验环境实验环境为W i n d o w 1 1 操作系统,显存大小为1 6 G,G P U为N V I D A G e F o r c e R T X 3 0 7 0,处理器为A M D R y z e n 75 8 0 0 H w i t h R a d e o n G r a p h
16、 i c s。采用j u p y t e r n o t e b o o k 进行训练学习,编程语言为p y t h o n 3.8。4 实验方法4.1 经典R e s N e t 1 8 基本网络图4 为经典R e s N e t 1 8 网络结构。R e s N e t 1 8 网络同其他残差网络一样,尽可能地将原始函数作为每一附加层的元素之一进行考虑,在进行深度学习时让原始函数占据更大的比重。R e s N e t 1 8 分为卷积层、降采样层、池化层与全连接层四大结构,排列整齐且结构尽可能在完整的同时保持简化。实验使用4 个由残差块(r e s i d u a l b l o c k)
17、组成的模块,每个模块均使用输入输出通道数相同的残差块,且均在第一个模块的基础上将上一模块通道数翻倍,高宽减半。使用此法构成的R e s N e t 1 8 结构简单,训练方便,且对有效信息提取的能力很强。图4 R e s N e t 1 8 结构图5 包含1 1 卷积层的残差块图5 是包含1 1 卷积层的R e s N e t 1 8 残差块的基本结构图。残差块的输入分为两部分,一部分通过单独一个跨层数据通路直接输入到下面的激活函数前,若想改变直接输入的通道数,则需在跨层数据通路中加入额外1 1 卷积层实现形状变换;另一部分则经过卷积层处理并向下输出。实验中的R e s N e t 1 8 模
18、型沿用了V G G 网络中完整的3 3 卷积层设计,将两个输出相同的3 3 卷积层作为一个残差块,并在每个卷积层后里连接一个批量规范层与R e L U 激活函数。最后将通过卷积层处理过的数据与第一部分通过跨层数据通路跳过卷积处理的数据合并,直接将输出加载至最后的激活函数之前。从图5 可以看出R e s N e t 1 8 网络基本结构,以下是其数学表达方式。对残差基本网络进行如下定义:y t=h(x j)+F(x,w?)(1)x i+1 =f(y i)(2)其中x?是第1 个残差单元的输入,w?=W x|1 k K 是第1 个残差单元的系列权重,F 表示残差单元的计算过程,取h(x i)=x?
19、代表1 1 卷积层通路,f 表示R e L U 激活函数,在此对于激活函数不进行过多考虑以简化问题。现令x i+1=f(y i)=y,对任意L 有:X+1=x?+F(x j,w)x=x+m a m)=o+F)()(3)由此可知,在反向传播时,有:L-1d ed a x.a ea=1+;F(x j,w:)(5)a x0 x z d xa x za x.由式(5)可以看出残差网络的优势所在。浅层信息在残差网络前向传播中被直接传递加载,同时在反向传播时也因此不会轻易出现梯度消失,这一点有效地保证了残差网络对信息的提取能力与所提取信息的有效性。4.2 改进模型设计(1)迁移学习实验使用1 0 0 0
20、张图片作为数据集,该类小样本数据集在训练中有时会出现数据内容丰富度不足、泛化能力有待改进、模型训练不完善等问题,为尽可能减少小样本数据集所带来的影响,需要使用迁移学习来对模型进行优化。在卷积神经网络中,迁移学习可以将其他网络在数据丰8 9通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)富、时间成本高等情况下学习到的数据迁移应用到其他数据集上。使用加载的预训练模型为I m a g e N e t 数据集上学习到的数据权重,该数据集数据十分丰富,且充分考虑了不同物体间的特征。训练模型时使用迁移学习也能够有效减少训练时间。在一般训练模型时常常会对初始参数随机化,利用随机梯度下降法(s
21、t o c h a s t i c g r a d i e n t d e s c e n t,S G D)优化算法对参数不断更新迭代进行优化来达到最好的提取特征效果,也能够迁移学习后直接引用预训练模型上学习到的参数权重,大大节约了时间成本与训练成本。(2)等间隔学习率调整如图6 所示,在训练网络的过程中会用到学习率(l e a r n i n g r a t e,I r),在传统训练网络过程中常常将学习率设置为固定参数,虽然固定参数的学习率在前期能够有效且更快速地优化网络模型,节约优化时间,但是在训练后期中过大的学习率也会导致权重更新动作过大,使得模型损失率上升,跳动过大、不够准确以至于容易
22、错过最佳优化点。理想情况下实验一般在前期使用大学习率,在后期使用小学习率进行训练。为了避免这种情况出现,在训练过程中可以对学习率进行调整,目前最常见的有三种学习率调整策略,分别是有序调整、自适应调整与自定义调整。实验中拟采用有序调整学习率策略中的等间隔调整(S t e p L R),即在固定的间隔数将学习率调整为I r g a m m a。实验中采用等间隔学习率调整,在保证能够尽快优化模型的同时减少损失值,让算法能够更快地进行收敛。学弹-I rS t e p L R训练次数图6 不同学习率变化4.3 实验设计使用C I F A R-1 0 数据集里面中的1 0 0 0 张图片,另取5 张作为测
23、试集,1 0 0 0 张作为总训练集,训练网络使用改进后的R e s N e t 1 8 网络模型。如图7 所示,实验分为三组,第一组使用总训练集中8 0 0张图片作为训练集进行训练,第二组使用8 0 0 张图片与A I 所生成的2 0 0 张图片作为训练集进行训练,第三组使用总训练集1 0 0 0 张图片进行训练作为与第二组成果的对比。其中每一组训练集中将随机选择1 0?图片作为验证集(验证训练效果的图片),剩余部分作为训练集(真正用来训练模型的图片)。实验中验证集准确率将作为评判实验结果的一个重要依据。训练集C I F A R-1 08 0 0A l2 0 0C I F A R-1 08
24、0 0C I F A R-1 02 0 0C I F A R-1 08 0 0测试集C I F A R-1 05图7 实验设计图示为了避免生成图片数量与对比图片数量不同所导致实验误差,在A I 生成图片前将对总训练集按标签进行分类处理,根据标签数量生成相应数量的图片进行实验。5 实验结果与分析为了更好地进行实验对比,三组实验均采用等间隔学习率调整,设定初始学习率l r=0.0 0 0 3,每四个周期学习率乘以0.9,数据集批量大小设置为3 2,为了简化实验每组均运行4 0 个周期。为了尽量减少误差对实验结果产生的影响,此次实验采用重复五次并取实验结果加权平均值的方法来尽量规避误差影响,5.1
25、实验评价标准实验通过训练好的模型对验证集分类的准确率作为模型评价的标准。R.M=:1 0 0%A其中M 表示分类准确度,R 表示验证集分类正确的数量,A 表示验证集全部的数量。5.2 实验结果第一组使用8 0 0 张C I F A R-1 0 图片进行训练,第二组使用8 0 0 张C I F A R-1 0 图片与2 0 0 张A I 合成图片结合进行训练,第三组使用1 0 0 0 张C A F A R-1 0 张与第二组形成对照实验,分别依次称这三组实验为L-8 0 0、L-1 0 0 0、L-1 0 0 0(对照)。实验结果如图8 所示。由表1 可知,L-1 0 0 0 实验组的训练准确率
26、与验证准确率相较于L-8 0 0 均有提升,验证准确率提高了9.3 说明更丰富的数据集能够有效提升网络模型准确度。由对照实验可以看出A I 生成图片训练模型相较原数据图片准确率更高,约高7.8 可以证明由A I 生成的图片可以代替原数据集图片进行模型训练,进一步说明了赛博数据集具有可行性。训练速度方面三组实验均相差不大,该速度一定程度受计算机元件等影响,不影响实际使用体验。表1 不同组别对比实验组别L-8 0 0L-1 0 0 0L-1 0 0 0(对照)训练准确率/验证准确率/%9 5.74 3.89 7.15 3.19 6.24 5.3训练速度(e x a m p l e/s)9 5 6.
27、69 0 8.31 0 5 0.6A I 制图准确率比原数据集更高,其中一个原因是A I 制图能够按照使用者要求生成更多样的样本图片(例如生成不同颜色的物品),并添加更多细节。大部分A I 制图在主体画9 0(6)人工智能基于A l 制图的数据集制作方法及可行性论证2.5 12.01.5 t r a i n l o s-t r a i n a c cy a i d a g1.00.50.0 11 02 03 0o4 0t r a i n l o s s2.0-t r a i n a cv a l i d a c c1.51.00.5m y0.0 11 02 03 04 0e o n e2.5
28、12.01.51 00.50.0t r a i n l o s s-t r a i n a c v a i d a c1 02 0 3 0 4 0e p o c h图8 实验数据示例,从左至右依次为L-8 0 0、L-1 0 0 0、L-1 0 0 0(对比)面可以重点突出所要识别训练的物体,所以样本质量对比原数据集来说更高,同时生成图片中可以自行更改部分特征,提高模型的泛化能力,训练模型的准确率也更高。实验还探究了有序调整学习率与固定学习率之间的差别,以L-1 0 0 0组为基础,使用固定学习率l r =0.0 0 0 3 与等间隔调整学习率S t e p L R=0.9(s t e p _
29、 s i z e =4,即经过四个周期学习证模型进行快速收敛的同时进一步降低了模型的损失值,使训练集准确率与验证集准确率分别上升了1.4?9.3?同时实验还对学习率调整策略进行探究,发现使用S t e p L R 学习率优于固定学习率,能够更好地兼顾速度与准确率。经过实验发现,采用赛博数据集由于其能够自行添加更多特征的特性,准确率相较具有一定程度的提升,也证明了该方法具有一定先进性。率变为原来的0.9 倍)进行实验并比较不同学习率情况下的验证集准确率,结果如表2 所示。表2 不同学习率对模型训练的影响参考文献类别学习率训练集准确率/%验证集准确率/%L r 0.0 0 0 39 2.54 8.
30、4S t e p L R 1 曾子力.深度学习在计算机视觉领域的应用进展 J .计算机产品与流通,2 0 2 0(0 1):2 3 0.0.99 7.15 3.1可以看出,使用了等间隔学习率调整对于模型训练具有有效效果,训练集准确率提升了4.6 验证集准确率提升了 2 朱莉,宋绪秋,邢鑫,殷鑫,郭骐瑞.基于改进R e s N e t 3 4 网络的树种识别研究 J .国外电子测量技术,2 0 2 2,4 1(0 7):1 1 9-1 2 5.4.7?3 王奕鹏.基于数据增广和迁移学习的海参养殖水质氨氮软测量 D .辽宁大连:大连海洋大学,2 0 2 2.t r a i n l a s st r
31、 a i n l o s s2.0-t r a i n a c2.0t r a i n a c cv a l i d a c cv a l i d a c c1.51 54 杨炳新,郭艳蓉,郝世杰,洪日昌.基于数据增广和模型集成策略的图神经网络在抑郁症识别上的应用 J .计算机科学,2 0 2 2,4 9(0 7):5 7-6 3.5 陈锐,王琴.基于数据增广的C N N 用于地震数据重建 J .工程地球物理学报,2 0 2 1,1 8(0 4):4 7 1-4 7 8.1.01.00.50.50.00.0 11 02 03 04 01 02 03 04 0e p o c he p a c h
32、图9 不同学习率对训练模型的影响,从左至右依次为I r、S t e p L R 6 M a r y a m R a h n e m o o n f a r,C l a y S h e p p a r d.D e e p C o u n t:F r u i tC o u n t i n g B a s e d o n D e e p S i m u l a t e d L e a r m n i n g J .S e n s o r s,2 0 1 7,1 7(4).7 吴昊.基于合成数据集的图像处理深度学习方法研究 D .甘肃兰州:兰州大学,2 0 2 1.图9 是两次实验示例,可以看出在后期
33、使用固定学习率曲线动荡剧烈,有较为明显的损失值,而采用等间隔调整的实验组收敛更快,优化效果更佳。故实验采用等间隔调整法能够让模型更快更好地进行优化。8 薛振锋.合成数据集的生成与优化方法及其在岩渣分析中的应用 D .浙江:浙江大学,2 0 2 1.6 结论9 程学旗,陈薇.人工智能合成数据 J .中国科学基为了更好地解决训练模型时数据集采集困难以及采集数据集环境等要求严苛的问题,提出一种通过虚拟数据构成数据集的方法并加以定义。金,2 0 2 2,3 6(0 3):4 4 2-4 4 4+4 4 6.1 0 R a m e s h A,D h a r i w a l P,N i c h o l
34、A,e t a l.H i e r a r c h i c a lT e x t-C o n d i t i o n a l I m a g e G e n e r a t i o n w i t h C L I P L a t e n t s J .2 0 2 2.通过实验来验证了赛博数据集在显示应用中效果较为理想,在数据集采集、模型优化等方面能够提供更符合质量的、更高质量的数据,提供了一种全新的采集思路,具有一定的应用价值与参考意义。同时说明该数据集采集方式能够很好地融入现有的训练体系中。作者简介朱莉(1 9 7 2 一),博士,副教授,主要研究方向为控制理论与控制工程。汉易鑫(1 9 9
35、 9 一),硕士研究生,主要研究方向为深度学习。袁利强,硕士研究生,主要研究方向为深度学习。王猛,硕士研究生,主要研究方向为强化学习。通过残差网络,更好的通过通路传递梯度信息进行模型优化,又使用等间隔学习率调整逐步降低模型学习率,在保(下转第1 0 7 页)9 1人工智能人工智能大模型在数字文旅行业中的应用与探索参考文献 1 程显毅,谢璐,朱建新,胡彬,施住.生成对抗网络G A N 综述 J .计算机科学,2 0 1 9,4 6(3):7 4-8 1.2 孙全,曾晓勤.基于生成对抗网络的图像修复 J .计算机科学,2 0 1 8,4 5(1 2):2 2 9-2 3 4+2 6 1.3 赵红勋
36、,郭锦涛,李孝祥.人工智能时代人机关系的变革逻辑一一基于C h a t G P T 应用的学术考察 J .中国传媒科技,2 0 2 3,(2):1 3-1 8.4 黄楚新,陈伊高.C h a t G P T:开启通用型人工智能的数字交往 J .中国传媒科技,2 0 2 3,(2):1 5 9-1 6 0.5 C h a t G P T 破局,下一代搜索引擎不再是谷歌、百度?J .上海广播电视研究,2 0 2 3,(1):8-1 0.作者简介胡章元,工程师,主要从事项目管理及数字化系统设计工作。A p p l i c a t i o n a n d e x p l o r a t i o n o
37、 f a r t i f i c i a l i n t e l l i g e n c e b i g m o d e l i n t h e d i g i t a lc u l t u r e a n d t o u r i s m i n d u s t r yH U Z h a n g y u a nC h i n a I n f o r m a t i o n C o n s u l t i n g&D e s i g n i n g I n s t i t u t e,N a n j i n g 2 1 0 0 1 9,C h i n aA b s t r a c t:W i t
38、 h t h e c o n t i n u o u s d e v e l o p m e n t o f d i g i t a l t e c h n o l o g y,d i g i t a l c u l t u r a l t o u r i s m h a s b e c o m e a n i m p o r t a n td e v e l o p m e n t d i r e c t i o n i n t h e t o u r i s m i n d u s t r y.I n d i g i t a l c u l t u r a l t o u r i s m,
39、i n t e l l i g e n t q u e s t i o n a n s w e r i n g s y s t e m s a n d t e x t g e n e r a t i o ni m a g e s y s t e m s b a s e d o n a r t i f i c i a l i n t e l l i g e n c e m o d e l s c a n h e l p t o u r i s t s m o r e c o n v e n i e n t l y o b t a i n r e l e v a n t i n f o r m a
40、 t i o n a n d p r o v i d ep e r s o n a l i z e d s e r v i c e e x p e r i e n c e s.T h i s a r t i c l e a n a l y z e s t h e a p p l i c a t i o n o f a r t i f i c i a l i n t e l l i g e n c e m o d e l s i n d i g i t a l c u l t u r e a n d t o u r i s m,a n d e x p l o r e s t h e i r r
41、o l e i n i m p r o v i n g t o u r i s m e x p e r i e n c e a n d p r o m o t i n g t h e d i g i t a l u p g r a d i n g o f t h e t o u r i s m i n d u s t r y.K e y w o r d s:C h a t G P T,T e x t g e n e r a t e d i m a g e s,D i g i t a l c u l t u r a l t o u r i s m,P e r s o n a l i z e d
42、s e r v i c e s(上接第9 1 页)D a t a s e t p r o d u c t i o n m e t h o d a n d f e a s i b i l i t y d e m o n s t r a t i o n b a s e d o n A I p a i n t i n gZ H U L i,H A N Y i x i n,Y U A N L i q i a n g,W A N G M e n gC o l l e g e o f M e c h a n i c a l a n d E l e c t r i c a l E n g i n e e r
43、 i n g,N o r t h e a s t F o r e s t r y U n i v e r s i t y,H a r b i n 1 5 0 0 4 0,C h i n aA b s t r a c t:I n o r d e r t o s o l v e t h e p r o b l e m s o f t r a d i t i o n a l d a t a c o l l e c t i o n d i f f i c u l t i e s a n d h i g h e n v i r o n m e n t a l r e q u i r e m e n t
44、s f o r s o m ed a t a,p r o p o s e s a n i m a g e d a t a s e t e x p a n s i o n m e t h o d b a s e d o n A I m a p p i n g a n d p r o v e s i t s f e a s i b i l i t y t h r o u g h e x p e r i m e n t s.T h ev e r i f i c a t i o n e x p e r i m e n t w a s b a s e d o n t h e m o d i f i e
45、d r e s i d u a l n e t w o r k (R e s N e t),a n d t h e e q u i d i s t a n t l e a r n i n g r a t e a d j u s t m e n t m e t h o dw a s u s e d t o o p t i m i z e t h e m o d e l,w h i l e t h e o r i g i n a l d a t a s e t w a s u s e d f o r t h e c o n t r o l e x p e r i m e n t.T h e e x
46、 p e r i m e n t a l r e s u l t s s h o w t h a tt h e m e t h o d u s i n g A I t o g e n e r a t e i m a g e s a s a d a t a s e t i s f e a s i b l e.T h e a c c u r a c y o f t h i s m e t h o d i s i m p r o v e d b y 9.3 o m p a r e d w i t h t h ed a t a s e t w i t h f e w e r s a m p l e s,a n d b y 7.8 o m p a r e d w i t h t h e m o d e l t r a i n e d w i t h t h e o r i g i n a l d a t a s e t a s t h e c o n t r o l.K e y w o r d s:A I p a i n t i n g,R e s N e t,C o n v o l u t i o n a l n e u r a l n e t w o r k,D a t a a u g m e n t a t i o n1 0 7