基于ChatGPT的AIGA多模态设计方案.pdf

资源描述

1、2 0 2 3年8期1 9 3 2 0 2 3年第4 5卷第8期基于C h a t G P T的A I G A多模态设计方案叶柯收稿时间:2 0 2 3-0 6-2 5基金项目:浙江省大学生科技创新活动计划(新苗人才计划)(2 0 2 2 R 4 0 7 A 0 0 8)作者简介:叶柯(2 0 0 2-),本科生,研究方向为计算机视觉、多模态识别。(杭州电子科技大学计算机学院杭州3 1 0 0 1 8)摘要随着人工智能技术的进步,硬件算力不断提高,大模型逐渐成为当下热门的话题和研究方向。C h a t G P T是一种基于G P T-3.5架构的先进大型语言模型,由O p e n A

2、I开发。由于现代社会的复杂性和多变性,人们需要更智能的自然语言处理技术来满足不同的需求,如自动翻译、摘要生成、问答系统等。C h a t G P T是基于大量文本数据训练而成的,无法依靠自身实现多模态。文中设计了一种A I G A方案,其利用C h a t G P T和P r o m p t工程来进行决策,并调用O p e n A I的A P I完成下游的多模态任务。关键词:C h a t G P T;O p e n A I;A I G A;P r o m p t工程;多模态中图法分类号 T P 3 9 1A I G A M u l t i m o d a lD e s i g nS c h

3、e m eB a s e do nC h a t G P TY EK e(S c h o o l o fC o m p u t e rS c i e n c e,H a n g z h o uD i a n z iU n i v e r s i t y,H a n g z h o u3 1 0 0 1 8,C h i n a)A b s t r a c t W i t h t h e a d v a n c e m e n t o f a r t i f i c i a l i n t e l l i g e n c e t e c h n o l o g ya n d t h e c o n

4、 t i n u o u s i m p r o v e m e n t o f h a r d w a r e c o m p u-t i n gp o w e r,l a r g em o d e l sh a v eg r a d u a l l yb e c o m eah o t t o p i ca n dr e s e a r c hd i r e c t i o n.C h a t G P Ti sa na d v a n c e dl a r g e-s c a l el a n g u a g em o d e l b a s e do nG P T-3.5a r c h

5、i t e c t u r e,d e v e l o p e db yO p e n A I.D u e t o t h e c o m p l e x i t ya n dv a r i a b i l i t yo fm o d e r ns o-c i e t y,p e o p l en e e ds m a r t e rn a t u r a l l a n g u a g ep r o c e s s i n gt e c h n o l o g i e st om e e td i f f e r e n tn e e d s,s u c ha sa u t o m a t

6、i ct r a n s l a-t i o n,a b s t r a c tg e n e r a t i o n,q u e s t i o na n s w e r i n gs y s t e m s,e t c.C h a t G P Ti s t r a i n e db a s e do na l a r g ea m o u n to f t e x td a t aa n dc a n n o t a c h i e v em u l t i m o d a l i t yo n i t so w n.T h i sp a p e rd e s i g n sa nA I

7、G As c h e m e,i tu s e sC h a t G P Ta n dP r o m p t e n g i n e e r i n gt om a k ed e c i s i o n s,a n dc a l l sO p e n A IsA P I t oc o m p l e t ed o w n s t r e a m m u l t i m o d a l t a s k s.K e y w o r d s C h a t G P T,O p e n A I,A I G A,P r o m p t e n g i n e e r i n g,M u l t i m

8、o d a l0 引言随着数据量的增大,预训练模型成了一个研究热点,其由大公司或机构完成一些“完形填空”任务,通过自回归等方式对大模型进行预训练,最终学习到一些通用的语言特征知识。C h a t G P T即为这样一项工作,其由O p e n A I研发,基于约1 7 5 0亿个参数G e n e r a t i v eP r e-t r a i n e dT r a n s f o r m e r(G P T)自然语言处理大模型构建,其训练数据包括互联网上的大量文本数据,如维基百科、新闻报道、电子书等,其可以利用这些数据进行无监督学习,并通过自我调整和改进来提高性能。C h a t G P

9、T的回答通常非常流畅、自然,且具有高度的相关性和准确性,是一个非常先进和高效的语言模型,但它是基于单纯的文本数据进行训练的,只能解决自然语言处理领域的一些内容,存在一定的局限性。本文设计了一种A IG e n e r a t e dC o n t e n t(A I G A)方案,可以利用C h a t-G P T为下游多模态任务进行决策。1 国内外研究综述国内外关于多模态的研究主要集中在文本和图像方面,常见的多模态任务有图像问答、图像标注、图文匹配等。在图像问答和图像标注方面,A n d e r s o n等1提出了B UT D,将VQA模型与图像标注模型相结合,并利用注意力机制,在图片中寻

10、找问题的答案。在图片匹配或视频匹配方面,R a d f o r d等2设计了开创性的跨模态预训练模型C L I P,其将大模型在图片和文字数据集上进行预训练,具备提取图片和文字的特征的能力,并理解文字和对应图片的关系,甚至可以实现在Z e r o-s h o t情境下的图文匹配。S o n g等3提出了C L I P 4 C l i p,其将图像特征拓展为视频特征,实现了文字与视频片段端到端的检索。在文本生成图像方面,H o等4提出了D D PM,相比之前的G AN系网络,其训练更加稳定可控,且生成的图像质量更高,但由于马尔可夫链的假设,导致采样次数过多,故生成效率较低。而后,S o n g等

11、41 9 4 2 0 2 3年8期提出了D D I M,其考虑了非马尔可夫链的一般情况,利用R e s p a c i n g的方法在保证采样质量的同时,大大提高了采样效率。R o m b a c h等5提出了S t a b l eD i f f u s i o n,其利用D i f f u-s i o n方式,开创了生成模型的新范式。近年来国内外有许多关于跨模态任务的研究,且都产生了可观的效果,但使用的范围比较有限。当前,更大的L a r g eL a n g u a g em o d e l(L LM)工作也在不断进行,先后产生了O p e n A I的C h a t G P T、百度的

12、文心一言等产品,但这些工作暂时还局限于语言模型,即训练使用的样本都是文本形式,虽然基本能实现文本类任务的大一统,但无法进行多模态相关任务。如何将C h a t G P T这类L LM与多模态任务相结合,是一个值得思考的问题,本文以C h a t G P T为决策中心,根据文本请求判断任务类型,而后分配给对应任务的接口,以完成对应的任务。2 方案设计2.1 A I G A思想A I G A即A I生成的动作(A IG e n e r a t e dA c t i o n),指由人工智能算法自主生成的特定动作或行为。这个概念通常出现在机器学习和人工智能领域,特别是在强化学习算法中。强化学习算法旨在

13、让人工智能系统自主学习,并能自主采取行动,以实现特定的目标。而强化学习通常是训练一个A g e n t,并在训练过程中予以奖励或惩罚,使其学习到决策中的知识。作为一个L LM,C h a t G P T具备强大的自然语言处理能力,可对大量的语言数据进行分析和学习,并从中提取出知识。这些知识可以被用来生成有意义的文本和语言表达,从而表现出类似于人类的思考和判断能力。通过与人类进行对话,C h a t G P T可以理解人类的语言输入,并产生针对特定情境的语言输出,以此实现特定的目标。本文设计将C h a t G P T作为决策中心,面对用户输入的文本,理解用户想要执行的任务,而后调用对应的任务接

14、口,使C h a t G P T发挥A I G A的作用。2.2 P r o m p t工程与模板为了给C h a t G P T赋予“决策中心”的功能,需要利用P r o m p t工程对其进行暗示。在自然语言处理领域,“P r o m p t”是一种用于引导模型生成输出的技术,它可以帮助模型生成更准确、更相关的响应。为使C h a t G P T具备决策功能,可以设计如下P r o m p t:Q:W h oa r ey o u?A:A p p l y“c h a t”m e t h o dQ:P l e a s ed r a wap i gf l y i n

15、 gi nt h e s k yf o rm eA:A p p l y“d r a w”m e t h o d这里将“A p p l y“X X X”m e t h o d”作为模板。以上P r o m p t在C h a t G P T初始化时被加入对话中,当用户发起新问题时,则会在P r o m p t后接上以下内容:Q:T e l lm e t h ep o p u l a t i o no fC h i n aA:这保证了上下文信息不会丢失。C h a t G P T在接收到新的P r o m p t时,会根据上下文信息的提示,明白自己需要在“A:”之后

16、生成对应问题的答案。由于上下文的引导,这里生成的答案将对这个问题进行方法的决策和判断。2.3 C h a t G P T输出的决策稳定性与矫正事实上,C h a t G P T的生成具有一定的随机性,根据同样的P r o m p t,常常会生成不同的结果。以上文中的P r o m p t为例,判断“T e l lm e t h ep o p u l a t i o no fC h i n a”这一问题时,可能会得到如下答案,并假设发生概率:1.A p p l y“c h a t”s t r a t e g y(0.3)2.U s e“c h a t”m e t h o d(0.3)3.B y“

17、c h a t”(0.1)4.A p p l y“c o n v e r s a t i o n”m e t h o d(0.1)5.Y o un e e dt oa p p l y“c h a t”m e t h o d(0.2)第一种,可能“S t r a t e g y”与“M e t h o d”语义相似,导致生成结果发生了变化。第二种,“U s e”和“A p p l y”同理。第三种,可能是语义相似而发生的改变。第四种,”C h a t”与“C o n v e r s a t i o n”相似可能导致变化。第五种同样为语义相近而产生的变化。这样不稳定的回

18、答是人们不希望看到的,因为这样就无法对其进行下一步的下游任务引导。人们希望C h a t G P T能够给出上文中所给模板的形式,但仅依靠P r o m p t引导其输出模板的形式仍然不太稳定。因此,需要对模板和当前输出进行匹配,在语义级别上判断当前C h a t G P T的输出表示的是哪个任务的模板,这需要对任务模板和C h a t G P T的输出进行词嵌入和相似度匹配。词嵌入是一种将文本中的单词映射到向量空间中的技术。其主要目的是将自然语言转换为计算机可处理的形式,以便进行自然语言处理和机器学习任务,如文本分类、语义分析等。本文使用基于预训练的词嵌入,可以直接调用O p e n A I

19、的E m b e d d i n g预训练模型接口,并利用已经在大规模语料库上训练好的词向量模型,这种方法可以避免在每个具体任务上重新训练词向量模型,从而提高模型的工作效率。经过E m b e d d i n g后,可以分别得到C h a t G P T回答的向量A和若干模板向量B1,B2,B3,(以有两个任务为例,则有B1,B2)。本文相似度计算采用余弦相似度,如式(1)所示:s i m i l a r i t yi=c o s(i)=ABiA|Bi|,i=1,2,(1)可以得到与C h a t G P T输出语义最相近的任务模板,即可以理解用户想要完成的任务,如式(2)所示:t a s k

20、_i d=a r g m a x(s i m i l a r i t yi),i=1,2,(2)根据t a s k的引导,选择匹配的下游任务,并根据P r o m p t的上下文(除去开头的Q和A),调用响应的任务接口,其决策流程如图1所示。例如,匹配模板后得知用户想要进行一个”C h a t”功能,则可以调用O p e n A I的“G P T 3.5-t u r b o”预训练模型,并根据上下文中的提问得到答案(此时不包括开头的Q和A,故模型的任务并非判断用户的意图,(下转第2 2 1页)移动信息2 0 2 3年8期2 2 1 混乱,加重驾驶员的视觉疲劳感,在进行比

21、例调整时,又会提高精度误差,对船舶的正常避让造成影响,这也是后续研究中需要进一步探索与解决的问题。4 结语将A I S,E C D I S应用于海上航行避碰中,可使驾驶员更好地制定避碰方案,控制因操作、其他因素而引起的船舶安全航行风险,增强船舶航行时的安全性。但结合雷达A R-P A的独特应用优势,A I S、E C D I S与雷达A R P A的联合应用,仍是当前海上航行避碰应用的主流选择,其可促进船舶航行避碰及定位的智能化,虽然在具体应用中存在一定的风险,但仍具有重要的意义。在后续的研究中,应对存在的风险进行研究,为我国船舶业数字化、智能化、安全化发展创造无限的可能。参考文献1H I R

22、 OKO Y,NO Z OM IK,T A T S UNO R IN,e ta l.D e v e l o p-m e n to f t h eE f f e c t i v eU n d e r w a t e rS p e a k e rS o u n dM o d u l a t e db yA u d i b l eS o u n dF r e q u e n c yR a n g eo fL a r g eC e t a c e a n sf o rA v o i d a n c ew i t hS h i pC o l l i s i o nJ.T r a n s N a v:I

23、n t e r n a t i o n a lJ o u r n a l o nM a r i n eN a v i g a t i o na n dS a f e t yo fS e aT r a n s p o r t a-t i o n,2 0 1 5(2):7 8 1.2张向丰,董淑娟.无线传感器网络在船舶自动避碰系统中的应用J.舰船科学技术,2 0 1 6(4):1 6 9-1 7 1.3K E L L YP.An o v e l t e c h n i q u et oi d e n t i f yA I St r a n s m i s s i o n sf r o m v e

24、s s e l s w h i c ha t t e m p tt oo b s c u r et h e i rp o s i t i o nb ys w i t c h i n gt h e i rA I St r a n s p o n d e r f r o mn o r m a l t r a n s m i tp o w-e rm o d et ol o wt r a n s m i tp o w e rm o d eJ.E x p e r tS y s t e m sW i t hA p p l i c a t i o n s,2 0 2 2(2 0 2):5 6,5 8.4管冰

25、蕾,葛泉波,段胜安,等.新型船舶智能避碰决策支持系统研究J.中国航海,2 0 1 2(3):1 6-2 2.5邢春光,王直.基于E C D I S系统和A I S系统的船舶避碰辅助决策系统的研究J.舰船科学技术,2 0 0 8(3):1 1 1-1 1 4.6贾海辞,孔凡村.船载自动识别系统(A I S)在船舶避碰系统中的应用研究J.上海海运学院学报,2 0 0 2(2):1 8-2 1.(上接第1 9 4页)而是正常的问答)。若匹配模板后得知用户想要进行一个“D r a w”功能,则可以调用O p e n A I的”D A L L E”接口,根据用户上下文的描述P r o m p t,生成相

26、应的图像,并将其返回给用户。在矫正后做出决策的方法,可以有效地理解用户的任务要求,除文本类任务和图像生成任务外,也能同理拓展更多模态任务,实现由C h a t G P T为决策中心的多模态任务大一统。图1 决策流程图3 结语本文基于C h a t G P T这一大语言模型,探索了其在A I G A方向上的能力,将其作为决策中心,根据用户意图选择合适的下游任务,将预设的下游多种模态和不同领域的任务统一起来,为实现A r t i f i c i a lG e n e r a l I n t e l l i g e n c e(A G I)提供了一种可行的思路。参考文献1AN

27、 D E R S ONP,HEX,B U EHL E RC,e ta l.B o t t o m-U pa n dT o p-D o w nA t t e n t i o n f o r I m a g eC a p t i o n i n ga n dV i s u a lQ u e s-t i o nA n s w e r i n gJ.A r X i vA B S/1 7 0 7.0 7 9 9 8.2R A D F O R D A,K I M J W,HA L L A C Y C,e ta l.L e a r n i n gT r a n s f e r a b l eV i s u

28、a lM o d e l sF r o m N a t u r a lL a n g u a g eS u p e r-v i s i o nJ.A r X i vA B S/2 1 0 3.0 0 0 2 0.3S ON GJ,ME NGC,E RMONS.D e n o i s i n gD i f f u s i o nI m p l i c i tM o d e l sJ.A r X i vA B S/2 0 1 0.0 2 5 0 2.4HOJ,J A I NA,A B B E E LP.D e n o i s i n gD i f f u s i o nP r o b a b i

29、l i s t i cM o d e l sJ.A r X i vA B S/2 0 0 6.1 1 2 3 9.5R OMB A CH R,B L A T TMANN A,L OR E N ZD,e ta l.H i g h-R e s o l u t i o nI m a g eS y n t h e s i s w i t h L a t e n tD i f f u s i o n M o d e l sC2 0 2 2I E E E/C V FC o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n(C V P R).2 0 2 1:1 0 6 7 4-1 0 6 8 5.移动信息

展开阅读全文