1、52基金课题0 引言艺术长期以来被视为仅有人类才能企及的高台,是人类的专有领域。而将人类艺术的绘画概念引入人工智能图像生成技术,是技术在艺术创作中的尝试,是科学与艺术融合的探索。所谓人工智能绘画,主要指在人工智能的帮助下创作出艺术性的数字图像。事实上,人工智能图像生成早已存在,但过去的技术仅能生成简单的低质量图像,且只有少数专业领域人员才能接触使用,大多数企业和公众并未意识到其潜力价值,也未引起社会广泛关注。然而,文本生成图像式扩散模型的诞生改变了一切。高清图像与超乎想象的画面带来了一次又一次的视觉冲击,引发了对人工智能绘画在创作表现上的多维思考。人工智能模型是否具有创作主体性及创造力,成为当
2、前面临的重要议题。1 创作主体性的变化艺术家是艺术品的生产者和创作者,是艺术创作活动的主体。在传统绘画创作中,艺术家在创作主体性上占据绝对权威。其在全部的艺术思维过程中具有独立的、不受外界干扰的选择和判断能力,能够顺应自己对艺术的独到理解,充分把控具体创作过程,尽情发挥艺术意志,最终创作出完美的艺术作品。然而,在文本生成式绘画中,操作者仅需输入文本提示,人工智能模型就能依据提示生成画作。整个创作过程中,人类对画面的掌控仅来自文本提示,且这种掌控是间接性的,是经由人工智能“理解”后实现的作品。人工智能对艺术创作的介入,人类在艺术创作中的权利让渡,引发了关于人工智能绘画创作主体性的争议。一些学者认
3、为,艺术创作主体性是指艺术家在创作过程中表达个性、情感、思想和价值观的特性,而人工智能只是一种技术工具,不能代替人类的审美和创造力。另一些学者则认为,人工智能可以模仿人类的艺术样式和法则生成具有美感的作品,从而展现出一定的艺术创作主体性。通常,创作主体性以创作中是否具有掌控力、作品是否为纯粹意志体现等为判断依据。在文本生成式人工智能绘画中,创作内容由文本提示主导,创作形式由算法实现。因此,文本提示效用在衡量创作主体上起到了关键作用。当人类提供高质量文本提示促使人工智能生成符合其意志的作品,使其成为创作想法的执行者时,人类在创作中处于主要地位。当文本提示仅为开启程序自动化的指令或保留较大的创作空
4、白时,人工智能将代替人类作出选择,成为创作主体。文本生成式绘画的创作主体性及创造力研究张笑娟(四川大学 艺术学院,四川 成都 610207)摘要:目的:人工智能相关技术的突飞猛进,大大推动了科技与艺术的交融。在绘画领域引入人工智能图像生成技术,是技术在艺术创作中的探索,是绘画界对人工智能的尝试,为绘画艺术带来了创新性和无限可能性。文本生成式高清图像与超乎想象的绘画作品给人们带来了极大的视觉冲击,引发了人们对人工智能绘画在创作表现上的多维思考。如何理解文本生成式绘画的创作主体性及创造力,成为一个重要议题。方法:为深入探讨文本生成式绘画的创作主体性及创造力,文章通过梳理文本生成式人工智能绘画的创作
5、过程,分别从人类与技术的角色、关系和作用入手,分析文本生成式绘画中的创作主体性及创造力问题,阐明文本生成式人工智能绘画创作主体性的动态变化关系,总结人类与人工智能模型在该创作中发挥创造力的衡量方式及具体途径,并引入人机协同艺术概念及特点,展望其未来。结果:通过分析,可以得知人类与技术在人工智能绘画创作中并无绝对主体性,二者的创作关系是动态变化的,创作地位视具体参与方式及程度而定,只能针对具体案例进行分析。结论:在艺术创作领域,人机协同是艺术创作未来发展的方向之一,人机协同艺术将有望引领人类迈入“全民艺术家”时代,实现艺术“民主化”。关键词:文本生成式绘画;人工智能;创作主体性;创造力;人机协同
6、艺术中图分类号:J20-05;TP18文献标识码:A文章编号:1004-9436(2024)02-0052-04基金项目:本论文为2023年度四川大学大学生创新创业训练计划项目“美术理论视域下的人工智能绘画研究以midjourney 程序为例”成果,项目编号:C202312622653第 37 卷第 2 期 2024 年 1 月Vol.37 No.2January 2024艺术科技不可否认的是,在艺术作品所承载的情感体验方面,人工智能是缺失的。算法设置是客观的,选择倾向由概率决定,不涉及主观情感。但如果把目光转移到具有人类主观意志的文本提示上时,也并不能将其与最终作品完全挂钩。作品呈现受到了人
7、工智能介入,人类无法直接将心灵体验进行视觉呈现。总体而言,人类与技术在人工智能绘画创作中并无绝对主体性,二者的创作关系是动态变化的,创作地位视具体参与方式及程度而定,只能针对具体案例进行分析。不过,参与方式的间接性并不影响人类发挥主观能动性调节创作主体的关系。最新的midjourneyV4 版本在文本生成图像的基础上推出了垫图功能(imageprompting)。人类可以在输入文本提示的同时提供基础图像,模型将结合该图像及提示内容生成作品。这种方式给予了作品一定的视觉约束,能够在很大程度上提升人类在人工智能绘画创作中的主体性及掌控力,是对作品总体方向的把控。在未来人工智能绘画的严肃应用场景下,
8、以发挥人类与人工智能各自优势为目的的创作主体调节将成为二者在具体创作方式上创新发展的重要依据。2 人工智能绘画创造力判断文本生成式人工智能绘画创作主体性的动态变化关系使其生成作品的创造力判断受到极大的挑战。传统艺术创作中,艺术家为作品所赋予的创造力似乎成了伪命题,程式化的算法运行与人类主控的让渡使人工智能绘画是否具有创造力饱受争议。普遍观点以人类艺术家创作为标准,从经历、情感、理念等方面衡量人工智能绘画创作,并判断其缺乏创造意识而属于“复制”“模仿”一类。Adobe 集团产品营销经理塔蒂亚娜梅希亚(TatianaMejia)提出:“创造力在很大程度上是人性的,人工智能无法取代创意火花。”北京大
9、学艺术学院丁宁教授指出,艺术家最敏感于自身所处的时代,现实与命运永远是其体验和思究的对象,而从人工智能绘画产品中仅能分析出程序算法的理性,也由此失去了艺术特有的感性基础1。相反,利用人工智能创作埃德蒙德贝拉米肖像的艺术团体在新闻采访中则声称,“人工智能成功地创造了艺术”“创造力不仅属于人类”。清华大学美术学院的吴琼教授也认为人工智能可以通过算法生成新的形式,并以一定程度的“独立性”完成创作2。由于文本生成式人工智能绘画的创造力判断受到人类和模型的共同影响,因此其创造力讨论可以从“人类创造力”和“人工智能模型创造力”这两个视角展开。2.1 人类创造力人工智能绘画的创作并不是仅由人工智能模型及算法
10、技术来实现的,其是人和模型共同作用的结果,最终作品的呈现由人和机器交互控制实现。因此,对于人工智能绘画创造力的分析,首先不能忽略人类创造力在作品生成中的影响。一般而言,人类创造力以三种方式发挥作用:一是模型的设计开发,如选择架构、数据、优化方法等;二是与模型交互,如提供文本提示、反馈生成作品等;三是受模型输出图像启发、反思等。三种方式对应开发人员、操作者、观众三方参与者,多数情况下,操作者与观众是同一主体。其中,操作者直接对生成作品结果产生影响。模型输入端的文本提示由操作者提供,文本描述的内容源自操作者的主观选择,但对于其是否发挥创造作用,需要针对具体过程展开分析。乔纳斯奥本兰德(JonasO
11、ppenlaender)对此提出了两种输入场景,一种为操作者随机获取文本片段用于图像生成,另一种为输入他者创作的文本。两种场景的区别在于第一种完全不包含任何主观构思,第二种则为可能受操作者误读的文本复制。乔纳斯认为,在以上两种场景中,人类不一定需要发挥想象力,与模型的互动除基础的语言辨识外,既没有技能又没有创造性,最终生成的图像只是“一个不完美的人的创造力代表”3。那么操作者发挥创造力的途径有哪些呢?具体方式共有三种。第一种为优化文本提示内容,通过发挥人类主观意志撰写描述性和富有想象力的文本提示,使用不同的词、句式和修饰,指导模型生成新颖多样的图像。对理想作品进行风格、比例定义,以及参数调整,
12、也是产生高保真图像的关键。第二种为迭代文本提示组合,即探索不同的文本样式、组合及其他可以修改或优化生成图像的提示。乔纳斯在对 midjourney社区的研究中发现,一些新手常常用较长而具体的提示试图生成惊艳的画作,但结果不尽如人意。相反,另一些人仅用简约的提示就能毫不费力地生成美丽的图像,这实际上涉及文本提示的有效性问题。输入有效提示是一种体现对训练集和神经网络潜在空间认识程度的技能。来自美国哥伦比亚大学的刘薇安(VivianLiu)和莉迪亚奇尔顿(LydiaB.Chilton)54基金课题通过实验研究,提出了一套文本提示设计指南,从不同维度考察了理想图像生成的成功模式和失败模式,并在 mid
13、journey 和 DALLE2 这两个文本生成图像式模型上进行了实践4。例如,提示应相对简短,控制在 60 个单词或 400 个字符以内;尽量使用英文字符,因为大多数模型是用英语训练的,英文字符能够提高图像与提示的一致性;遵循一定的输入模板:描述风格尺寸;使用正确的语法和清晰的语义,避免模糊和歧义等。第三种为筛选策划反馈图像。从多个输出中筛选符合预期或目的的最佳图像,或对生成图像进行编辑、修改、再生成等来表达自己的想法。在midjourney 中,系统会根据首次输入的文本提示生成4 个低分辨率图像。操作者可以使用每个图像网格下的按钮对图像进行放大、变体或重启。从作品接受角度来看,当人工智能绘
14、画作品能够引起观众的情感反应,深化人类对人工智能的认知理解,以及拓宽科学与艺术的可能性、促进相关行业产业发展、调动全民艺术参与积极性时,可以视其为对社会产生了创造力。例如,赢得科罗拉多州博览会(ColoradoStateFair)数字艺术比赛大奖的人工智能绘画作品太空歌剧院(ThtreDopraSpatial)就引起了全社会对人工智能绘画合法性及版权归属的争议探讨,并在此基础上产生了多项研究。2.2 人工智能模型创造力关于人工智能模型是否具有创造力是目前最具争议性的话题,也是一些狭隘观点下评判人工智能绘画是否具有创造力的直接依据。抛开其中的人类作用,算法模型本身是否具有创造力?如何理解和定义这
15、种有别于人类主观意识的创造?这些问题都有待思考。文本生成图像模型(Texttoimagemodel)是机器学习中一种重要的模型,以自然语言输入,并生成与文本提示相匹配的图像。不同于以往的图像生成方法GANs 和 VAEs,这些模型使用一种新兴的生成神经网络去噪扩散模型来生成图像。该模型通过逐步添加高斯噪声破坏训练数据,擦除数据中的细节,直到它变成纯噪声,然后通过训练神经网络来反向扭转这种破坏过程逐渐去噪以合成纯噪声的数据,直到重新产生干净的样本。哈佛大学卡洛斯庞塞实验室的一项研究认为,扩散模型逐渐向初始轮廓添加细节来创建图像的工作模式,实际上和画家从草图不断完善至最终成稿的作画方式十分类似5。
16、同时,在反向扩散阶段,模型通过深度神经网络学习和预测如何从损坏图像中去噪恢复先前图像的特征,并在生成阶段将训练所学规律应用到新的图像生成中,这一过程与人类视觉学习有一定的相似性。因此,去噪扩散模型所生成的图像并不是所谓的“复制”,也并不是简单地由其数据库已有图像复制拼贴重组而成,而是学习数据库图像的结构和分布特征,并根据给定条件来创作新的图像。来自牛津大学的数学家马库斯 杜 索托伊(MarcusduSautoy)在其著作创造力代码:人工智能绘画的艺术与创新一书中引用了苏塞克斯大学认知科学教授玛格丽特博登(MargaretBoden)关于创造力的三种类型的论述。他指出,创造力可以分为探索创造力(
17、Exploratorycreativity)、组合创造力(Creativityinvolvescombination)、变革创造力(Transformationalcreativity)。探索创造力指在已有基础上不断探索扩展其边界或极限,但仍然受一定的规则束缚;组合创造力指寻求多个不同事物相结合的能力;而变革创造力相较于前两种创造力而言更加神秘莫测,是能够使事物发生根本性改变的罕见本领。如同水达到沸点时突然蒸发为水蒸气一样,进入了一种全新的状态。事实证明,在人工智能绘画领域,探索创造力和组合创造力已经实现。例如,机器学习算法可以从大量数据中提取模式并进行分类、聚类等操作,建立对特定事物的“概念
18、”,从而使文本提示与生成图像相匹配,符合探索创造力的定义。同样,人工智能可以通过对不同绘画风格、类型、题材的融合生成创造性结果,发挥组合创造力。然而,人们依旧对人工智能绘画的创造力存疑,根本原因在于一般认为人工智能绘画并非全新创造,而是算法程式的运行结果,即人工智能绘画不具备变革创造力。对此,中国科学院院士张钹在清华大学美术学院“社会智慧场景创新”论坛中提出,以人工智能绘画为代表的生成艺术,其完全创新性体现于算法随机性与概率,生成的作品是独一无二的,从部件到结构都是全新的。谷歌机器智能首席科学家布莱斯阿圭拉(BlaiseAgerayArcas)则用大脑的神经路径来解释人工智能变革创造力。他认为
19、人类大脑的基本思维过程是从感知开始的,可以被基本定义为人们将周围事物转变为头脑中的概念,而创造力是这个过程的另一面,它将概念变为现实。在图像和概念55第 37 卷第 2 期 2024 年 1 月Vol.37 No.2January 2024艺术科技之间,人们的视觉皮层像一系列计算元素一样传递信息。通过程序和代码,人工智能也可以进行类似工作。不过,要想能够在艺术方面进行创作和交流,还需要进一步的能力想象力。当人工神经网络被逆转时,计算机可以基于对语言和视觉元素概念化和抽象化的理解来创造新的图像,类似于人类从生活经验中汲取灵感624-25。从创作形式中重要的算法环节来阐释人工智能绘画的变革创造力有
20、一定的合理性,但仅以技术为据实际上远离了艺术的专有属性。以人工智能工作闻名的概念艺术家安娜里德勒(AnnaRidler)反对利用这种公式化的方法来定义创造力,“它把它扁平化,认为艺术是有趣的壁纸,而不是试图表达想法和寻找真相的东西。人工智能无法处理概念:时间、记忆、思想、情感中的崩溃时刻所有这些都是真正的人类技能,它使一件艺术品成为一件艺术品,而不是视觉上看起来漂亮的东西”。博登也认为,作为创造性作品的支柱之一,作品应是有价值的。画作生成对人工智能来说是一个简单的过程,但如何进行具有艺术价值的输出是真正的挑战。人工智能是否能够认识人类品位及美学内涵,在艺术价值层面,新的、独一无二的生成作品是否
21、具有创造力,都是需要探讨的问题641-49。综上所述,人工智能绘画创作过程的多方参与及创作主体性的动态变化造就了其创造力来源是一个集合体,由人类和模型共同承担。在关键性的变革创造力判断上,须依据二者的具体参与方式及发挥的作用来衡量,须针对不同的创作环节展开特定分析,而非一概而论。3 人机协同艺术的新生以文本生成图像式人工智能绘画为代表,艺术呈现出一种全新的面貌人机协同艺术。人机协同艺术体现了人类与人工智能通过互动、沟通、协作,共同创作艺术品的过程。与人类艺术创作或机械自动化图像生成完全不同的是,在这种形式中人和机器缺一不可,人脑和机器同时发挥了各自的优势作用。人类并非机器实现其自动化的帮助者,
22、机器也并非人类使用的工具。人类和机器在创作过程中有着不同分工,如人类以逻辑、构思、审美发挥优势,机器则承担以组合、概率、作品高效率实现为主的作用。人机协作使艺术创作的效率大幅提升,人工智能可以处理大量的数据、素材、任务,节省人类的时间和精力,使人能够将注意力放在更加本质的意识探索及审美修正等方面。更重要的是,人工智能可以潜入人类难以到达的空间,发现人类难以察觉的内容。以微软的“下一个伦勃朗”项目为例,通过提取伦勃朗作品的画面特征、主题偏好、色彩组合等数据展开深入分析,算法生成了一幅全新的伦勃朗风格肖像画。或许人们会质疑再造一个“伦勃朗”的必要性,但项目的意义就在于,人工智能可以揭示人们现在认为
23、理所当然的艺术品中那些可能错过的新结构,将人类真正推向新事物。在创造力领域,人机协作为人类智慧与机器智慧充分施展提供了空间。正如马库斯所言,“人工智能在创造力方面可以发挥的作用可能是增强人类的创造力,这将是一种向前发展的合作伙伴关系,我们可以一起让事情变得比我们单独工作更有趣”。人工智能创造力的增强并不意味着人类自身创造力的停滞甚至退化,正如汽车比人类的速度更快,但人们并没有因此停止步行。技术应被视为想象力的引擎,它促使人类不得不从根本上重新思考和构建人工智能时代的艺术创作。随着艺术创作主体的变化转换、艺术创造力的重新定义,人机协同艺术必然需要构建其专有理论,解决其与传统艺术理论的关系问题,并
24、对其衍生问题作出回答,还需要得到社会与大众的接纳认可。面对目前人工智能艺术引发的恐慌与排斥,Midjourney 创始人大卫霍尔兹(DavidHolz)作出了恰到好处的比喻,“人们完全误解了人工智能是什么。他们认为它是一只会吃人的老虎,是一个危险的对手。水中也有危险,你可能会淹死,但流动河水的危险与老虎的危险截然不同。水是危险的,但你也可以在里面游泳、造船、筑坝发电。水是危险的,但它也是文明的驱动力。知道如何与水共处和工作的人类会过得更好。水没有意志,没有恶意,虽然有淹死于其中的可能,但这并不意味着我们应该禁止水。当你发现新的水源时,这真是一件好事”。自工业时代以来,每一项新技术的出现都引发了
25、恐惧与接受的循环,而此刻的人工智能绘画也面临同样的处境。人工智能的巨大优势并不可怕,人类必须思考如何与人工智能协作甚至共生。4 结语纵观历史长河,技术的变革对艺术生产和接受都产生了巨大的影响。从传统艺术到当代艺术的演进,实则就是艺术民主化路径的生动体现。机械复制技术的来临使艺术的形式、内容、功能从单一走向多元,艺术创作、艺术接受和艺术评论从少(下转第 84 页)84艺术研究辅音有分塞音/pb/、/kg/、/td/,擦音/sz/、/fv/等,硬腭鼻音,边通音/l/,颤音/r/,以及半元音/j/。在法语中,一些音符和字母同时使用时会有不同表示的发音,如“”长音符,常用于省掉某一字母的单词;“”闭音
26、符,表示字母“e”为闭音口;“”开音符,表示“e”为开音口。辅音字母“h”在任何时候都不发音,但作为单词开头时要分为“哑音”和“嘘音”。演唱听铃声响得多美妙时要注意“h”通常发“l”,法语的一些元音不如意大利语的元音好发声,所以演唱时须更加注意发音并将其唱饱满,发音时利用好唇、齿、牙、舌,以便于气流的运动。辅音不能太过刻板生硬,否则会影响元音的发出,应轻松准确地将辅音发出,为元音作准备。学习演唱听铃声响得多美妙前,朗读歌词时应当注重语感,感受这首歌曲所要表达的情感和描述的意境,要将每个单词的元音读饱满。演唱时要注意对唇齿牙舌的运用,有力量但不用劲,舌头自然平放在下牙龈上,气息与其配合好,在口腔
27、发出共鸣。每一个单词的口腔开合度都不一样,只有找准咬字的位置,稳定吐气的地方,再与腔体配合好,熟能生巧、勤能补拙,才能将作品演绎好。3.3 作品情感表达对于相同的作品,不同的演唱者会有不同的情感表达。听铃声响得多美妙展示出卡门的放荡不羁、热爱自由,也体现出吉卜赛人的热情奔放。通过了解及演唱作品,能感受到卡门的能歌善舞、风情万种,以及不甘于被现实打败、追求自由的豪迈。作品的钢琴伴奏和人声旋律从开头由弱逐渐增强,由中慢板的小行板逐渐演变为急板,在三段的演唱中一段比一段情绪高涨,直至结尾,使音乐得到升华。演唱者在演唱每段“tralalala”前的两个乐句时力度都要逐渐加大,为每一段的情绪变化作铺垫,
28、也为卡门最后的放开自我、融入歌舞当中奠定基础。4 结语文章通过对听铃声响得多美妙这首咏叹调的研究,明晰了该首咏叹调的“弗拉明戈”舞曲特色,通过音乐和演唱技巧分析,深刻了解了听铃声响得多美妙的内涵和情感,由此体会到卡门的魅力,真正感受到吉卜赛人的热情奔放,以及女主人公卡门对自由的渴望。受篇幅限制,对听铃声响得多美妙的分析尚不足以为其他演唱者完美演绎此作品提供参考,未来还需不断储备专业知识和积累实际演唱经验,以更好地把握这首咏叹调。参考文献:1 田婧.卡门三首咏叹调演唱版本之研究D.济南:山东师范大学,2008.2 侯轶男.不朽的卡门:从梅里美到比才不同版本研习卡门的塑造 D.北京:首都师范大学,
29、2006.3 潘娜.浅析卡门咏叹调听铃声响得多美妙 J.黄河之声,2015(13):62-63.4 李欢.赏析乔治比才歌剧:卡门 J.北方文学,2012(7):57.作者简介:罗平平(1999),女,贵州黔南人,硕士在读,研究方向:音乐表演。(上接第 55 页)数精英特权垄断转向成为民主化、大众化的实践,艺术创作成果由全民共享。科技的快速发展也为艺术实践孕育了更多新兴场域,使审美取向表达更加多元化和个性化。19 世纪,摄影技术的兴起使摄影师能够被视为艺术家。而今天,人工智能的进步有望引领人类迈入“全民艺术家”时代,引领艺术“民主化”进程。艺术将不再是人类的专有领域,而是能够实现人与机器协作共享
30、,创造力也将朝着全新的方向发展。人机协同将成为未来艺术发展的一大重要趋势,人工智能对艺术领域的涉足或许会与摄影一样,成为众多艺术形式中一个全新的分支。参考文献:1 丁宁.凝视过去、现在与未来J.美术,2019(9):44-45.2 李杰,李叶.吴琼:人机智能深度协同是人工智能时代设计的重要特征 EB/OL.清华大学美术学院,(2021-11-15)2023-10-27.https:/ 乔纳斯奥本兰德.文本到图像生成的创造力J.康奈尔大学组建论文检索数据库,2022(10):6-7.4 刘薇薇,莉迪亚.提示工程文本到图像生成模型的设计指南 J.康奈尔大学组建论文检索数据库,2021(9):2-3.5 王斌旭,约翰瓦斯托拉.扩散模型像画家一样生成图像:先轮廓后细节的分析理论J.康奈尔大学组建论文检索数据库,2023(3):1-2.6 库尔特.人工智能中的艺术创造力D.荷兰:拉德堡德大学,2018:24-25,41-49.作者简介:张笑娟(2002),女,云南昆明人,本科在读,研究方向:美术理论。