“我上我也行——吗?”
AI作画早就不是什么新鲜事。
从几年前开始,每隔一段时间就会有一个新的“自动作画AI”跳出来,凭借精心调试的案例吸足眼球。但到了大多数人手里,却又只能画出仿佛脱胎于克苏鲁神话的诡异产物,好奇心的热乎劲冷却后就被快速淡忘。
两款能将简单图案复杂化的AI,仍然存在不少局限
直到最近,一批风格独特的画作开始在网上流行。天马行空的构图、丰富的细节加上风格统一的笔触无不彰显着作者的艺术审美,只不过它们是出自AI之手。
作者:Aetherial
作者:Binx.ly
但在精致的画面背后,最让人吃惊的还是这些AI的画图方式:直接描述想象中画面,它就能生成对应图像,就像能听懂人类的自然语言一样。一个“用嘴画图”的时代,仿佛已经悄然即将来临。
1
早在一年前,一个名叫wombo的AI绘图程序就已经引发过热议。不需要任何绘画基础,也不必懂复杂的参数调试,只要输入一句简单的提示词,就能得到一张可能风格诡异但颇具神韵的作品。
只是更多时候,想得到一张符合想象的画作并不容易。
当你尝试描述“用吉普力工作室的风格画出一个皮卡丘”时,可能收获的却是一幅“移动的皮卡丘城堡”;想看看蒸汽朋克的海拉鲁大陆如何,却只得到一个机械宇航员的侧身像。想让AI读懂自己的心思,除了需要更精准的描述外,似乎更需要还是运气。
最近开始流行的DiscoDiffusion(以下简称DD),和wombo一样基于Deepdream视觉程序,但相较之下它明显更能和人类“互相理解”。不仅画出的作品诡异气氛大减,而且能更精准地还原场景描述,更能“听懂人话”。
当我同样输入“一座巨大的哥特式城堡,矗立在波涛汹涌的流光之海中”时,两个AI的作品对比非常明显。DD已经完全丢掉了满是AI烙印的抽象画风,用以假乱真的笔触还原了我想要的风格,而这距离我的想象已经非常接近。
右侧两幅DD画作是同一描述下生成的不同结果
相比于wombo固定种类的画风选项,DD通过直接添加不同的关键词调节画作风格。这些词汇可以是绘画形式、流派名称、艺术家名字或者具体到某个作品的标题。
同样是上述哥特城堡的描述,加上“中国山水画”或“梵高的星月夜”的补充后,得到的结果就大相径庭。
在一个名为weirdwonderfulai的网站上,众多使用者总结出了同一句话在不同作者、流派、关键词下得到的上百种结果以供参考,由此可以看出DD强大的风格把控力。
许多创作者的悉心调教后的DD,已经完全具备“画出”一系列成熟作品的潜质。社区里有不少人经过初步摸索,画出的作品已经很难看出AI处理的痕迹。
作者:annetropy
作者:kelseyY
再搭配上不同主题和风格,完全能得到以假乱真的概念场景作品,稍加后期的人工修饰,就是一套卖相十足的成熟作品集。
作者:LIUXIYAUN
但与此同时,我们也都明白AI并不能真的听懂人话。在无法帮助它快速学习迭代的情况下,不少人选择和AI角色互换,让自己接受训练,试图去理解AI眼里的人类语言。
2
“一幅由gregrutkowski和thomaskinkade创作的漂亮画作:一座灯塔在汹涌的血海边闪耀着光芒,Artstation的流行风格,黄色配色方案。”作为官方给出的描述语模版,每个DD的使用者都见过上述这句话。语法规范的描述语不算长,其中却包含了画家、画种、内容、风格和配色方案等要素,让初学者能一眼明白描述词的要点。
但很快使用者们渐渐发现,正确的语法语序并不能很好表达出画面的逻辑,甚至适当的偏差反而能得到更好的结果。毕竟从原理上来说,AI只是根据关键词对应的图片信息“算”出了这样一幅画。
利用这一特性,也就不必拘泥于人类语言中的对错,只要某个词汇能对应一类图像的特征和风格,它就能成为一种画风,图片网站、游戏引擎名称或者镜头型号都可以。
对于DD来说,参数也是调整图片的重要方式。但如果嫌麻烦,仅靠描述词也可以达到类似的效果。
例如在描述词后加上不同的数字调整权重,如“雷云5:,火焰:5”,画面中它们呈现的比例就会有所对应;加上“景深:-2”关键词,会减弱画面的景深效果;输入“4K”则会在分辨率不变的情况下提升锐化值,模拟出更清晰的画面。
“一棵由雷云和火焰组成的树”
到了这时候,不少人的描述词里已经没有了最初还算严谨的语法,变成了词组和数字的神奇组合。为了让AI更好理解自己,这些赛博炼丹师反而让自己被训练出了一套怪异的语言,和AI完成了奇妙的角色互换。
可也正因如此,擅长捕捉词汇特征的DD才会犯下只有AI会闹出的笑话。
当我为了模拟次世代游戏画面,尝试加入“RTXON”词缀渲染上图中的树时,图片角落总会出现类似于作者签名的神秘符号。但我的描述里并没提到任何一个作者,这让我百思不得其解。
直到我细想之下越发觉得这东西很像几个字母的变形,到搜索引擎里一看“光追”的图片结果,立马明白了怎么回事:光追画面的演示图片里确实都有一个常被我们忽视的“签名”。
不只图片的角标会干扰结果,当一个人名不仅对应他的作品,还能搜出作者本人的肖像照时,类似的情况也会出现。
当你想着用宫崎骏电影的风格来一张画时,宫崎骏老爷子的头像可能会突然出现的云端。或者为了模拟《异形》风格加上设计师H.R.Giger的名字时,他也可能不请自来为个人风格浓郁的骨头宫殿打上水印。
作者:ZhaoKin
从结果来看,已经能画出很多惊艳作品的DD,距离理解人类语言还有很大一段距离。但它做不到并不意味着所有AI都做不到,这几天它风头更盛的另一个同僚DALLE-E2,就明显更接近美好畅想中的“用嘴画图”
3
在DALL-E2