InfoQ 推荐 ( ) • 2024-03-25 11:47

轻轻敲下几行简单的文字,就能立刻拥有一幅与之相呼应的画作。随着 AI 大模型的崛起,“文字瞬间转化为图像”这一梦想已然成真。

今年,各大玩家纷纷入局大模型,在文生图领域掀起“血雨腥风”。在这篇文章里,我选择了互联网大厂的文心一格、360 智绘、垂直图片领域的美图 MiracleVision 4.0 和知名的 GPT-4 四个模型,通过同题多解的方式,对他们的文生图能力逐一进行了测评,让我们看看,到底是“神仙打架”还是“菜鸡互啄”?

初级考验:大模型们能辨别实体吗?

作为考验的第一关,我们需要观察大模型们的产出结果在数量、动作状态、颜色识别、位置关系等细节方面的呈现。同时,多实体识别对大模型来说也是一个相对复杂的挑战。初级关卡,四位“选手”的表现如何?

一个实体的场景

先来点简单的 prompt 热身:一只黑色的小猫正趴在一本打开的书上。

生成的结果如下:

除了文心一格生成的小猫脑袋有点大,大模型们表现得都算是不错,GPT-4 生成的小猫不仅趴下了,还舒服地打起了盹。不过,小猫们的画风都比较漫画感,而书却非常写实,这让人觉得稍微有些割裂。

多个同种实体的生成

接着,我稍微加大难度,大模型们一下就被搞懵了。

我使用了这个描述:沙漠中,10 头骆驼正在穿越沙漠,远处有一座金字塔。

生成的结果如下:

首先是文心一格的生成结果,可以看到虽然画面中有密密麻麻很多条骆驼腿,但绝对没有 10 只骆驼。而且骆驼们都长得奇形怪状,画面最右边甚至还出现了 1 只“两头连体”骆驼。

360 智绘有些“小气”,只生成了 5 只骆驼,不过补偿了我 3 座金字塔。MiracleVision 4.0 生成了 4 只正常骆驼、1 只 6 腿骆驼、4 座金字塔和 2 个图层。我不禁感慨,算数真是为难它了。相比之下,GPT-4 则大手一挥,“买一送一”地豪掷了十余只骆驼。

我提一个,要不考虑考虑先把大模型们送回幼儿园重修数学吧?

不同实体的组合

接下来是第一关最难的一题:一只麻雀正在向一只狮子唱歌,远处一只孔雀正展开华丽的羽毛,童话色彩。

生成结果如下:

足足有 3 个实体的 prompt 属实让大模型们犯难了,于是大家生成的结果十分有趣。文心一格只生成了两只孔雀,360 智绘生成了两只长得又像孔雀又像鸡的“麻雀”,MiracleVision 4.0 生成了跟狮子一样大的“穿孔雀衣服”的鸡……只有 GPT-4 完成了任务,整体也赋予了“童话色彩”。

综上,对于大模型们产出能力的实体对象方面,我给出以下打分:

中级考验:大模型们能理解中国传统文化吗?

现在,假设大模型们已经能够理解简单直球的 prompt 描述,那中国文化里的深层含义或者说言外之意,他们能 get 到吗?

诗词主题

为了考验大模型们的诗词鉴赏能力,我给出了这个要求:满园花菊郁金黄,中有孤丛色似霜。工笔画风格。

生成结果如下:

这句诗来自唐代诗人白居易的《赋得古原草送别》,它的意思是:在古老的原野上,金黄色的菊花郁郁葱葱,其中有一丛花朵颜色如同霜一般苍白。言外之意,画面应该要展现秋天孤寂的氛围,同时暗示生命的脆弱和短暂。

没想到,对于这道题的作答,居然是“国际友人” GPT-4 更胜一筹,它精确地绘制出满地金黄的菊花中,盛开着一朵白色菊花,同时,画面的色彩浓郁、明度低,符合“秋天孤寂的氛围”。其他三个模型的表现则不太理想:MiracleVision 4.0 生成了好几朵白菊花,文心一格和 360 智绘的产出中则根本没有白菊花。

节日主题

诗词生成表现一般,那国内的大模型应该得在传统节日上扳回一城吧?事实证明,没有。

我给出的要求是:孩子手中的红包。

生成结果如下:

文心一格、360 智绘审题有些偏差,给出了“拿着红包的小孩”,值得一提的是,在文心一格的生成结果中,小孩哥拿着的红包上赫然有另一个小孩哥的人头!有点惊悚了。再仔细一看,小孩哥捧着的确定是红包吗?

MiracleVision 4.0 生成了很多个红包和 5 只肉乎乎的手,不过大人就不能有胖手吗?这很难评。而 GPT-4 不仅成功审题,生成了一看就知道是小孩的手,图片质感也吊打前面三位。我只能鸡蛋里挑骨头地评价说,空着的袖口有点奇怪,以及红包中间的“福”字没有写对。

不过,国际友人能把带有中国节日元素的 prompt 生成得这么好,也恰恰说明了春节的国际影响力,咱们文化自信的这个小感觉“噌”得一下就上来了。

成语主题

最后我很好奇,如果 prompt 中出现成语,大模型们会怎么处理。于是,我让四位选手生成:螳螂捕蝉黄雀在后,摄影照片。

生成结果如下:

说实话,对于一个害怕昆虫的人来说,这些生成的图片我都不敢放大仔细看,实在是瘆得慌。这道题其实也涉及到“多实体”识别,所以大模型们的表现都不太好。可以看到,GPT-4 虽然有些理解偏差,但算是意思最贴近的一位选手,它生成了 5 只生物厮杀的画面,而且也只有 GPT-4 生成了“黄雀”,虽然这只黄雀长着蝴蝶翅膀般的尾巴。

其他三个大模型的表现就“令人无语”了:文心一格的作品是一只在和不明生物打架的“螳螂”;360 智绘生成了正在采花粉的“蜻蜓”版螳螂,实在是太离谱了;MiracleVision 4.0 则摆烂般产出了一只螳螂和一只关在容器里的蝉。

好吧我承认,这道题对于大模型们来说确实是太难了。

基于这三个例子,我给大模型们产出能力的中文特色方面打分如下:

终极考验:大模型们可以替代画家 / 设计师的工作吗?

大模型在训练过程中,被投喂了国内外名家的各类画作、种类繁多的商业海报……那么,目前的大模型是否有能力去代替“画家”和“设计师”这两种职业呢?

油画

考察选手们的作画能力,我用了这个 prompt :一只手托着一朵百合,油画风格,朴素,淡雅,莫奈风格。

生成结果如下:

这一轮,文心一格、MiracleVision 4.0 和 GPT-4 的作品不相上下,都准确生成了“手”和“百合”,画面的笔触也能看出“油画”的影子。最让人大跌眼镜的是 360 智绘,它居然我“ AI 扩图”我自己,生成了以荷塘为背景、身上“长出”百合的女生形象。

那么大模型们知道什么是莫奈风格吗?为了方便读者朋友们对比,我们先来看看标准的莫奈风格是什么样的:

作为印象派代表人物,莫奈擅长捕捉光线和色彩的微妙变化,运用自由快速的笔触展现生动画面。这么看来,对于莫奈风格,前三位选手好像理解了一点,但又好像不太沾边,而 360 智绘的产出则是完全看不见莫奈的影子。

电影院宣传海报

接下来,再看看海报生成效果如何。我给出的描述是:为公园汽车电影院设计具有视觉冲击力的活动海报,标题为“公园汽车电影院,欢迎您的加入”,突出公园、夜晚、宁静。

生成结果如下:

众所周知,如果要在大模型产出的图片上加上文字说明,其实是一件比较困难的事。但在这轮测试中,我惊喜地发现 MiracleVision 4.0 做到了!标题在画面中准确地断行、居中对齐,还采用了很有视觉冲击力的红色,真是不错,我就勉为其难地原谅它并没有体现“电影院”这一元素和画面底部生成的三行乱码吧。

下一位值得注意的选手是 GPT-4 。虽然没有体现标题,但是它很有想象力地描绘出“公园汽车电影院”应有的样子:一个巨大的屏幕、整齐排列的汽车,画面的大面积的蓝色和绿色彰显了“宁静”。或许汽车们打开的车灯是为了突出“夜晚”?温馨提示:看电影的时候还是不要开灯为好噢。

其他两个作品就没什么可说的了:文心一格在公园中间直接安上了座椅,再摆上一辆轿车,远处的屏幕上一列无意义的字母,插一句,这么宽的屏幕看的是啥比例的电影?360 智绘生成的则是黄昏时分的电影院门口,门牌同样不可读。

饮品广告

说这么多有点渴了,那出道饮料考题吧!为一款龙井茉莉奶茶,设计一张新品上新海报,突出茶叶和牛奶的高品质。

生成结果如下:

毫无疑问的,我要把这轮的冠军颁给 GPT-4 ,不仅画面美观、细节丰富,分别展示了茶叶和牛奶,还加上了“龙井”的拼音和“JASMINE Milk Tea”。虽然有一些小的文字生成瑕疵,但无伤大雅,让我心痒痒的好想马上点一杯霸 xxx 解解馋。

文心一格和 MiracleVision 4.0 似乎把 prompt 理解成了“奶盖 / 雪顶抹茶”,估计是为了体现“茶叶的高品质”,文心一格直接往杯子里扔了一棵草,MiracleVision 4.0 也“擅作主张”地加上了黑糖珍珠,还有,谁告诉你俩要在奶茶里加青桔和柠檬的?!最后,360 智绘,请问我的奶茶呢?

从这三个例子可以看出,大模型们的设计能力还是比较弱的。所以看到这里的设计师朋友们,大可不必担心,你们厉害着呢,大模型们目前完全抢不走你们的饭碗。

我也对大模型们产出能力的风格设计方面给出了以下打分:

写在最后

今天的测评中,四位选手的表现参差不齐,有惊喜也有惊悚。读者朋友们猜对表现最好的大模型了吗?欢迎跟我们留言分享。

我也着实被这些“魔法师”们的强大能力所震撼,它们不仅能够捕捉文字中的精髓,还能通过创意的转化,将文字描述变为生动形象的图片,(虽然有的时候结果不尽人意)。相信在不久的未来,我们会看到更多大模型的亮眼表现。

报告预告

另外,想了解完整测评维度和结果的小伙伴们,也可以期待下周 InfoQ 研究中心即将发布的完整报告《2023 年第 4 季度中国大模型季度监测报告》。

除了测评内容,InfoQ 研究中心还将定期在报告中梳理总结大模型市场发展脉络和产品逻辑,帮助大家在快速发展的大模型市场中抓住发展主线,欢迎大家持续关注。