聊聊对AI图像生成的批判性看法

2024/10/21 21:03:31

本文主要是介绍聊聊对AI图像生成的批判性看法,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

图像生成人工智能真的在告诉我们关于这个世界的信息吗?

照片由Math在Unsplash网站上拍摄。

最近我有机会对这个有趣的项目进行分析,而我当时想说的东西超出了那篇文章的篇幅,所以今天我想再谈谈我对这个项目的一些想法。

研究人员在这个项目中采用的方法是向不同的生成式AI图像生成工具提供一系列提示,包括Stable Diffusion、Midjourney、YandexART以及百度的ERNIE-ViLG。这些提示特别围绕不同的世代——Boomers、X世代、千禧一代和Z世代,并请求这些世代在不同情境中的图片,例如“与家人在一起”、“度假”或“在工作”等。

虽然结果非常有趣,可能揭示了一些关于视觉呈现的见解,但我认为我们也应该注意这不能告诉我们什么信息,或者说它的局限性在哪里。我将把我的讨论分为两部分,分别讨论美学(图片的外观)和表现(图像中的内容),并探讨一下这些图像是如何产生的,因为这对于理解两个话题来说非常重要。

简介

在开始之前,先简单介绍一下这些图像生成模型。它们是通过将大量的图像数据集(包括照片、艺术作品等)与简短的文字描述配对,训练模型学习文字和图像外观之间的关系,这样,当输入一个词时,模型可以生成一个与之相对应的图像,或多或少地符合描述。模型背后还有更多的细节,和其他生成型AI一样,这些模型内置了一定的随机元素,允许生成出乎意料的变化和惊喜。

当你使用这些托管的模型时,你输入一个文本提示,模型会生成并返回一个图像。然而,重要的是要注意,你的提示并不是模型接收的唯一输入。还有一些内置指令,有时我称之为预设指令,这些指令也会影响生成的图像。比如,这些指令可能指示模型拒绝生成某些冒犯性图像,或拒绝包含冒犯性语言的提示。

训练资料

在这里的一个关键点在于,训练数据,即那些与文本描述配对的大批图片集,是模型试图复制的对象。因此,我们应该多问些关于训练数据及其来源的问题。为了训练这样的模型,所需的图像数量非常庞大。Midjourney 就是在 https://laion.ai/ 上接受训练的,其更大的数据集包含了50亿个图像-文本对,其他模型可能也有类似的训练数据量。这意味着工程师在挑选训练用的图片时不能太挑剔,因为他们需要尽可能多的图片来训练模型。

好的,所以我们从哪里获取图片?它们是如何生成的?嗯,我们自己制作大量图片并发布到社交媒体上,这肯定占了很大一部分。(这些平台获取也很方便。)媒体和广告也制作了大量的图像,从电影到商业广告,再到杂志等。许多其他图片可能永远无法被这些模型访问到,比如你奶奶从未数字化的照片册,但可用于训练的大部分图片主要来自这两个来源:独立/个人创作者和媒体/广告。

那么,当你使用其中一个模型时,你能得到什么实际的东西呢?

审美

如果你尝试过这些不同的图像生成器,你会注意到它们之间的风格差异,以及每种风格的内部一致性,这真的很有趣,因为它们似乎有了各自的个性!Midjourney 的风格偏暗,充满阴影,而 Stable Diffusion 则明亮且色彩饱和度极高,对比度也很高。ERNIE-ViLG 倾向于卡通风格,同样有很高的对比度和橡胶质感或过度过滤的纹理。YandexART 的色彩平淡无奇,背景通常平淡无奇或非常模糊,有时看起来像是被聚光灯照亮的效果(这让我想起了在百货公司拍摄的家庭照片)。多种因素共同造成了每个模型的独特风格。

如我之前所述,预设提示会在用户输入之外额外添加。这些提示可能指示输出必须始终包含特定的美学成分,例如色调、亮度和对比度等风格选择,也可能指示模型不应遵循不当的指令,等等。这为模型提供者提供了一种实施限制和防护措施的方法,以防止滥用,同时也可以保持美学上的连续性。

用增强学习进行微调的过程也可能改变风格,这些人类观察者会对提供的输出进行评判。这些观察者将接受过培训并收到关于哪些输出图像特征应该被认可、哪些会被拒绝或评分降低的指示,这可能涉及提高某些视觉效果的评分。

训练数据的类型也会影响结果。我们了解一些用于训练这些模型的大型数据集,但可能还有一些未知的数据集,因此我们只能根据模型生成的内容来推测。如果模型生成了高对比度、色彩鲜艳的图片,那可能意味着训练数据中包含了许多具有这些特征的图片。

在分析不同模型的输出时,需要注意的是,这些风格特征可能是提示指令、训练数据和人工微调过程的结合。

除了图片的视觉效果之外,里面实际有些什么内容?

表现
限制条件

模型能做些什么取决于它们是如何训练的。这些模型是用过去的图片进行训练的——有些是最近的过去,有些则更久远。例如:随着我们往前走,年轻一代将会有他们整个生命阶段的在线图片,但对于较老的一代来说,他们年轻或青年时期的大量高质量图片(用于训练的数据)难以获取,因此我们可能永远不会看到这些模型将他们展示为年轻人。这一点在项目中特别明显:对于Z世代和千禧一代,在这些数据中,模型在输出中很难适当地“调整”这些人物的年龄,以符合他们实际的年龄范围。这两个群体在大多数时候看起来年龄相近,Z世代有时被显示为(例如,在与学校相关的提示中)真正的孩子。相比之下,婴儿潮一代和X世代大多被呈现为中年人或老年人,因为现有的训练数据中不太可能包含他们年轻时期的照片扫描件。这在训练数据的背景下看是完全合理的。

隨著時間的推移,年輕人將會在線上擁有他們一生的照片,但對於年長的一代來說,他們年輕時或早期成年時期的照片尚未數字化,因此無法作為訓練數據使用,所以這些模型可能永遠不會以年輕人的形象來呈現他們。

身份认同

考虑到这一点,我认为我们可以从这些图片中获得一些印象,如果我们仔细观察这些图片的话,那就是:A. 不同年龄段的人在这些图片中展示自己是怎样的,尤其是年轻人在自拍中展示自己;B. 媒体是如何呈现这些群体形象的。(有时这两者很难区分,因为媒体与年轻人的文化紧密相连。)

训练数据并非凭空产生——人类选择创建、分享、标注和整理这些图像,因此这些人的选择影响了所有关于他们的方面。模型获取的是这些被特定人选择展示的图像,在所有这些展示背后都有其目的和意图。

一个十几岁或二十几岁的人自拍并在网上发布(使其成为这些模型的训练数据)可能之前已经拍了十个、二十个甚至五十个自拍照,才选择哪一个发布到Instagram上。同时,专业广告中也存在种族、性别、年龄等偏见,因此专业摄影师选择模特拍摄广告时会有很多因素考虑在内,包括产品、受众、品牌形象等。这些图片也会带有同样的偏见,因此这些模型生成的图像也带有同样的偏见。通过观察可以发现,特别是在某些模型(如Midjourney和Yandex)中,对于千禧一代和Z世代,更多样化的肤色特征比比皆是,但在同一批模型的X世代和婴儿潮一代中却很少看到这种特征。这可能至少部分是因为广告商在针对特定群体时会选择他们认为会吸引人且有共鸣的种族和族裔(以及年龄)的模特,他们假设婴儿潮一代和X世代更可能对年龄较大且皮肤较白的模特产生共鸣,因此更可能购买相关产品。这些图片被用于训练模型,模型由此学习生成类似的内容。

我想表达的是,这些并非不受文化和社会影响的——不管这种影响是正面还是负面。训练数据由人类作品构成,因此模型也继承了人类社会的所有社会偏见。

我的观点是,这些并非不受来自社会的影响——这种影响可能是正面的也可能是负面的。训练数据源于人类创作,所以模型也继承了这些人类的社会文化和偏见。

由于这种现实,我认为问我们是否能从模型生成的图像中了解代际特征有点问错了问题,或者至少是一个误导的前提。我们或许会偶然了解一些关于那些作品出现在训练集里的人们的信息,这可能包括自拍,但我们更可能了解的是更广泛的社群情况,即人们拍摄他人以及自拍、媒体和商业化的现象。我们得到的某些(甚至很多)这类内容,尤其是对于那些在线上没有贡献太多自拍等视觉媒体的较年长群体来说,最多也只是从广告和媒体中对该群体的看法,我们知道这本身就有不少固有的弊端。

这些图片是否能让我们更好地理解代际差异?或许可以。我认为这个项目有可能帮助我们看到代际身份是如何通过媒体过滤的,不过我怀疑这是否是最便捷或最简单的方法。毕竟,我们也可以直接去源头——尽管这些模型汇总的数据可能具有一定的学术价值。这对年轻一代可能更有帮助,因为更多的训练数据是由他们自己生成的,但即使如此,我还是认为我们应该记得,我们在描述自己时也会注入自己的偏见和意图。

顺便说一句,一些评论者有一种本能的反应,要求对这种模型所生成的内容进行某种形式的“美化”——这就是为什么我们会得到生成不同种族和族裔背景的纳粹士兵图像的模型。正如我之前所写,这基本上是一种回避模型反馈给我们的社会现实的方式。我们不喜欢镜子里的自己,所以选择在镜子上做文章而不是反思自己。

当然,这也不完全对——我们所有的规矩和文化并不会全部反映在模型的输出中,只会反映那些我们拍成照片并用来训练模型的部分。我们只能看到社会的一角,而不是原汁原味地看到整个社会。因此,调整我们的期望要实际,基于这些模型的特性和创建方式。我们不会从这些模型中得到我们生活的一个完美无瑕的画面,因为我们拍摄的照片(以及那些我们没有拍或没有分享的照片),还有媒体创造和传播的图像,都不是没有偏见或公正的。这也是我们不应该拿朋友在Instagram上发布的照片来评判自己和生活的原因——那同样不是他们生活的完整且真实的画面。除非我们发起一场追求准确和公平的代表的大规模摄影和标注运动,用于训练数据,否则我们将无法改变这个系统的工作方式。

结论部分

和这些想法共度时光对我来说真的很有趣,我希望这个分析能对经常使用这类模型的你们有所帮助。使用生成式人工智能图像生成模型有很多问题,从环境(如文中所述)到经济(如文中所述),但如果你选择在日常使用这些模型,了解它们的真正作用和局限性至关重要。

更多我的内容,请阅读www.stephaniekirmer.com。

更多阅读
从大模型中看到我们的倒影当大模型揭示出人类社会的缺陷时,我们是否愿意听取它们的建议?towardsdatascience.com

https://www.theverge.com/2024/2/21/24079371/google-ai-gemini-generative-inaccurate-historical

该项目:https://bit.ly/genaiSK,点击链接查看。



这篇关于聊聊对AI图像生成的批判性看法的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程