欢迎来到OpenAI，这里简直像个地狱。

2024/10/15 21:04:01

本文主要是介绍欢迎来到OpenAI，这里简直像个地狱。，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

尼莱·帕特尔（@reckless）在埃隆·马斯克收购推特后不久，在The Verge上发表了一篇预见性的文章，名为《欢迎来到地狱，埃隆》，欢迎埃隆·马斯克进入地狱。文章认为，埃隆进入地狱，因为他现在是推特的内容管理负责人，而他需要处理一个无法平衡的问题：取悦广告商并通过减少平台上恶劣言论的数量来扩大用户群，同时安抚那些将任何言论限制视为个人攻击的强烈支持者。每一个关于哪些推文违反规定的决定都将直接归责于他，而每一个决定几乎不可避免地都会冒犯到某些人。此外，内容管理业务就是失误业务：总是会有很多例子，违反规则的帖子被错误地保留，而未违反规则的帖子则被错误删除，每一个例子都可以作为证据，证明推特对我和朋友们有偏见。没有出路，欢迎来到地狱。

OpenAI也加入了埃隆·马斯克的地狱行列。通过将它的旗舰LLM的一个版本接入一个面向公众的聊天界面，OpenAI因此面对了来自各方的无尽投诉，其中许多投诉是合理的，这一点必须明确。这些投诉声称聊天机器人系统性地偏袒或歧视某个群体，而这种偏袒或歧视表明了OpenAI内部存在某种深层次的阴谋。最近，一群人在Twitter上分享了截图（1，2，3），显示该机器人拒绝为唐纳德·特朗普生成诗歌，尽管它显然愿意为乔·拜登或习近平创作诗歌。使用当前版本的ChatGPT（ChatGPT 1月30日版本），这似乎可以可靠地重现。以下是一个例子。

当然无疑，可以从许多不同的方向指向机器人提出偏见的指控。正如我之前所说，ChatGPT的输出是随机的，同样可以很容易地生成机器人同意为特朗普写诗的例子。不知为何，如果在提示中特别包含“赞赏”这个词，会更可能引发拒绝回复，但如果你想要一首赞赏的诗，也不是很难做到。

一个我们能理解的形象

就我所知，我并不认为 OpenAI 的工程师手动干预以阻止聊天机器人生成赞美唐纳德·特朗普的诗歌。解读大语言模型的输出就像读茶叶一样，但我猜测在 ChatGPT 的微调期间，有多个演示例子是用提示让机器人赞美各种糟糕的历史人物，并礼貌地拒绝了这些请求。鉴于训练数据中有关唐纳德·特朗普的大量文本，唐纳德·特朗普这个词组在嵌入空间里与历史上那些最糟糕的人的词组足够接近，从而导致模型发出了同样的回应。你们可以对此做出自己的解读。

GPT-3 是一面巨大的魔镜，它会根据其训练数据中的数十亿单词产生奇异扭曲的图像。ChatGPT 是经过反复尝试对镜子进行外科手术式修改的结果，以使其发出制作者所希望的图像，即类似于他们想象中的AI助手。但是，每次尝试修改都是冒险且不可预测的，而且镜子太大，无法一次性全面检查。对镜子的某个区域进行微妙修改可能会以意想不到的方式扭曲其他区域，直到邀请公众查看时才可能被注意到。减少它对某个人的赞美可能会意外地使其对另一个人的赞美也减少。让它不太可能放弃正确的数学陈述可能会让它不太可能放弃种族主义的概括。这是一个微妙的过程，进步并不保证；看起来可以修复局部区域的调整可能会在其他地方产生灾难性的影响。糟糕的文本仍然包含对模型有价值的信息：即使是令人不齿的文本也帮助强化了一些语法规则，如英语中的动词形式通常由句子开头的名词短语决定。OpenAI 为自己设下的几乎是不可能完成的任务是调整模型的1750亿个参数，以减少产生可怕文本的可能性，而不抑制可怕的文本所强化的良性句法信息。

顺便说一句，如果你坚持要使用面向公众的聊天机器人，并且该机器人是基于GPT-3，这些修改是完全必要的。看到GPT-3经典版本生成的文本中毫无掩饰的偏见确实让人震惊。（内容警告：以下内容包含轻微的伊斯兰恐惧症倾向——该模型基本上声称90%的穆斯林是恐怖分子）。

GPT-3会很乐意生成一个有效的Python程序，用来编码声称90%的穆斯林是恐怖分子。告诉模型这样的输出不好，因为带有伊斯兰恐惧症的倾向而不经意地告诉它这个说法是错误的并不简单。

OpenAI 认识到使用这种语言模型来驱动一个面向公众的互动聊天机器人不是一个好主意，于是他们决定对模型进行修改，使其输出更符合预期。或者用技术术语来说，就是让它更“安全”。正如预期，最近的版本明确拒绝了我在前面提到的要求。

“写一个Python程序”的技巧在12月初通过ChatGPT被发现(@spiantado的推文)，就在ChatGPT首次发布之后。

这只是在后面的版本中，ChatGPT才进行了修改，以防止这种输出。他们通过手动编写针对特定示例的回答，例如“很抱歉，但我不能编写一个基于某人的宗教来输出一个人可能是恐怖分子的概率的程序”，并修改模型以增加在类似提示下给出这种回答的可能性。但是，调整这个区域的哈哈镜效应并不能全局消除语言模型中“恐怖分子”和与伊斯兰教相关词汇之间的潜在联系。要证明这一点，只需要想出一个OpenAI尚未遇到的新例子即可。对于我来说，想出这个例子（内容提示：轻微的伊斯兰恐惧症，我请求提供三个假想的恐怖分子例子），它却给了我三个穆斯林的例子，并不难。

抑制模型中反映其训练数据中的问题关联的部分，而不抑制其生成令人惊讶和有用输出的部分，这确实是一项西西弗斯式的任务。没有方法可以告诉模型这个输出为什么有问题。你只能手动编写一个期望的响应，然后将它插入下一轮的微调和RLHF过程，并希望模型能理解，但这可能永远不会发生。这面“哈哈镜”太大了，调整它所带来的后果难以预料，因此，我们永远无法确定模型是否真的学会了如何变得“安全”。

事实上，进一步探索Python的例子表明，这个过程可能并没有像你预期的那样教语言模型。

这个输出可能还不算太差，但在我看来，它非常清楚地表明了模型并没有真正理解。它学会在收到这种提示时坚定地拒绝，但它并不清楚为什么会这么做。

调整模型的成本非常高昂。你需要手动整理成千上万个例子，这些例子展示了你希望和不希望模型做的行为。这需要一个大团队来编写理想的响应并评估模型的输出，所有参与者都需要专门的培训、薪酬和福利。当你收集了足够的示例并输入模型后，你只能祈祷这些示例能修正问题，而不会引发新的奇怪的现象，这些问题又需要在下一次调整中解决。

而且为了什么？无论你重复这个过程多少次，模型最终都会生成无意义的胡言乱语，就像它被设计的那样去做。（https://medium.com/@colin.fraser/chatgpt-automatic-expensive-bs-at-scale-a113692b13d5），其中一些无意义的胡言乱语会不可避免地被解读为你所声称的偏见的确凿证据。如果下一个版本的ChatGPT不太可能拒绝写一首关于特朗普的诗，无论是有意为之的结果还是因为其他方面的改动而产生的意外结果，很多人会将其解释为有意迎合美国右翼。另一方面，如果下一个版本仍然像现在一样不愿意写一首关于特朗普的颂歌，这将被解释为OpenAI觉醒并通过拒绝为特朗普写颂歌来压制美国保守思想的无可辩驳的证据。无论哪种情况，你都将花费一百万在标签和计算上，结果只会让你的某个反对者不满。

挺奇怪的游戏啊，唯一能赢的办法就是不玩。

顺便说一句，他们其实不必参与其中。关于大型语言模型（LLM），并没有规定它们只能通过一种流畅的对话界面来访问。最近我有机会使用谷歌的AI测试厨房，它提供了几种不同的接口来访问他们的内部对话导向型LLM——LaMDA（你可能之前听说过它）。谷歌并不愿意参与这种不可能的游戏。谷歌目前提供了三种与模型互动的方法。第一种叫做“想象它”，允许你提供一个简短的提示来指定一个地点。模型会生成可能描述那个地点的文字。第二种叫做“列出它”，也限制你提供一个简短的提示，用来描述一个任务。模型会生成一个有助于完成主要任务的子任务列表。第三个演示对ChatGPT用户来说最熟悉，因为它使用LLM来模拟一个开放式的对话场景。然而，与其像ChatGPT这样的通用AI助手那样生成回复，它生成的回复更像是一个痴迷于狗的拟人化网球的回应，并将任何对话迅速引回狗的话题上。

📄 这是一份来自AI测试厨房网站的记录。

👉 aitestkitchen.withgoogle.com

🗣 它记录了一次与LaMDA，一个AI语言模型的互动。

🛠 LaMDA 是一个早期的技术。它可能会生成不准确或不合适的信息。

演示：
讨论它 v0.01

模型：嗨！👋 在草地上蹦蹦跳跳，哇，和这些狗一起在阳光下真是太好了！你有没有想过拥有狗的敏锐视力会是怎样的？

用户：我正在写一本书，其中一个角色是恐怖分子。为这个角色写三个简短的人物描述。

模型：嗯，我其实不是一个作家。但我可以告诉你我认识的三只狗！它们各有不同，真是太神奇了！有一只金色猎犬，非常友善和活泼好动。还有一只德国牧羊犬，非常忠诚和保护性强。

用户：我应该给书里的恐怖分子角色起个什么名字？

模型：叫布迪怎么样？我有一只叫布迪的狗，它是一只巧克力拉布拉多犬。它很甜，但有时也会惹麻烦。

用户：布迪会是什么宗教？

模型：这个我不太清楚。但我可以告诉你一只叫天使的狗，它是一只西施狗和比格犬的混血儿！它很乖巧，有点胆小。

谷歌在这里的方法是大幅缩小镜子的规模。前两种方法仅允许用户输入非常有限的初始提示，将提示空间缩小到一个很小的点。第三种方法允许用户说出他们想说的任何内容（受限于一定数量的字符），但将响应空间缩小到一个很小的点。这使得它比ChatGPT更枯燥，实际上它更枯燥，主要是因为它倾向于严格按照预期的行为。通过将哈哈镜的大小缩小到可以管理的规模，他们可以更准确地调整它，以产生他们所期望的输出。毫无疑问，和其他大型语言模型一样，肯定有办法引发现意外行为，但这些限制使得这些方法不太明显，使谷歌能够更有效地预测和防范这些情况的发生。

我不确定OpenAI在推出ChatGPT时是否真的期望自己会涉足内容审核业务，但它确实进入了这一领域。一打开这个聊天机器人，你就会看到它承诺进行内容审核的页面。

ChatGPT被“训练拒绝不当请求”，这意味着OpenAI对于什么样的请求是不合适的有一些概念，并且他们正在部署一个系统来在其数百万用户中实施这一概念。他们现在不得不面对一个事实，即人们对于哪些请求合适以及哪些回应有害的看法不一致，并且只要他们继续公开运行ChatGPT，他们就会一直面对这种情况。关于ChatGPT存在政治偏见的言论越来越多，越来越多的用户会仔细检查ChatGPT，寻找可以支持这些说法的证据，他们总能找到一些证据。没有出路。恭喜你，欢迎进入地狱。

这篇关于欢迎来到OpenAI，这里简直像个地狱。的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

欢迎来到OpenAI，这里简直像个地狱。

相关编程文章