是时候彻底戳破AI泡沫了

2024/10/15 21:04:00

本文主要是介绍是时候彻底戳破AI泡沫了,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

错误信息和不良研究:一个案例分析

我们不能忽视这样一个事实,例如ChatGPT这样的AI模型在互联网上大行其道,渗透到了每一个角落。

大多数人工智能的应用都非常有用且有益,在诸如医疗保健、工程、计算机视觉、教育等众多领域都能发挥作用,我们没有理由不在这类应用的发展上投入时间和金钱。

生成式人工智能(GenAI)则不同,本文将专门讨论GenAI。这包括诸如ChatGPT、Claude、Gemini、Llama等大型语言模型(LLMs)和检索增强生成模型(RAGs)。我们需要明确指出我们所说的AI是什么、我们使用的是哪些模型,以及这些模型对环境的影响。

[1]: 过去四年“AI”和“ChatGPT”这两个关键词的搜索趋势。截图由我提供。数据来源:Google Trends

那么,人工智能是否正在统治世界?它的IQ是否为120?它是否比人脑更快、更好思考?

什么是AI的热潮?

AI热潮是指社会对AI(特别是类似GPT的Transformer模型)的普遍兴奋。它已经渗透到每个领域——医疗、IT、经济、艺术——以及产业链的每一层。事实上,多达43%的高管和CEO们已经使用生成式AI来做出战略决策 [2]。以下链接文章将科技裁员与FAANG和其他大公司的AI应用联系起来 [3, 4, 5]。

AI热潮也对股市产生了影响。英伟达公司的例子就是一个明显的例证:由于英伟达生产图形处理器,这是训练AI模型的关键硬件,其股价因此大幅上涨(这种上涨更多地反映了人们对公司的感知价值,而非实际增长)。

NVIDIA Corp过去五年里的股价变化。去年股价的增长令人难以置信,市值翻了三番(52周最高价是最低价的3.5倍),而在过去三年的增长更是惊人,达到了27.58倍。截图由我截取。数据来自Refinitiv。

为什么这是个问题?

人类总是抗拒使用新技术,尤其是那些他们不完全理解的技术。这是一次令人不安的转变过程。每一次突破都像是在与未知打赌,因此我们害怕它。我们中的大多数人都不会转向新事物,除非我们确定它的实用性和安全性值得冒险。然而,直到某些东西扰乱了我们的直觉,一种同样基于情感的东西:炒作。

生成式AI存在许多问题,其中大多数几乎是无法解决的。例如,模型幻觉(例如,草莓里有多少个“r”?[6]),无法自我验证(模型无法判断自己是否正确完成任务[7]),还有其他问题,比如安全漏洞。

下面是一个AI幻觉示例对话。这是由我生成的图像。与[6]和[17]中的情况类似。

考虑到伦理,……

当我们考虑到伦理时,情况并没有因此好转。AI 引发了一系列棘手的问题:版权、隐私、环境和经济问题。简而言之,为了不超出这篇文章的篇幅限制:

AI是用被盗的数据训练的:大多数,如果不是全部用于训练的内容都是 被盗的。在我们社会正在反思作者权益保护和合理使用的界限中,AI引发的恐慌可能与它真正的盗用行为一样严重。史密森研究所[8],大西洋月刊[9],IBM[10] 和 自然杂志[11] 都在谈论这一现象。

经济不平等的持续:首席执行官们通常会进行大规模但回报率低的投资,这些投资最终会以大规模裁员、减薪和恶化工作条件等方式反过来影响工薪阶层。这延续了社会和经济的不平等,并且仅仅是为了维持人工智能泡沫的炒作 [12]。

对环境危机的贡献如下:一项关于地球的研究[13]指出,ChatGPT-3(175B参数)的训练使用了700000升淡水,并且每次平均与用户对话会消耗半升水。根据这项研究的线性外推,对于参数大约为1.8万亿的ChatGPT-4,训练将使用约7百万升水,每次对话将消耗大约5升水。

一个误传信息的例子,或者研究不当的研究案例

最近,Maxim Lott进行的一项研究,题为(原文如此)“AI智能的重大突破:OpenAI通过了IQ 120”[15],发布在他的拥有6000多名订阅者的通讯中,显示在使用IQ测试评估AI时,结果令人鼓舞。新的OpenAI o1获得了120的IQ分数,与后续模型(Claude-3 Opus、GPT4 Omni 和 Claude-3.5 Sonnet,每个模型的智商分数略高于90)相比,拉开了巨大的差距。

以下是七次智商测试的平均结果。为了提供一些背景信息,智商为120的OpenAI会位于人类智商排名的前10%。

图片来自Maxim Lott的博客文章。Mensa挪威的智商测试题目可以在网上找到,相关链接可以在这里查看这里。

有啥坑?就这样了?我们是不是已经做出比普通人还要聪明得多的模型?机器是不是已经超越了它的造物者?

问题始终在于训练数据集。Maxim Lott声称测试题不在训练数据集中,或者至少是否在其中无关紧要[15]。值得注意的是,当他用一个据称是私有的、未发表但经过校准的测试来评估模型时,IQ分数被彻底击败了

图片来自Maxim Lott的博客文章。新的测试包含新的IQ题目以及一些可以在网上找到的老题目。不清楚旧题和新题的比例是多少,也不清楚它们的难度是否均匀分布。

为什么这会发生?

这是因为模型在训练数据集中包含了这些信息,通过查找被问到的问题,它们可以直接给出答案而无需进行“思考”。

把它想象成,在考试前,一个人被提前告知了所有问题和答案,只需要记住每个问题的答案。你不会因为他们在考试中拿到100分就认为他们很聪明,是不是?

除此之外,更重要的是,在两项测试中,这些视觉模型表现都很差,它们的智商被计算为在50到67之间。他们的得分与随机作答的结果一致,在挪威门萨的测试中,随机作答的大致准确率是1/6。根据M. Lott的观察和类似WAIS-IV的实际测试,如果25/35的分数相当于120的智商,17.5/35则相当于100的智商,9/35则略高于80的智商,而随机选择(大约6/35正确)则相当于69到70的智商分数。

不仅如此,而且大多数问题背后的逻辑似乎最多也只是严重偏离正确或干脆是错的。这些模型似乎在寻找不存在的模式,或者生成预先写好的、重复使用的答案来为其选择进行解释。

此外,尽管声称测试仅供离线使用,但实际上它似乎被在线发布了一段时间。我制作了一份问卷,包含他的新问题和一些挪威门萨的问题,并邀请博客的读者参与。大约有40位读者参与了这个问卷。随后我删除了这个问卷。这样一来,这些问题从未被发布到公共互联网上,无法通过搜索引擎访问,所以应该不会被用于AI训练数据。[15]。

作者经常自相矛盾,提出缺乏实际证据支持的模糊主张,并将其当作确凿证据。

所以不仅问题是发布到了网上,测试中也包含了以前的问题(那些之前出现在训练数据中的问题)。在这里,我们再次看到,洛特的矛盾之处。

真是可惜,我们没有详细的结果和比例,也无法区分旧问题和新问题。这些结果肯定很有意思。这再次显示了研究的不完整性。

所以确实有证据显示,这些问题确实存在于训练数据中,并且这些模型都没有真正理解它们在做的事情或它们自己思考的过程。

更多示例可以在这篇关于AI和创意生成的文章中找到:这篇论文[https://arxiv.org/abs/2409.04109]。尽管它也搭上了炒作的顺风车,但它显示了模型无法分辨好点子和坏点子,暗示它们并不真正理解任务背后的道理[[7](https://arxiv.org/abs/2409.04109)]。

结果的问题是什么呢?

遵循科学方法,如果一名研究人员得到了这些结果,下一步的逻辑应该是接受OpenAI 没有 取得任何显著进展(即使实现了,也无法通过智商测试进行衡量)。相反,洛特却坚持称这是‘人工智能的重大突破’。 这就开始了误传。

误信息的影响:连锁效应

这类文章又是怎么推高AI泡沫的呢?

这篇文章的SEO优化非常巧妙。标题和缩略图都极具误导性,这使得推特、Instagram和领英上的帖子特别引人注目。这些令人难以置信的智商得分在曲线图上显得特别突出,实在令人无法忽视。

在这部分,我将回顾几个例子,说明“这条新闻”是如何在社交媒体上传播的。请注意,嵌入的推特可能需要几秒钟加载。

CC:OpenAI o1 在根据挪威门萨智商测试中现在比大多数人类更聪明。它在测试中得到了120分,比一般人的平均分高20分,比其他高端AI系统如Claude高30分。如果这是真的,确实令人难以置信。完整的测试结果如下:(文章链接) [18]

这条推文声称结果是“根据挪威门萨智商测试”,但实际上并非如此。这些说法并非来自于测试本身,而是来自第三方的声称。它先是把这些说法当作事实,但后来却又为自己留下了不承认的空间(“如果属实则疯狂”)。让我们接着看下一个。

现在的AI已经比普通人更聪明了。maximlott@做的这个研究太棒了,我非常推荐大家关注他。当所有模型都超过人类后会怎样?(这篇文章的第一部分图片)[19]

这条推特直接引用了Lott的研究,并声称“AI现在比普通人更聪明”是事实。更糟糕的是,它只提供了一张截图,显示了训练数据中的问答部分(其中分数被夸大),这对观众来说是非常误导的。

CC:发生了:OpenAI的新模型智商提升了整整30点,现在的智商是120。[…] “担心AI会统治世界吗?你确实应该担心一下 […](查看更多)。注:作者maximlott@进行了另一次未受干扰的测试,得分约为100(相当于普通人类水平),但智商提升幅度依然很大。因此,无论你参考哪个得分,提升幅度都很大,趋势显而易见。时间不多了,赶紧做好准备。[20]

这个确实具有误导性。尽管提供了一定的免责声明,信息仍然是不正确的。后一个测试 并不是 完全无污染的,据称包含了在线可获得的问题,并且在测试的视觉部分表现仍然很差。这里没有任何明显可观察的趋势。

结尾部分

反复确认我们分享的信息非常重要。虽然绝对的真理难以捉摸,但虚假或部分虚假的信息却是实实在在存在的。我们不应该因为炒作、广泛的社会情绪或其他类似因素而草率地发布信息,无意中延续了一个本应多年前就消逝的运动,这个运动正在带来如此负面的经济和社会影响。

越来越多本应属于情感和思想领域的东西正在影响我们的市场,股市每天都在变得更加动荡不安。人工智能热潮就是一个很好的例子,展示了炒作和错误信息是如何交织在一起的,以及它们可能带来的破坏性后果。

免责声明:一如既往,回复欢迎进一步讨论,我鼓励大家积极参与。任何形式的骚扰或仇恨言论,无论是针对原创帖子的作者、第三方,还是我本人,都将不被容忍。任何形式的讨论都是欢迎的,无论是建设性的还是尖锐的批评。研究应该始终能够被质疑和审核。

参考资料

[1] Google Trends,从2021年开始的“AI”和“ChatGPT”网络搜索趋势。https://trends.google.com/trends/explore?date=2021-01-01+2024-10-03&q=AI%2CChatGPT&hl=en

[2] IBM 的一项关于 CEO 如何看待及如何在业务决策中使用人工智能的研究。https://newsroom.ibm.com/2023-06-27-IBM-Study-CEOs-Embrace-生成式人工智能-as-Productivity-Jumps-to-the-Top-of-their-Agendas 更多详情请参见链接。

[3] CNN,科技公司裁员中的AI影响https://edition.cnn.com/2023/07/04/tech/ai-tech-layoffs/index.html

[4] CNN报道:裁员潮和对AI的投资。 https://edition.cnn.com/2024/01/13/tech/tech-layoffs-ai-investment/index.html。

[5] 彭博新闻,AI 正在导致的裁员比公司愿意承认的要多。(来源:https://www.bloomberg.com/news/articles/2024-02-08/ai-is-driving-more-layoffs-than-companies-want-to-admit)

[6] INC,草莓里有多少个r?这个AI也说不清 https://www.inc.com/kit-eaton/how-many-rs-in-strawberry-this-ai-cant-tell-you.html

[7] ArXiv, 一项涉及100多位NLP研究者的交流:LLM能否提出新颖的研究想法?https://arxiv.org/abs/2409.04109

[8] 史密森尼杂志(Smithsonian),AI生成的图像是否在抄袭艺术家的作品? https://www.smithsonianmag.com/smart-news/are-ai-image-generators-stealing-from-artists-180981488/

生成式AI无法引用其资料来源。(来源:《大西洋月刊》,https://www.theatlantic.com/technology/archive/2024/06/chatgpt-citations-rag/678796/)

IBM,关于AI隐私的相关内容 https://www.ibm.com/think/topics/ai-privacy

[11] AI背后的自然、知识产权和数据隐私:隐藏的风险。 https://www.nature.com/articles/d41586-024-02838-z

[12] Springer, AI炒作的机制及其对行星和社会的影响。 https://link.springer.com/article/10.1007/s43681-024-00461-2

[13] ChatGPT-3 对地球环境的影响 https://earth.org/environmental-impact-chatgpt/

[14] 推特用户“maximlott” https://x.com/maximlott

[15] Substack,AI领域的大进展:OpenAI的智商达到120。https://substack.com/home/post/p-148891210

[16] Moz, SEO是什么? https://moz.com/learn/seo/what-is-seo

[17] 泰叻的科技创新和科技界中AI幻觉的例子 https://www.thairath.co.th/money/tech_innovation/tech_companies/2814211

[18] Twitter,第一条推文 https://x.com/rowancheung/status/1835529520508016823 如下

[19] Twitter, 第二条推文 https://x.com/Greenbaumly/status/1837568393962025167

Twitter,推文 3 https://x.com/AISafetyMemes/status/1835339785419751496

[1]: “AI”和“ChatGPT”这两个术语在线兴趣随时间变化的趋势图。简化版本,并调整了宽高比,可用作缩略图的版本。数据来源:Google Trends。由我编辑整理。



这篇关于是时候彻底戳破AI泡沫了的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程