ChatGPT笨了,还是老了?( 二 )


早在5月份,就有大模型老用户在OpenAI论坛上开始抱怨GPT-4,“在以前表现良好的事物上表现出困难” 。据《Business Insider》7月份报道称 , 很多老用户将GPT-4与其以前的推理能力和其他输出相比 , 形容为“懒惰”和“愚笨” 。
由于官方并未对此作出回应,人们开始对GPT-4性能下降的原因进行推测,会不会是因为此前OpenAI的现金流问题?主流猜测集中在成本优化导致的性能下降方面 。一些研究者称 , OpenAI可能在API后面使用了规模较小的模型,以降低运行ChatGPT的成本 。
不过这个可能性随后被OpenAI的产品副总裁Peter Welinder否认 。他在社交媒体上表示:“我们没有让GPT-4变得更笨 , 目前的一个假设是,当你更加频繁地使用它时 , 会开始注意到之前没有注意到的问题 。”
更多的人、更长时间的使用,暴露了ChatGPT的局限性 。对于这种假设,研究者试图通过更严谨的实验呈现“ChatGPT性能和时间关系的变化” 。
来自斯坦福大学和加州大学伯克利分校在7月份提交的一篇题为《How is ChatGPT's behavior changing over time?》的研究论文显示:同一个版本的大模型,确实可以在相对较短的时间内发生巨大变化 。
从3月份到6月份,研究者测试了GPT-3.5和GPT-4两个版本,采集了四个常见的基准任务数学问题、回答敏感问题、代码生成和视觉推理的生成结果,并进行评估 。结果显示,无论是GPT-3.5还是GPT-4 , 二者的性能和生成结果,都有可能随时间而变化 。
数学能力方面 , GPT-4(2023年3月)在识别质数与合数方面表现得相当不错(84%准确率),但是GPT-4(2023年6月)在相同问题上的表现不佳(51%准确率) 。有趣的是 , CPT-3.5在这个任务上6月份的表现要比3月份好得多 。
不过在敏感问题方面,GPT-4在6月份回答敏感性问题的意愿较3月份下降;代码能力方面,GPT-4和GPT-3.5,都在6月份表现出比3月份更多的错误 。研究者认为,虽然ChatGPT的性能和时间没有明显的线性关系,但是准确性确实会飘忽不定 。

ChatGPT笨了,还是老了?

文章插图
这不仅是ChatGPT自己的问题,也是此前所有AI模型的通病 。根据麻省理工学院、哈佛大学、蒙特雷大学和剑桥大学2022年的一项研究表明,91%的机器学习模型都会随着时间的推移而退化,研究者将这种现象称为“人工智能老化” 。
例如,google Health曾经开发了一种深度学习模型,可以通过患者的眼睛扫描来检测视网膜疾病 。该模型在训练阶段的准确率达到90%,但在现实生活中却无法提供准确的结果 。主要是因为在实验室,采用高质量的训练数据,但是现实世界的眼睛扫描质量较低 。
受制于机器学习模型老化的情况,过去走出实验室的AI技术,以单一的语音识别技术为主,智能音箱等产品因此最先普及 。根据美国人口普查局2018年对58.3万家美国公司的调查,只有2.8%使用机器学习模型来为其运营带来优势 。
不过伴随着大模型智能涌现能力的突破,机器学习模型的老化速度明显减弱,逐渐走出实验室面向更广泛的受众 。不过,涌现能力的黑盒下仍有不可预测性 , 让不少人对于ChatGPT能否长期保持AI性能的不断提升提出质疑 。
黑盒下的抗衰老性
人工智能老化的本质,其实是机器学习模型的范式缺陷 。
ChatGPT笨了,还是老了?

文章插图
过往 , 机器学习模型是按照具体任务和具体数据的对应关系进行训练 。通过大量的例子,先教给模型,那个领域中什么是好,什么是坏,再调节一下模型的权重,从而输出恰当的结果 。这种思路下,每做一些新的事情,或者数据分布有明显变化,都要重新训练一遍模型 。
新事情和新数据无穷无尽 , 模型就只能刷新 。但是模型的刷新也会导致过去做得好的事情突然做不好了,进一步限制应用 。总结来看,传统的机器学习模型中,数据飞轮本质是为了迭代模型,用新模型解决新问题的范式 。
不过以ChatGPT为代表的大模型,涌现出自主学习能力,突破了这种范式 。过往的机器学习,是先“吃”数据,之后“模仿”,基于的是对应关系;ChatGPT类的大模型,是“教”数据,之后“理解” , 基于的是“内在逻辑” 。
这种情况下,大模型本身不发生变化 , 理论上可以永葆青春 。不过也有从业人士表示,正如大模型的智能涌现一样,是非线性发展、不可预测的,是突然就有的 。对于大模型是否会随着时间发生衰老,涌现出难以预测的不可确定性也是未知的 。


推荐阅读