AI表现出“意识”,人类该慌吗?( 五 )


AI表现出“意识”,人类该慌吗?

文章插图
3月24日 , 手机上展示的“文心一言”AI画作 。图/视觉中国
“炼大模型”风潮
一个有趣的说法是 , ChatGPT被推出后 ,  AI世界被划分成了两派:OpenAI和追赶OpenAI的公司 , 全球科技公司掀起了“炼大模型”的风潮 。
李志飞毕业于美国约翰霍·普金斯大学语言与语音处理实验室 , 曾在谷歌工作了三年 , 任谷歌总部科学家 , 从事机器翻译的研究和开发工作 , 2012年回国 , 在语音交互领域创业 。ChatGPT面世后 , 他预感“自己的时代到了” 。他一个月飞往硅谷两次 , 与谷歌、微软、OpenAI、Meta等公司的AI工程师交流 。他注意到 , 美国知名孵化器Y Combinator , 可能三分之一以上的项目都是基于大模型做的应用 。2月15日 , 他公开宣布 , 将在大模型领域创业 , 要做“中国版的OpenAI” 。
4月8日 , 浙江大学人工智能研究所所长吴飞在一次论坛中分享 , ChatGPT的技术路线中 , 数据是燃料、模型是引擎、算力是加速器 。ChatGPT和GPT-4未公开更多技术细节 , 但参照GPT-3 , 吴飞估算训练ChatGPT的门槛:数据方面 , 训练中使用了45TB数据、近1万亿单词 , 数十亿行源代码 。模型规模上 , 1750亿参数如果被打印在A4纸上 , 加起来将超过上海中心大厦632米的高度 。算力方面 , 2020年微软为OpenAI打造了一台超级计算机 , 其中包含1万个英伟达V100 GPU(图形处理器) , 吴飞估算投入超过10亿人民币 。
李志飞估算 , 做大模型的入门门槛至少需要5000万美元 , 2000万购买算力 , 2000万招募人才 , 1000万购买数据 。对标ChatGPT , 4月7日 , 阿里巴巴推出自研超大规模语言模型“通义千问” , 开启内测 。一个月前 , 百度发布大语言模型“文心一言” 。此外 , 华为在打造盘古大模型 , 腾讯在加快推进大模型 “混元” , 字节跳动也开始布局 。
未来是否需要这么多大模型?支持者称 , 大模型将是未来人工智能发展的基础设施 , 像水或电一样随取随用 。前述公开信将现状描述为“一场失控的竞赛” , 加州理工学院电气工程和计算机科学教授阿布-穆斯塔法对《中国新闻周刊》说 , 这是一种“情绪化”的表述 , 短期内 , 只有2~3个像ChatGPT这样强大的AI工具会占领全球市场 , 未来也只有谷歌、微软等少数几家科技巨头能在世界级竞赛中胜出 。
李志飞向《中国新闻周刊》解释 , 不同于互联网大厂 , 国内一些创业公司可以针对具体应用场景去定义大模型的能力、参数规模及需要哪些领域的数据 , “模型质量不单依赖于模型和数据规模 , 数据质量非常重要 , 如果以应用为驱动 , 数据可以更有针对性选择” 。
复制ChatGPT并不简单 。2022年5月 , 由Facebook更名的Meta开源了大模型OPT , 并在相关论文中写到 , “考虑到计算成本 , 如果没有大量资金 , 这些模型很难复制 。对于少数可通过API获得的大模型 , 无法访问完整的模型权重 , 使得他们难以被研究 。”今年3月 , OpenAI首席科学家兼联合创始人伊利亚·苏茨克维尔解释 , 不开源大模型是因为担心竞争及担心安全 。GPT-4开发不易 , 很多公司都想做同样的事情 。从安全角度考虑 , 模型的能力正在变得越来越强 , 如果开源 , 可能有人会利用这个模型作恶 。
以Transformer为底层技术的大模型至今仍是“黑盒子” , 开发者无法从科学上解释其内在机制 , 只能通过观察、经验总结一些结论 。有研究者提到 , 同一组数据 , 输入先后顺序不同 , 效果也会有差异 。在李志飞看来 , 小模型跑数据更容易 , 炼大模型时 , 工程师在什么时间把什么类型的数据“喂”给大模型 , 都变得非常重要 。
“目前为止 , 没有哪一个大模型能复现哪怕是GPT-3.5的能力 。即使OpenAI自己重做 , 也不一定能复现出之前模型的效果 。”李笛向《中国新闻周刊》说 。但也有学者对国内研制出GPT保持乐观 , OpenAI从2018年以来持续投入完善大模型 , 有“时间壁垒” , 不存在技术壁垒 。


推荐阅读