对于FastChat指标,研究人员还展示了排除数学和编码问题(SoT不适用于这些问题,请参见3.2.2节)的比率:
在超过90%的情况下,SoT与基准相当 。这表明SoT的答案保持着良好的质量 。
使用FastChat和LLMZoo的「基准」,SoT相较于正常生成,在大约80%的情况下表现更好或者相当 。
2. SOT在不同类别问题上的表现
图8计算了所有问题类别的净胜率(胜率-败率) 。
与图7类似,LLMZoo指标下SoT的质量比FastChat的更好 。
但不论在哪个框架指标下,SoT在泛型、常识、知识、角色扮演和反事实方面的表现都相对较好,而在写作、费米问题、数学和编码方面表现相对较差 。
研究人员调查了如下一些问题的答案,并总结了下面的发现 。
净胜率低的类别
数学
数学问题需要循序渐进的思考 。如果不知道前面的步骤,很难推导出下面的步骤 。SoT强调扩展顺序思考步骤,以成功解决这些问题的重要性 。
相比之下,SoT要求模型首先提出解决方案的框架,不参考以前的结果独立地推断每个单独的步骤 。
这两个都是具有挑战性的任务 。
强模型能够得到(a)正确,但在(b)失败 。
在下面的例子中,ChatGPT-35得到了正确的框架步骤 。然而,在不知道第一步的结果的情况下,模型开始在第二步犯错误 。

文章插图
对于较弱的模型,步骤(a)甚至都很难达到正确的标准 。例如,如下图所示,在 Vicuna-13B V1.3的 SoT 解决方案中,第三步「应用箔片」是突然出现的 。
这使 SoT 的解决方案并不正确(尽管普通代的解决方案也不正确) 。

文章插图
编码
在大多数情况下,模型能够在框架阶段将编码问题分解为较小的任务,但是在论点扩展阶段的生成质量很差 。
这可能是由于研究人员没有仔细地为编码设计一个特殊的点扩展提示符 。
在某些情况下,模型只生成一个描述,说明如何在不给出代码的情况下完成实现 。

文章插图

文章插图
写作
写作问题通常是写一封电子邮件,一篇博客文章,或者一篇给定场景下的评论 。
在FastChat和LLMZoo的详细评估结果中,最主要也是最常见的抱怨是SoT的回答不够详细 。但这一点可以通过要求更多细节的点扩展提示得到改善 。

文章插图
净胜率高的类别
反事实,知识,常识,通用
所有这四个类别都有相同的特征:理想的答案应该包括几个相对独立的点 。
在扩展细节之前,让LLM生成一个框架可以对这个问题进行更全面的讨论 。
此外,将答案组织成一个点的列表使得答案更容易阅读,而普通生成的答案有时结构化程度较低,可读性较差 。

文章插图

文章插图

文章插图

文章插图
角色扮演

文章插图
总结以上内容,可以得出:
如果提问问题可以从多个论点出发,并且这些论点的细节可以独立扩展,SoT的表现十分良好 。
但如果是需要逐步思考的问题,比如数学问题,SoT就很难发挥作用 。
为了能在更广泛的问题中通用SoT,一个可行的途径是使SoT根据问题自适应地退回到1阶段的顺序生成,而不触发点扩展 。
研究中的一些结果表明,某些LLMs已经能够偶尔在没有特殊提示或调整的情况下实现这一点 。
质量分解: 模型
接下来,团队还研究了SoT在不同模型上的性能,计算了图9中所有模型的净赢率 。
同样,团队看到FastChat和LLMZoo的两个通用指标具有不同的绝对值,但排名相似 。
特别是,这两个指标都认为OpenChat-13B、Vicuna-7B V1.1、Claude、chatgpt-3.5的净胜率较低,而Vicuna-13B V1.3、 StableVicuna-13B 和 UltraLM-13B的净胜率较高 。
净胜率低的模型
OpenChat-13B和Vicuna-7B V1.1 。
对于较弱的模型,如OpenChat-13B和Vicuna-7B V1.1,他们不能精确地跟随SoT提示 。OpenChat-13B中框架有时包含着不想要的内容 。
推荐阅读
- 把大模型装进手机,分几步?
- 国产AI大模型哪家强?十大维度横评四款主流大模型!
- 网易胡志鹏:从游戏到产业,AI大模型价值正显现
- 清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
- 中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?
- AI大模型下的人才竞争多激烈
- 苹果手机上网移动数据速度慢怎么办 苹果手机移动网络慢怎么解决
- 华为HarmonyOS 4内置AI大模型,余承东:鸿蒙生态已过万重山
- 大模型上车,AI的又一个“狼来了”?
- 半年大模型,还在天上飞
