
文章插图
对于OpenChat-13B和Vicuna-7B V1.1,在回答需要细节的时候,它们偶尔不会在点扩展阶段写出任何东西 。
净胜率高的模型 。高净胜率的模型(Vicuna-13B V1.3,StableVicuna-13B 和 UltraLM-13B)介于上述两个极端之间 。
研究得出,对于能够理解SoT提示的模型,答案的质量可能会得到提高 。
研究团队期望能进一步改进SoT提示或微调模型,使LLM更容易理解框架和论点扩展的提示,最终获得更好质量的答案 。
质量分解:度量
所有以前的评估都使用关于答案总体质量的度量标准 。
在图10中,研究人员显示了来自LLMZoo的更详细的指标,以揭示SoT在哪些方面可以改善或损害答案质量 。
平均而言,可以看到SoT提高了多样性和相关性,同时损害了沉浸感和一致性 。

文章插图
使用LLMZoo的指标,SoT相对于正常生成在多样性和相关性方面表现良好,而在连贯性和沉浸感方面相对较差 。
总的来说,SoT鼓励LLMs直接从多个方面讨论答案,而无需使用填充词 。
尽管回答会有一定程度的连贯性和沉浸感的损失,但SoT大大改善了答案的多样性和相关性 。
然而,在回答的连贯性和沉浸感方面,大约60%的情况下SoT的生成也不比正常生成差 。
更多细节参考论文 。
局限性
由于提示集的限制、现有LLM判断的偏差,以及LLM属性评价的内在困难,研究人员目前对LLM问题的答案质量的评价还远不全面 。
对更可靠的质量评价而言,扩展提示集,以及用人工评价补充基于LLM的评价非常重要 。
然而,目前的研究主要集中在揭示潜在的效率效益上,即通过重新思考现有LLM「全序列解码」的必要性,可以实现相当大的加速 。
因此,研究人员在最后将对答案质量的更彻底的评估留给了未来的工作 。
参考资料:
https://arxiv.org/pdf/2307.15337.pdf
推荐阅读
- 把大模型装进手机,分几步?
- 国产AI大模型哪家强?十大维度横评四款主流大模型!
- 网易胡志鹏:从游戏到产业,AI大模型价值正显现
- 清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
- 中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?
- AI大模型下的人才竞争多激烈
- 苹果手机上网移动数据速度慢怎么办 苹果手机移动网络慢怎么解决
- 华为HarmonyOS 4内置AI大模型,余承东:鸿蒙生态已过万重山
- 大模型上车,AI的又一个“狼来了”?
- 半年大模型,还在天上飞
