大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类( 四 )


大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图
对于OpenChat-13B和Vicuna-7B V1.1,在回答需要细节的时候,它们偶尔不会在点扩展阶段写出任何东西 。
净胜率高的模型 。高净胜率的模型(Vicuna-13B V1.3,StableVicuna-13B 和 UltraLM-13B)介于上述两个极端之间 。
研究得出,对于能够理解SoT提示的模型,答案的质量可能会得到提高 。
研究团队期望能进一步改进SoT提示或微调模型,使LLM更容易理解框架和论点扩展的提示,最终获得更好质量的答案 。
质量分解:度量
所有以前的评估都使用关于答案总体质量的度量标准 。
在图10中,研究人员显示了来自LLMZoo的更详细的指标,以揭示SoT在哪些方面可以改善或损害答案质量 。
平均而言,可以看到SoT提高了多样性和相关性,同时损害了沉浸感和一致性 。
大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图
使用LLMZoo的指标,SoT相对于正常生成在多样性和相关性方面表现良好,而在连贯性和沉浸感方面相对较差 。
总的来说,SoT鼓励LLMs直接从多个方面讨论答案,而无需使用填充词 。
尽管回答会有一定程度的连贯性和沉浸感的损失,但SoT大大改善了答案的多样性和相关性 。
然而,在回答的连贯性和沉浸感方面,大约60%的情况下SoT的生成也不比正常生成差 。
更多细节参考论文 。
局限性
由于提示集的限制、现有LLM判断的偏差,以及LLM属性评价的内在困难,研究人员目前对LLM问题的答案质量的评价还远不全面 。
对更可靠的质量评价而言,扩展提示集,以及用人工评价补充基于LLM的评价非常重要 。
然而,目前的研究主要集中在揭示潜在的效率效益上,即通过重新思考现有LLM「全序列解码」的必要性,可以实现相当大的加速 。
因此,研究人员在最后将对答案质量的更彻底的评估留给了未来的工作 。
参考资料:
https://arxiv.org/pdf/2307.15337.pdf




推荐阅读