大模型速度狂飙2.39倍！清华联手微软首提SoT，让LLM思考更像人类( 四 ) _大模型

文章插图
对于OpenChat-13B和Vicuna-7B V1.1，在回答需要细节的时候，它们偶尔不会在点扩展阶段写出任何东西。
净胜率高的模型。高净胜率的模型（Vicuna-13B V1.3，StableVicuna-13B 和 UltraLM-13B）介于上述两个极端之间。
研究得出，对于能够理解SoT提示的模型，答案的质量可能会得到提高。
研究团队期望能进一步改进SoT提示或微调模型，使LLM更容易理解框架和论点扩展的提示，最终获得更好质量的答案。
质量分解：度量
所有以前的评估都使用关于答案总体质量的度量标准。
在图10中，研究人员显示了来自LLMZoo的更详细的指标，以揭示SoT在哪些方面可以改善或损害答案质量。
平均而言，可以看到SoT提高了多样性和相关性，同时损害了沉浸感和一致性。

文章插图
使用LLMZoo的指标，SoT相对于正常生成在多样性和相关性方面表现良好，而在连贯性和沉浸感方面相对较差。
总的来说，SoT鼓励LLMs直接从多个方面讨论答案，而无需使用填充词。
尽管回答会有一定程度的连贯性和沉浸感的损失，但SoT大大改善了答案的多样性和相关性。
然而，在回答的连贯性和沉浸感方面，大约60%的情况下SoT的生成也不比正常生成差。
更多细节参考论文。
局限性
由于提示集的限制、现有LLM判断的偏差，以及LLM属性评价的内在困难，研究人员目前对LLM问题的答案质量的评价还远不全面。
对更可靠的质量评价而言，扩展提示集，以及用人工评价补充基于LLM的评价非常重要。
然而，目前的研究主要集中在揭示潜在的效率效益上，即通过重新思考现有LLM「全序列解码」的必要性，可以实现相当大的加速。
因此，研究人员在最后将对答案质量的更彻底的评估留给了未来的工作。
参考资料：
https://arxiv.org/pdf/2307.15337.pdf

大模型速度狂飙2.39倍！清华联手微软首提SoT，让LLM思考更像人类( 四 )

推荐阅读

海军|我国需要多少艘航母，两艘远远不够，四艘还是太少，局座给出答案

怎样培养孩子的耐心_孩子没耐心怎么培养_孩子没有耐心怎么教育

「日食」6月21日金环日食！错过要再等上10年

『新车部落』高度还原概念车设计，吉利ICON评测，国产黑马、对标合资

安徽歙县高考恢复正常|安徽歙县高考恢复正常 9日补考语文和数学

健养小王医师|月经规律了，子宫慢慢变好，不想一脸皱纹可试试！，女性常吃此物

英国巨石阵石料来源之谜被揭开|英国巨石阵石料来源之谜被揭开是怎么回事?终于真相了,原来是这样!

文汇网|日本男演员三浦春马去世，年仅30岁，四天前还在更新微博

天天进步|和婆婆老公走机场，紫色T恤配格纹阔腿裤显年轻，伊能静真幸福

评说世界|一天要抽掉2包，现在过得怎么样？，当年“烟不离嘴”的2岁男孩

夏天家里没有空调怎么办家里没空调夏天怎么办

小光养生小课堂|推荐吃水果保健，快看看有没有你喜欢的！，孕妇如何饮食养生

『福原爱』官宣！考辛斯的重要决定，火箭的塔克另谋生路，NBA的最新损失曝光

『』职场中，越来越多的人对升职提拔看淡了，原因有这些！

抖音为什么不能修改文案和图片抖音为什么不能修改文案

小曾|跳楼砸死父亲女生患抑郁症,因抵触钢琴或学习成绩差与父母产生矛盾

澎湃新闻|日赚5亿元！阿里第一财季度营收1537亿，同比增34%

行业互联网频抛橄榄枝银行理财子公司“破圈”营销之路

婚前男方父母全额买房并签合同，婚后才能办理拿到房产证，房产证可以只填男方名字

梦幻西游|梦幻西游：百级装备改版所带来的影响，对于神威玩家是好消息