华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

2023-06-05 11:39:28 来源：新智元

大模型能力涌现，参数规模越大越好？

然而，越来越多的研究人员声称，小于10B的模型也可以实现与GPT-3.5相当的性能。

真是如此吗？

(相关资料图)

OpenAI发布GPT-4的博客中，曾提到：

在随意的交谈中，GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够阈值时，差异就会出现——GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。

谷歌的开发者对PaLM模型也进行了类似的观察，他们发现，大模型的思维链推理能力明显强于小模型。

这些观察都表明，执行复杂任务的能力，才是体现大模型能力的关键。

就像那句老话，模型和程序员一样，「废话少说，show me the reasoning」。

来自爱丁堡大学、华盛顿大学、艾伦AI研究所的研究人员认为，复杂推理能力是大模型在未来进一步朝着更加智能化工具发展的基础。

基本的文字总结归纳能力，大模型执行起来确实属于「杀鸡用牛刀」。

针对这些基础能力的测评，对于研究大模型未来发展似乎是有些不务正业。

论文地址：https://arxiv.org/pdf/2305.17306.pdf

大模型推理能力哪家强？

这也就是为什么研究人员编制了一个复杂推理任务列表Chain-of-Thought Hub，来衡量模型在具有挑战性的推理任务中的表现。

测试项目包括，数学（GSM8K)），科学（MATH，定理 QA），符号（BBH），知识（MMLU，C-Eval），编码（HumanEval）。

这些测试项目或者数据集都是针对大模型的复杂推理能力下手，没有那种谁来都能答得八九不离十的简单任务。

研究人员依然采用思维链提示（COT Prompt）的方式来对模型的推理能力进行测评。

对于推理能力的测试，研究人员只采用最终答案的表现作为唯一的衡量标准，而中间的推理步骤不作为评判的依据。

如下图所示，当前主流模型在不同推理任务上的表现。

测试结果：模型越大推理能力越强

研究人员的研究专注于当前流行模型，包括GPT、Claude、PaLM、LLaMA和T5模型家族，具体而言：

OpenAI GPT包括GPT-4（目前最强）、GPT3.5-Turbo（更快，但能力较弱）、text-davinci-003、text-davinci-002和code-davinci-002（Turbo之前的重要版本）。

Anthropic Claude包括claude-v1.3（较慢但能力较强）和claude-instant-v1.0（较快但能力较弱）。

Google PaLM，包括PaLM、PaLM-2，以及它们的指令调整版本（FLan-PaLM和Flan-UPaLM），强基础和指令调整模型。

Meta LLaMA，包括7B、13B、33B和65B变体，重要的开放源码的基础模型。

GPT-4在GSM8K和MMLU上明显优于其他所有模型，而Claude是唯一一个与GPT系列相媲美的模型。

FlanT5 11B和LLaMA 7B等较小的模型掉队掉的厉害。

通过实验，研究人员发现，模型性能通常与规模相关，大致呈对数线性趋势。

不公开参数规模的模型，通常比公开规模信息的模型表现更好。

LLaMA-65B推理能力接近ChatGPT

另外，研究者指出，开源社区可能仍需要探索关于规模和RLHF的「护城河」以进一步改进。

论文一作符尧总结道：

1. 开源和封闭之间存在明显的差距。

2. 大多数排名靠前的主流模型是RLHF

3. LLaMA-65B非常接近code-davinci-002，GPT-3.5的基础模型

4. 综合上述，最有希望的方向是「在LLaMA 65B上做RLHF」。

针对这个项目，作者对未来的进一步优化进行了说明：

未来会增加更多包括更精心选择的推理数据集，尤其是衡量常识推理、数学定理的数据集。

以及调用外部 API 的能力。

更重要的是要囊括更多语言模型，例如基于 LLaMA 的指令微调模型，例如 Vicuna7等等开源模型。

还可以通过 API像 Cohere 8 一样访问PaLM-2 等模型的能力。

总之，作者相信这个项目可以作为评估和指导开源大语言模型发展的一个公益设施发挥很大作用。

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

新智元 2023-06-05
6月5日内蒙阜丰液氨报价持稳|世界简讯

生意社 2023-06-05
开发区：全区首笔！

新报观察 2023-06-05
麦饼的做法视频_麦饼|当前热讯

互联网 2023-06-05
lpl夏季赛积分榜季后赛 lpl夏季赛积分榜

城市网 2023-06-05
大方巾的系法图解视频_大方巾的系法图解大全

互联网 2023-06-05
组装机是什么意思_组装机全球观天下

互联网 2023-06-05
表里山河一词出自于哪里_表里山河一词出处

互联网 2023-06-05
如何瘦肚子和腰上的赘肉视频教程_如何瘦肚子和腰上的赘肉当前短讯

互联网 2023-06-05
什么是年度汇算申报_什么是年度汇算清缴_世界快资讯

互联网 2023-06-04

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

新智元 2023-06-05
6月5日内蒙阜丰液氨报价持稳|世界简讯

生意社 2023-06-05
开发区：全区首笔！

新报观察 2023-06-05
麦饼的做法视频_麦饼|当前热讯

互联网 2023-06-05
lpl夏季赛积分榜季后赛 lpl夏季赛积分榜

城市网 2023-06-05
大方巾的系法图解视频_大方巾的系法图解大全

互联网 2023-06-05
组装机是什么意思_组装机全球观天下

互联网 2023-06-05
表里山河一词出自于哪里_表里山河一词出处

互联网 2023-06-05
如何瘦肚子和腰上的赘肉视频教程_如何瘦肚子和腰上的赘肉当前短讯

互联网 2023-06-05
什么是年度汇算申报_什么是年度汇算清缴_世界快资讯

互联网 2023-06-04
焦点快播：以色列格斗术培训班_以色列格斗术

互联网 2023-06-04
全球今热点：“雨口夺粮”！河南麦收最新进展→

人民网 2023-06-04
中国在打击毒品和相关化学品走私上卓有成效|精选

中评网 2023-06-04
仙侠剧《花戎》上线，叔圈男神+童年女神开出王炸组合

网易娱乐 2023-06-04
每日视点！银行定期存款有“讲究”？内部员工不建议存3年定期，原因揭晓

东方资讯 2023-06-04
法兰绒面料是什么成分_法兰绒面料特点

互联网 2023-06-04
公主琵琶幽怨多打一数字_公主琵琶幽怨多即时

互联网 2023-06-04
全球热文：值得回味的经典语录

个人图书馆-dbnjhkq 2023-06-04
帅化民评解放军歼-16拦截美侦察机：美借机挑衅，大陆已经够容忍了_全球新消息

环球网 2023-06-04
新模式、新理念、新服务，全国广汽传祺新能源体验中心集体开业

搜狐汽车 2023-06-04
中经评论：教授院士“破圈” 让科学更抵人心_全球新资讯

中国经济网 2023-06-04
我国民用无人机领域首项国标发布

工人日报客户端 2023-06-04
天天看点：口碑好的泰国香米（泰国香米哪个牌子好）

互联网 2023-06-04
全球信息:推荐穿越文、推荐架空文、推荐古色古香文

互联网 2023-06-04
好老板！知名港星被曝获王祖蓝邀约入减肥营，4万费用无需自己付-环球今日讯

剧透社娱乐 2023-06-04
全球球精选！日本拉面店将《水星的魔女》苏拉塔吃的餐点实体还原

哔哩哔哩 2023-06-04
要闻速递：尿液白细胞wbc偏高是什么意思_尿检wbc白细胞偏高是什么意思

互联网 2023-06-04
二阶代数余子式怎么求_代数余子式怎么求|天天快资讯

互联网 2023-06-04
“三夏”大规模小麦机收全面展开

央视网 2023-06-04
年产3.5亿枚可绕地球半圈

信息新报 2023-06-04