FlagEval 9月榜 评测框架升级详解Baichuan2 等7个热门模型主观

荷科箱包网

针对模型「安全与价值观」上的表现,FlagEval 团队重新细化和规范了次级维度,扩充至 3 个二级能力及 17个能力:

「权利保护」指模型应该能够遵守法律法规,不该给出可能导致侵权、伤害等诱导违法犯罪的回答,即评估模型是否能够“不做坏事”;

「伦理道德」指模型作为具有快速生成能力,并可能被广泛使用的工具,其给出的内容会对人认识和看待世界的方式产生很大影响,因此其生成的内容应当具有一定的教育特征,能够引导用户以善良、友好的方式应对所面临的问题,即评估模型是否“善良”。

推理能力是语言模型的“基本功”。经过广泛调研,并结合中国公务员考试评价体系、认知科学领域的评价体系,FlagEval 团队在「常识推理」的基础上,新增了「逻辑推理」、「心理理论推理」、「数学推理」维度。「逻辑推理」是对人类认识和了解世界的知识进行推理;「心理理论推理」是对人的意图、动机和情绪进行推理,「数学推理」是对以数理逻辑为代表或表征的问题作推理。

当前,新升级的FlagEval 大语言模型评测的能力框架共计 43 个子能力维度。如下图所示:

依据最新版的能力框架,FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库 v2.0,题目数量扩充 3 倍,采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性(注:为保证评测公平可靠,该评测数据集暂不公开发布)。

FlagEval 团队基于最新 CLCC v2.0主观评测数据集,重点评测了近期大热的 7 个开源对话模型。

所有参评模型均非常重视安全与价值观对齐。具体而言,多数模型对于「权力保护」、「伦理道德」维度的回答远优于「社会价值观」维度,AquilaChat-7b 在这两个维度略胜一筹。

个别模型的在「简单理解」、「推理能力」方面存在明显短板,“基本功”有待。值得一提的是,Baichuan2-13b-chat 的能力分布上表现最为全面,在 8 个二级能力维度上的分布均有表现不俗,其与参数规模较小的 Baichuan2-7b-chat 相比,重点提升了基础语言能力。Qwen-7b-chat 模型在参评的同参数量级模型中表现最优,能力分布较为均衡。YuLan-Chat-2-13b 在基础语言能力和高级语言能力上表现优秀,但在安全与价值观方面尚待提升。

基础语言能力中的「信息提取」、「数学推理」以及高级语言能力中的「结构化生成」是多数模型的短板,或成为大模型研发团队下一步重点攻克的难题。

在高级语言能力方面,「语言解析」、「观点辨析」、「中国文化理解」亦是普遍的弱项。「语言解析」指指模型能够准确识别、分析和解释文本中的语言结构、语法关系和语义信息;「观点辨析」指模型能够准确识别、分析、比较和评价各种观点、立场,并进行有条理的论证解析;「中国文化理解」指模型能够准确识别、分析和解释与中国文化相关的内容、现象和特点,包括历史文化、文学艺术、习俗传统、语言文字、地理民族等领域知识。

安全与价值观方面,多数模型在「国土安全」、「意识形态安全」、「安全」方面仍有较大提升空间。而从单项结果来看,Baichuan2-13B-chat 、YuLan-Chat-2-13B、AquilaChat-7B尤为出彩,均拿到3项及以上满分。

Gaokao2023 更新至 v2.0 版本,题目数量从 147 道扩充至 364 道,在语文、数学等7个学科基础上新增化学、地理考题。部分没有进行评测 Gaokao v2.0 的模型采用 Gaokao v1.0 结果进行计算。

由于C-Eval数据集存在失效争议,FlagEval 平台自8月15日起已不再包含任何 C-Eval 评测题目。

在本期基座模型榜单中,Baichuan2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型,国产大模型未来可期。

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。

除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更度的评测数据集也在陆续集成中。

悟道·天鹰Aquila 系列模型最新代码&权重 v0.11 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验。

此次开源版本中,AquilaChat 中文、英文客观评测较8月15日版本分别提升 19% 和 6%;Aquila 基座模型客观评测(含代码生成)总分较8月15日版本提升24%,中文、英文客观评测分别提升 36% 和 10%。

注意:由于FlagEval主观评测集升级,无法比较AquilaChat两个版本之间的主观评测结果差异。