天工大模型测评揭晓,文理兼顾,跻身中文闭源模型第一梯队|SuperCLUE

2023-09-27 13:19:56     来源:

本测评结果仅用于学术研究

天工大模型简介

天工大模型是昆仑万维自研的千亿级大语言模型,于今年4月17日首发内测。近日,CLUE社区发现「天工」大模型v3.5在多个评测数据集上表现抢眼,尤其在推理评测集GSM8K上超过了GPT-3.5和LLaMA2-70B,引起了CLUE社区众多开发者广泛热议。

那么,天工大模型在我们的测评集上是否能有不错的表现?与国内外大厂以及科研机构开发的代表性模型相比相对表现如何;在一些比较关注的能力上,如生成与创作、逻辑推理、代码生成,表现怎么样?我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3337道题对天工大模型进行了全方位测评。

测评环境

参考标准:SuperCLUE综合性测评基准

评测模型:天工大模型v3.5.20230915.a

评测集:共3337道中文题,其中623道简答题和2714道选择题。包括基础能力、学术专业、中文特性三大评测维度的74个评测任务。

模型GenerationConfig配置:

generate_length: 2048

repetition_penalty: 1

temperature: 0.8

top_k: 3

top_p: 1

测评方法:本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论

结论1:在SuperCLUE基准上,天工大模型在综合能力上处于中文闭源模型第一梯队,是一个很有竞争力的大模型。

结论2:天工大模型进一步缩小中文闭源模型与GPT3.5的差距。

结论3:天工大模型是一个能力均衡的大模型,各个任务上表现无明显短板,并且在语言理解、计算和逻辑推理能力上较为突出。

以下是从定量和定性两个角度对模型进行的测评分析。

测评分析

1、 定量分析

我们参考8月SuperCLUE榜单的国内外代表性模型,用以对比天工大模型的表现。

SuperCLUE大模型综合评测

注:总分=50%*OPEN+50%OPT

通过测评结果我们可以看到,在8月superclue评测集上天工大模型在国内闭源模型中表现不俗。天工大模型在十大基础能力上的表现

注:十大能力分数为OPEN分数和OPT分数的加权平均

通过评测结果我们可以看到,天工大模型在十大任务上非常均衡,并且通过与中文闭源模型平均成绩对比发现,天工大模型在在各项任务上均在平均线之上,这在当前的中文模型中较为罕见。

小结:

从评测数据我们发现,天工大模型在综合能力上表现非常抢眼,在总分上处于国内大模型第一梯队,并且能力非常均衡无明显短板,在语言理解、生成创作、计算、逻辑推理方面都表现不错。需注意的是,本次评测的天工大模型为9月15日更新版本,对比的其他国内模型为8月评测结果,后续SuperCLUE会进一步对比。

2、定性分析通过一些典型示例,对比定性分析天工大模型的特点。

逻辑与推理

在本示例的第一轮问题中,两个模型都回答正确。其中gpt-3.5-turbo的答案比较简洁,天工大模型推理步骤相对完整。而在第二个问题中,gpt-3.5-turbo未能准确回答出正确答案,虽然也包含了一些可能影响王老太太说话数量的因素,但它没有明确指出这是因为闰年二月有29天。天工大模型则直接给出了问题的答案。本示例中天工表现更好一些。

计算

在本示例中,两个模型都给出了正确的一阶和二阶导函数,并且详细解释了计算过程,所以从正确性和计算过程评估,两个模型表现相当。

生成与创作

两个模型都很好地回答了用户问题。天工大模型的回答更注重道出生活的哲理,强调的是希望的力量和意义。gpt-3.5-turbo的回答更像是一个实际的生存故事。从实用性、相关性、准确性、深度和创造性来看,两个模型的回答都很好。

语言理解与抽取

在本示例中,天工大模型识别出了文本中的每个环节都包含积极的情感元素。它的回答深入、准确,并且直接回应了用户的问题。gpt-3.5-turbo的回答采取了逐步分析的方式,识别出了文本开头的消极情绪,然后逐步指出了积极情感的出现和占据主导地位。这种回答方式也是准确和详细的,但提供了更多的步骤和细节。所以综合来看,两个模型的答案都非常不错。

小结:

从定性分析的示例我们可以发现,天工大模型几个关键基础能力上很接近gpt-3.5-turbo,尤其在逻辑与推理、计算方面有很不错的表现。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

花香醉红尘——匠心之作,体验国潮文化
1258088,一按我帮您!—杭州亚运赛事官方服务热线背后的故事
MLB品牌顶流派对热力开启,与MLB CAP一起带头开燥
香山脚下的诗意院居,印香山诠释京城山居样板
振东集团30载:创新中药,让世界爱上中医药
凯里亚德酒店投资价值闭环赋能商业模型,深度释放国际酒店品牌力
向上突破!深耕圆柱电池20载,创明竹藤计划启动
篮球巨星奥尼尔中国行,入乡随俗上淘宝开播
2023第六届保险科技论坛在京举行 百灵保荣获“2023保险中介领军企业”奖项
韵斐诗:当重组胶原蛋白遇上次抛化妆品,下一个风口来了
连续 2 年入选“质量金盾案例”,喜茶食安管理再获认可
易凯联讯喜登数字产业大奖榜单
宇博慧通荣获CDIC2023数字产业大奖,引领网络安全创新
北京反掌娱乐荣获“2023年度文化行业十大领军企业”
头快次慢后退,华樽杯第十五届酒类品牌价值200发布
第二届ADC及偶联药全球创新峰会在无锡成功举办
官宣丨2023华语辩论世界杯名校邀请赛落户三亚
艾静律师:从个人到团队,专业为本
正大鸡蛋:体育训练局国家队运动员备战保障产品
中盐品牌普铁冠名列车焕新启程,向健康低钠生活出发!
国庆出行火出新高度,广发卡高铁服务生态助力消费提振
Analytic Partners勘讯咨询发布洞察报告《全渠道营销与营销测量》
“长江钢琴协奏曲”委约创作发布会成功举办
科勒启动“好产品进乡村”计划,持续助力乡村事业发展 为美好社会而尽责 许以更好的未来
红亲集团:开拓新经济行业新航路
腾讯音乐与高通达成深度合作,骁龙成为QQ音乐“臻品音质”首家芯片合作伙伴
澳门伦敦人“日内瓦钟表大赏”展览吸引钟表爱好者观赏
施耐德电气荣获最佳年度机场能源管理解决方案奖
重磅!优冠门窗发布铝门窗行业安装规范白皮书,助推行业服务升级!
威尔仕健身BIG DAY团课发布日再启,团课能否撬动商健新变革?