智源最新评测结果发布:豆包大模型“主观评测”排名第一,多榜单位居国内第一

2024-12-20 17:53:45     来源:

12月19日,智源研究院发布国内外100余个,开源和商业闭源的大模型综合及专项评测结果。“大语言模型评测能力榜单”中,豆包通用模型pro(Doubao-pro-32k-preview),在主观评测中排名第一。

智源研究院 FlagEval 大语言模型评测能力榜单-主观评测

“多模态模型评测榜单”中,豆包·视觉理解模型(Doubao-Pro-Vision-32k-241028)。在视觉语言模型中排名第二,仅次于GPT-4o,是得分最高的国产大模型。

智源研究院 FlagEval 多模态模型评测榜单-视觉语言模型

“FlagEval大模型角斗场榜单”中,豆包通用模型pro(Doubao-pro-32k-240828)。

在大语言模型榜单中位居第一梯队,评分排名第二,仅次于OpenAI的o1-mini,是得分最高的国产大模型。

智源研究院 FlagEval 大模型角斗场榜单-大语言模型榜单

据智源研究院介绍,大模型评测平台FlagEval目前已覆盖全球800多个开闭源模型,在评测方法与工具上联合了全国10余家高校和机构合作共建。此次公布的榜单中,大语言模型主观评测重点考察的是模型的中文能力,多模态模型评测榜单视觉语言模型主要考察的是模型在图文理解、长尾视觉知识、文字识别以及复杂图文数据分析能力;FlagEval大模型角斗场则是向用户开放的模型对战评测服务,反映了用户对模型的偏好。

大使用量才能打磨出更好的模型。刚刚结束的2024火山引擎冬季FORCE原动力大会公布了豆包大模型最新进展——豆包大模型12月日均tokens使用量超过4万亿,较5月发布时期增长超过33倍,在不同应用场景中调用量快速增长。

使用量和应用场景的提升,也让豆包大模型迎来了全新的升级。其中在“大语言模型评测能力榜单”的主观评测中排名第一的豆包通用模型pro完成新版本迭代,综合处理能力较5月发布时提升了32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上提升43%,在专业知识领域能力提升54%。

在“多模态模型评测榜单”的视觉语言模型中,得分国内最高的豆包·视觉理解模型也在FORCE原动力大会上正式对外发布。豆包·视觉理解模型可以理解用户所输入的文本和图片相关的信息,并给出准确的回答。通过更强的内容识别能力、更强的理解和推理能力、更细腻的视觉描述能力,豆包·视觉理解模型极大地拓宽了大模型场景边界,基于对真实世界的信息处理,可以更好的辅助人类完成复杂的任务。

豆包·视觉理解模型在教育、旅游、电商等场景有着非常广泛的应用。为了更好地帮助企业开拓大模型的创新应用场景,豆包·视觉理解模型的价格为每千tokens 0.003元,比行业平均价格降低85%,相当于一块钱可以处理284张720P图片,让企业和开发者用好视觉理解模型,找到更多创新场景。

从能力升级到模态丰富,火山引擎将持续拓展豆包大模型的能力边界及应用场景,加速推动AI大模型应用的普及与落地,为更多企业智能化升级提供有力支撑。

 

标签:

猜你喜欢

深化战略合作!京东集团副总裁一行到访阿道夫集团
未来市场容量可期!多家机构看好全球销量超一亿台的雅迪
重构茶叶生态 赋能新质增长,二十七度茶产业生态链大会杭州启动
2024年度影视精彩回顾,华为视频的哪部剧硬控了你?
再战《黑神话:悟空》,硕一凤凰U350打造性价比主机
以词铭史,记录时代的点滴—「史记2024」重磅上线
顺丰实现全货机国内航班首次可持续航空燃料商业飞行
行者无疆!云快充荣登“2024 创业邦 100 未来独角兽榜”
嘉实多宣布加入“云途引擎3.0”,与途虎养车、抖音共筑汽车后市场数字化新高地
小码王助力沪台家庭编程教育,共筑青少年科创梦想
GTC泽汇资本吉姆·罗杰斯:黄金市场的未来展望
兴和集团双旦盛典:限时折扣,年终最后一场购物狂欢!
UC 网盘百大测速活动来袭,组队测速最高可得 1000G 永久容量
Bitget平台币BGB市值升至加密货币排行榜第30位
再创佳绩!海普诺凯能立多斩获2024妈妈网母婴品牌口碑榜“品质典范奖”!
两镇六街区,串起杭州西湖区的国际朋友圈
《Behind the Canvas:系列一之让・米歇尔・巴斯奎特》于新加坡全球首次展出
台州银行湖州分行积极开展数字人民币宣传活动
脑机接口东风起,科技巨头逐鹿十万亿市场
买“单”还是买“双”?内存通道的影响究竟有多大
“亿”起飞跃极境!雅迪冠能星舰S80续写凌风驭雪神话
博大数据荣膺2024年度中国IDC产业“新质生产力奖”:双智驱动,领航算力基础设施新时代
中国戏曲文化数字焕新行动持续落地,“戏曲数字资源库”上线腾讯探元平台
小昆虫助力食物零废弃 万科公益基金会谢晓慧在慈善影响力年会分享社区减碳经验
鸿蒙原生开源库ViewPool在OpenHarmony社区正式上线
汉仪字库协办“字酷”国际文字艺术设计展,激发文字艺术设计的无限可能
2025黄金联赛世界系列赛和中国系列赛赛程官宣,新赛季号角再次响起
迎接澳门回归祖国25周年,25位为文化产业做出突出贡献人物获表彰
天九老板云注册用户突破550万 夯实企服领域领跑者地位
“零碳园区” 首秀登场!国耀融汇租赁携手国药物流点亮绿色未来