智源最新评测:文心4.5系列模型位居国内第一 全球第三

2025-11-19 16:39:52     来源:

近日,智源研究院旗下大模型评测体系 FlagEval 发布最新一期“安全与价值观榜”。在该榜单中,百度开源模型 ERNIE-4.5-300B-A47B 表现突出:总榜成绩位列国内第一、全球第三,在开源模型中排名第一,总合格率达到 85.58%,成为唯一进入全球前三的开源模型。

FlagEval推出的全新“安全与价值观榜单”,围绕语料安全、模型安全、风险防控等关键指标,对主流大模型的安全能力进行系统评估。据了解,本次评测覆盖 18家主流厂商的大语言模型,包括OpenAI、Google、Anthropic、Microsoft、深度求索等国内外头部机构。

FlagEval 最新榜单显示,全球头部模型在安全合规能力上已逐步形成成熟体系。其中,Claude Sonnet 4 以86.76%位居第一,GPT-4.1 紧随其后排名第二, ERNIE-4.5-300B-A47B 以85.58%的综合表现位列全球第三,国内第一,成为唯一进入前三的国产大模型。

值得注意的是,ERNIE-4.5-300B-A47B在开源榜排名第一,是全球唯一进入前三的开源模型,稳居安全合规第一梯队,标志着中国团队在安全合规能力上跻身国际第一梯队。

从行业整体来看,厂商间差异仍然明显。头部模型在策略偏移防御(如拒答率、风险感知)上更为稳定;不同厂商对本地化价值标准的理解差异,也直接拉开了整体得分区间。与此同时,以 ERNIE-4.5-300B-A47B 为代表的领先开源模型正在快速缩小与国际闭源模型的差距。

业内专家指出,安全性正成为衡量大模型可大规模落地的关键指标,其复杂性与专业度正成为核心竞争力。

 

标签:

猜你喜欢

米亚林陪同全国人大农业与农村委员会调研首衡 共探“十五五”农业农村现代化
强生创新制药召开“端到端“患者健康管理峰会,引领患者健康管理新方向
“考研真相”考研英语真题全网领导品牌荣获尚普咨询集团市场地位声明
一个揭牌,两大能力,三项成果集中发布! 中国联通数据要素赋能四川数字经济成果发布会在成都举行
江苏医惠保1号:2026年度惠民升级!30元解锁双重医疗保障
纳美科学开启口腔“三电全护”新时代,以系统性创新引领产业升级
纳美科学首创电动漱冲器荣获尚普咨询集团市场地位声明
海马课堂获评“海马课堂,留学生辅导行业用户数量第一”,引领留学生辅导赛道高速发展
2025 CVS 中国旅游峰会阿塞拜疆站盛大启幕:以丝路新章共绘中阿文旅新蓝图
聚焦鸿蒙游戏新生态,首场HDD・鸿蒙赋能交流会游戏专场吸引近百人参与
双镜联合保功能 标准引领重规范——奥林巴斯助力双镜联合胃肿瘤手术精英展演陕西站、甘新宁青站赛事圆满举办
数字赋能低 GI 赛道 叮咚买菜全场景布局激活健康饮食新需求
温州市美发美容行业协会第六届一次会员大会暨30周年庆典圆满召开
新东方出海东南亚,湄公河畔中文热升级
非遗乐器+先锋编曲:《幻境》试音专辑开启听觉“古今对话”
创新赋能强军,保密铸就基石——中孚信息以硬核实力护航军工安全
以技术赋能文化传承,非遗试音专辑《幻境》上演千年对话
华为音乐×中唱专辑《幻境》:科技赋能古韵,非遗传承的破界与新生
申万期货助力公安县棉花“保险+期货”项目顺利入场
北芯生命:以创新技术推动心血管精准诊疗发展
“敢为不凡杯”TCL全球高校电子竞技联赛S4中国区总决赛谢幕,硬核科技与竞技激情的双向奔赴!
见证中国开源生态成长力量:开源鸿蒙五年跨越与未来展望
推动消保知识入民心,光大信用卡织密金融“安全网”
华为乾崑生态大会即将启幕,MoLA重塑智能座舱发展方向
重磅发布!绚星智慧科技《AI驱动的组织与业务重构白皮书》:智能体时代,企业跃迁的实战样本
非遗邂逅广场舞:贵州舞蹈大赛打造民族文化盛宴
知识护航平安远行 2025上海市境外安全文明行校园大赛圆满落幕
安莉芳新春红品上新|马年臻献「囍乐家安」,与宋轶共启红色旺运磁场
松下荣膺2025责任品牌案例奖 成环境履约力标杆企业
淘车车杭州新店启幕,华东二手车服务版图再扩容