“经开企业”讯飞星火V4.0获8个国际权威测试集测评第一

日期：2024-07-11

大中小

讯飞星火V4.0来了！7月10日，记者从“经开企业”科大讯飞获悉，该企业已发布讯飞星火大模型V4.0及相关落地应用，产品七大核心能力全面提升，整体超越GPT-4 Turbo，在8个国际主流测试集中排名第一，国内大模型全面领先。

据介绍，基于全国首个国产万卡算力集群“飞星一号”，讯飞星火大模型V4.0正式发布。讯飞星火V4.0 七大核心能力全面升级。该产品在图文识别能力上进一步升级，在科研、金融、医疗、司法、办公等场景的应用效果已领先GPT-4o。同时，星火长文本能力也全新升级，并针对长文档知识问答的幻觉问题，业界首发溯源功能。

外部权威测试集也体现出讯飞星火V4.0的领先性。在国内外12项大模型主流测试集中，讯飞星火在8个测试集中排名第一，超越GPT-4 Turbo等国际大模型，国内大模型全面领先。

以空间推理为例，“Bob在客厅里。他拿着一个杯子走到厨房。他把球放进杯子里，然后拿着杯子走到卧室。他把杯子倒过来，然后走到花园。他把杯子放在花园里，然后走到车库。问题：球在什么地方？”讯飞星火可以基于空间和常识推断出球在卧室的地面上，这些能力的进步对于以后的具身智能、家庭机器人都具有意义。

大模型在给我们的工作、生活带来便利的同时，也存在各家生成内容差不多、生成内容较泛、不够实用的情况，怎么样让大模型更好用，在工作生活中形成独特的价值？科大讯飞给出答案——打造更懂你的AI助手。

记者看到工作人员演示“个人空间”效果，当他上传了女儿写的小作文并选取符合女儿风格的AI人设标签后，星火生成了一篇活泼、可爱更个性化的文章；当他上传了讯飞翻译机的产品海报、用户短视频、相关录音，星火也可以根据这些多模态信息生成产品培训文档，还可以对生成的信息进行多模态溯源。大模型进入个性化时代，大模型工作、学习“可用性”飙升。

此次讯飞星火医疗大模型再次升级，医疗核心能力全面超过GPT-4 Turbo。在此基础上，讯飞晓医APP各项能力持续升级，覆盖1600种常见疾病、2800种常见药品、6000种常见检查检验，满足用户在看病前、用药时、检查后的核心场景健康需求。当前，讯飞晓医APP累计下载量1200万，用户好评率98.8%，主动推荐率42%。

扫一扫在手机打开当前页