
1月22日,百度“文心Moment”大会在上海张江举行。会上,百度发布并上线原生全模态大模型文心5.0正式版,以2.4万亿参数规模与原生全模态架构,彻底打破过去多模态技术“拼接融合”的行业痛点,在40余项权威基准测试中超越GPT-5-High、Gemini-2.5-Pro等国际顶尖模型,稳居国际第一梯队。其中,该大模型的图像与视频生成能力与垂直领域的专精模型相当,整体处于全球领先水平。
在此之前,全球主流大模型的多模态能力,本质上是对文本、图像、视频等不同模态信息“各自训练、简单对接”,就像只会切换不同语言的翻译,无法深度理解跨模态信息的逻辑关联。例如:输入一段APP开发讲解视频,以前的模型只能复刻表面内容,无法拆解交互逻辑并生成可用代码。
据百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍,与业界多数采用“后期融合”的多模态方案不同,文心5.0的技术路线采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练,使得多模态特征能够在统一架构下,充分融合并协同优化。
如此一来,实现了跨模态信息在同一模型框架内就能深度推理,真正具备了“跨领域解决实际问题”。举个例子:如果要做一个团购小程序的首页,在没有文心大模型5.0之前,开发者要写文档、敲代码、反复调试,耗时往往在4小时左右,同时还需要专业技能。而如今,伴随着这一大模型的出现,面对同样的工作,开发者只需上传参考图、直接说出需求 ,仅需10分钟,就能拿到可直接用的完整代码,开发的便捷度和效率大幅提升。
目前,个人用户可在文心App、文心一言官网体验,企业与开发者可通过百度千帆平台进行调用。当天,百度还发布了“文心导师”计划的最新进展。当前,文心导师队伍持续壮大,已吸纳835位来自科技、金融、文化、教育、医疗、能源等十余个重点行业以及数理化生文史哲等学科的专家,在知识传授、鉴赏评价、专业校准方面对大模型进行指导,帮助模型在逻辑严谨性、专业深度、创意质量和价值观对齐等方面不断精进。