4月10日,商汤科技举办2025技术交流日活动,重磅推出全新升级的“日日新SenseNova V6”(以下简称:日日新 V6)大模型体系,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
商汤科技董事长兼首席执行官徐立表示:“AI之道,在于百姓之日用。商汤日日新 V6将跨越多模态边界,释放推理与智能的无限可能。”
据介绍,通过构造多模态的强思维链数据和搭建多模态强化学习的语境,和去年发布的日日新大模型5.0及5.5相比,日日新 V6在多模态方面表现更加出众,并针对推理能力进行了强化。
为满足不同场景的需要,日日新 V6包含若干版本。其中SenseNova V6 Pro为原生多模态通用大模型,采用了6200亿参数的混合专家架构,实现文本、图像和视频的原生融合;SenseNova V6 Reasoner Pro在SenseNova V6 Pro基础上,通过多模态长思维链训练和多模态增强学习,形成突出的多模态推理能力;SenseNova V6 Video是视频理解模型,可以理解总结视频内容,并在此基础上进行深入分析和推理;SenseNova V6 Omni是轻量级的全模态交互模型,深度融合语言、语音和视频,提供实时交互体验。
作为拥有超6000亿参数的MoE原生多模态通用大模型,日日新 V6实现了多项技术突破,凭借单一模型就可以完成文本、多模态等各类任务:拥有超过200B高质量多模态长思维链数据,最长64K思维链;数据分析能力大幅领先GPT-4o;多模态深度推理能力对标OpenAI o1;凭借其全局记忆能力,日日新 V6突破长视频理解,支持10分钟的视频理解及深度推理。
在现场,徐立展示了日日新 V6的多模态能力。例如,用户可以将自己的数学题手写答案拍照上传,通过V6 Reasoner Pro的多步骤推理思考,模型先进行解题,并对用户的答案进行分析,然后通过V6 Omni的音视频沟通能力,模型以引导提问的方式为用户逐步剖析解题思路,还支持语音实时答疑,随时解答用户在解题过程中遇到的问题。
比起市面上的其他拍照搜题应用,日日新 V6更像是一个“一对一私教”。V6还可以实现通过摄像头实时解读绘本,根据画面和用户的语音要求讲故事,在交流中,V6可针对不同的对话内容和场景需求,即时切换语气、情感与音调。
目前,基于多模态大模型,商汤开发了多种新场景应用。例如在长视频上,商汤上线了视频理解功能,提供对教学视频、旅游视频、生活视频的解析、总结、对话,以及对情景之外的情节和逻辑的补全。面向日常应用的需求,SenseNova V6 Omni具备数学解题、点读翻译、文旅讲解、绘本讲解四大功能。在财务审核、购物比价、商铺运营等场景中,也可以利用V6来解决用户需求。
徐立表示,商汤发展AI的目标便是“在真实的环境中解决那些日常烦琐、但是重要的行业需求”,“当AI聚集了人类现有的大量平均水平的知识之后,它就能够运用触类旁通的能力,为开放问题形成一种真正意义上的确定性,完成从模型到客户使用的‘最后一公里’。”
在技术交流日上,商汤宣布了与多家软硬件企业的战略签约,其中包括具身智能企业傅利叶。基于SenseNova V6 Omni,傅利叶的机器人可以通过融合图像、视频、语音和文本信息理解环境,进行思考与表达,洞察用户的需求与情绪,与人类进行交互。机器人在输出语音的同时,还能同步生成与语义相匹配的动作,实现语言与行为的统一。
整合日日新 V6全部能力,商汤商量也迎来全面升级,并推出全新商量App。用户通过一个入口,即可体验文字、图像、视频等多种模态流式交互体验,目前已开放内测。
记者:王永娟
编辑:宁平英
校对:孙清渠
审校:韦丽
转载请注明来自上海徐汇官方账号