我的位置：上观号 > 徐汇通 > 文章详情

商汤“日日新 V6”发布，多模态推理融入“百姓之日用”

转自：徐汇通 2025-04-11 15:50:01

4月10日，商汤科技举办2025技术交流日活动，重磅推出全新升级的“日日新SenseNova V6”（以下简称：日日新 V6）大模型体系，通过多模态长思维链训练、全局记忆、强化学习的技术突破，形成领先的多模态推理能力，并突破成本边界。

商汤科技董事长兼首席执行官徐立表示：“AI之道，在于百姓之日用。商汤日日新 V6将跨越多模态边界，释放推理与智能的无限可能。”

据介绍，通过构造多模态的强思维链数据和搭建多模态强化学习的语境，和去年发布的日日新大模型5.0及5.5相比，日日新 V6在多模态方面表现更加出众，并针对推理能力进行了强化。

为满足不同场景的需要，日日新 V6包含若干版本。其中SenseNova V6 Pro为原生多模态通用大模型，采用了6200亿参数的混合专家架构，实现文本、图像和视频的原生融合；SenseNova V6 Reasoner Pro在SenseNova V6 Pro基础上，通过多模态长思维链训练和多模态增强学习，形成突出的多模态推理能力；SenseNova V6 Video是视频理解模型，可以理解总结视频内容，并在此基础上进行深入分析和推理；SenseNova V6 Omni是轻量级的全模态交互模型，深度融合语言、语音和视频，提供实时交互体验。

作为拥有超6000亿参数的MoE原生多模态通用大模型，日日新 V6实现了多项技术突破，凭借单一模型就可以完成文本、多模态等各类任务：拥有超过200B高质量多模态长思维链数据，最长64K思维链；数据分析能力大幅领先GPT-4o；多模态深度推理能力对标OpenAI o1；凭借其全局记忆能力，日日新 V6突破长视频理解，支持10分钟的视频理解及深度推理。

在现场，徐立展示了日日新 V6的多模态能力。例如，用户可以将自己的数学题手写答案拍照上传，通过V6 Reasoner Pro的多步骤推理思考，模型先进行解题，并对用户的答案进行分析，然后通过V6 Omni的音视频沟通能力，模型以引导提问的方式为用户逐步剖析解题思路，还支持语音实时答疑，随时解答用户在解题过程中遇到的问题。

比起市面上的其他拍照搜题应用，日日新 V6更像是一个“一对一私教”。V6还可以实现通过摄像头实时解读绘本，根据画面和用户的语音要求讲故事，在交流中，V6可针对不同的对话内容和场景需求，即时切换语气、情感与音调。

目前，基于多模态大模型，商汤开发了多种新场景应用。例如在长视频上，商汤上线了视频理解功能，提供对教学视频、旅游视频、生活视频的解析、总结、对话，以及对情景之外的情节和逻辑的补全。面向日常应用的需求，SenseNova V6 Omni具备数学解题、点读翻译、文旅讲解、绘本讲解四大功能。在财务审核、购物比价、商铺运营等场景中，也可以利用V6来解决用户需求。

徐立表示，商汤发展AI的目标便是“在真实的环境中解决那些日常烦琐、但是重要的行业需求”，“当AI聚集了人类现有的大量平均水平的知识之后，它就能够运用触类旁通的能力，为开放问题形成一种真正意义上的确定性，完成从模型到客户使用的‘最后一公里’。”

在技术交流日上，商汤宣布了与多家软硬件企业的战略签约，其中包括具身智能企业傅利叶。基于SenseNova V6 Omni，傅利叶的机器人可以通过融合图像、视频、语音和文本信息理解环境，进行思考与表达，洞察用户的需求与情绪，与人类进行交互。机器人在输出语音的同时，还能同步生成与语义相匹配的动作，实现语言与行为的统一。

整合日日新 V6全部能力，商汤商量也迎来全面升级，并推出全新商量App。用户通过一个入口，即可体验文字、图像、视频等多种模态流式交互体验，目前已开放内测。

记者：王永娟

编辑：宁平英

校对：孙清渠

审校：韦丽

转载请注明来自上海徐汇官方账号

用户名：
密码：
验证码：	看不清

	忘记密码？