当AI走出实验室场景,如何服务复杂的现实世界?在2025世界人工智能大会的“人工智能交叉科学论坛”上,上海期智研究院、清华大学等机构的科学家带来了最新研究成果,分享他们对新阶段AI落地瓶颈的观察与思考。
当模型触碰现实边界,AI该如何走进复杂现实世界?
“我从事自动驾驶整整十年,直到大语言模型出现,才真正看到自动驾驶路径的转折点。”上海期智研究院PI、清华大学助理教授赵行坦言,在大模型之前,自动驾驶一直纠缠于“长尾问题”“黑盒困境”与“数据稀缺”三座大山——而这些,也几乎是AI工程化落地的通病。
所谓“长尾问题”,并不只是交通事故率的边缘场景,更是模型泛化能力的真实瓶颈。赵行分享了一个案例:一辆自动驾驶车辆在街头遇到一位坐轮椅追鸭子的老太太。车子迟疑不前,系统陷入“困惑”。这是感知、预测、规划三段式模型难以处理的“非规范性”。“场景理解”才是关键,而非单一感知维度的增强。
赵行从心理学角度类比:大家把AI分为“系统一”和“系统二”。那么是否也可以把自动驾驶系统也分为“系统一”和“系统二”来解决?这种“双系统”设计并非为了追求绝对智能,而是尽可能覆盖更多人类难以量化的“异质行为”。“这让我们第一次在工程层面上,能够真正解释AI的思考过程,”在他看来,大语言模型不仅带来了新的工具,更提供了一种理解自动驾驶的新方式。“我们过去一直以为,只要堆够数据和算力,自动驾驶迟早能解决。但现实告诉我们,‘懂’场景,比‘算’场景更重要。”
比如,一群牦牛横穿高速公路,或者施工道路上临时改道,这些过去让AI“宕机”的情况,如今可以通过VLM的语言规划链条实现理解与决策。团队甚至设计出分层的自然语言指令:先描述观察到的环境,再判断潜在风险,最后输出分步行动。
但系统设计不是实验室的自说自话。赵行将这套架构部署在真实车辆上,并在上百辆车上运行数月,积累了大量实车验证数据。这些车在高速上、城市中、甚至乡村道路里穿行,VLM每秒3次的推理速度足以支撑对“意外”的快速理解。
在赵行看来,“理解”与“解释”成了比“性能提升”更重要的价值锚点。下一代AI,不只是“更快”与“更准”,更重要的是,它能否像人类那样“理解复杂”。
当模型够大后,AI落地需要怎样的硬件系统?
如果说赵行关注的是AI“思考”方式的转变,那么上海期智研究院PI、清华大学副教授高鸣宇则将视角拉回到另一个“沉默的大多数”——硬件系统。
“推理成本和能耗瓶颈,是AI下一步绕不开的挑战。”高鸣宇指出,大模型推理既是内存受限问题,也是计算受限问题。“看起来是技术细节,实则是AI能否走出实验室的基础门槛。”从系统层面看,当前主流的大模型推理面临两大拦路虎:第一,模型体量已远超现有存储架构承载能力;第二,传统GPU对稀疏计算的支持远未到位。“你不能只堆芯片,得换思路。”
“我们尝试通过将擅长计算的芯片与擅长访存的模块进行异构整合,来实现更合理的资源调度。”这种思路背后,其实是对AI计算效率极限的重新认知。此外,他的团队近期探索的另一条路径,是如何让硬件主动适应模型的“稀疏性”。稀疏意味着计算不再均匀分布,每一次推理都可能走一条不同的路径。“我们做了很多尝试,包括为不同类型的计算路径设计灵活的调度机制,甚至在硬件结构上也进行了定制优化。”这类架构的挑战并不只是技术问题,更是思维范式的更新:不是机械地适配模型,而是从底层逻辑出发,为不同任务动态规划资源路径。
这些看似“幕后”的技术改进,最终都指向一个共同的目标——让AI真正服务于更复杂、更真实的环境。
“我们今天谈论的硬件架构,其实是在为明天的AI模型预设‘成长空间’。”在高鸣宇看来,如果说算法决定了AI的“可能性”,那么架构与计算资源,则决定了它的“可用性”。“模型可以越来越强,系统必须越来越稳。”
企业及专家观点不代表官方立场
作者:许织
↓分享
↓点赞
↓在看