你是我的眼,带我领略四季的变换; 你是我的眼,带我穿越拥挤的人潮…… 复旦大学科研团队,让歌词的场景变成现实:一枚摄像头+一对耳机,成为视障者的一双“眸”。 据了解,复旦大学自然语言处理实验室开发的“听见世界”APP已正式上线。该应用基于多模态大模型“复旦·眸思”(MouSi),将画面转化成语言,描绘场景、提示风险,让视障人士出行安全、生活便捷。 数据显示,我国视障人群总量约有1700多万人。
去年上半年,有“中国版GPT”之称的“复旦MOSS”由复旦大学自然语言处理实验室开发而成。
随着半年左右的深度研发,多模态模型“眸思”问世,能够理解并识别图片内容,助力视障者“看见”世界。
在实际应用中,“眸思”可选择三种模式,为视障者日常生活需求服务,具体包括:
街道行走模式:可细致扫描道路情况,如红绿灯、十字路口、障碍物等,并提示潜在风险;
自由问答模式:可描述周边环境,捕捉四周景象细节,在博物馆、艺术馆、公园等场景里,成为声音向导;
寻物模式:可搜索日常物品,如手杖、牛奶等。

据复旦大学自然语言实验室教授张奇介绍,项目的开发团队共有25名复旦学子及桂韬等多位教师、专家的加入。
项目组成员为了能更好地感受视障者的难处,模拟真实情境,蒙眼探索视障者“黑暗”世界。项目组还邀请视障人士,摸清真实需求。

据透露,今年上半年,项目研发团队将继续升级系统,让“眸思”升级到基于视频的判断,定位精度细化至亚米级别。同时,更多应用模式也在开发中,如阅读模式、解说模式等。
以后,视障人读书、点菜、看电影等,都将有一个随身助手。
照片由学校提供
关注“第一教育”
分享至朋友圈惊喜更多!
___________________________