我的位置：上观号 > 第一教育 > 文章详情

“你是我的眼”，复旦团队研发AI大模型，助力视障者“看见”世界

转自：第一教育 2024-03-02 18:22:15

你是我的眼，带我领略四季的变换；

你是我的眼，带我穿越拥挤的人潮……

复旦大学科研团队，让歌词的场景变成现实：一枚摄像头+一对耳机，成为视障者的一双“眸”。

据了解，复旦大学自然语言处理实验室开发的“听见世界”APP已正式上线。该应用基于多模态大模型“复旦·眸思”（MouSi），将画面转化成语言，描绘场景、提示风险，让视障人士出行安全、生活便捷。

数据显示，我国视障人群总量约有1700多万人。

去年上半年，有“中国版GPT”之称的“复旦MOSS”由复旦大学自然语言处理实验室开发而成。

随着半年左右的深度研发，多模态模型“眸思”问世，能够理解并识别图片内容，助力视障者“看见”世界。

在实际应用中，“眸思”可选择三种模式，为视障者日常生活需求服务，具体包括：

街道行走模式：可细致扫描道路情况，如红绿灯、十字路口、障碍物等，并提示潜在风险；

自由问答模式：可描述周边环境，捕捉四周景象细节，在博物馆、艺术馆、公园等场景里，成为声音向导；

寻物模式：可搜索日常物品，如手杖、牛奶等。

据复旦大学自然语言实验室教授张奇介绍，项目的开发团队共有25名复旦学子及桂韬等多位教师、专家的加入。

项目组成员为了能更好地感受视障者的难处，模拟真实情境，蒙眼探索视障者“黑暗”世界。项目组还邀请视障人士，摸清真实需求。

据透露，今年上半年，项目研发团队将继续升级系统，让“眸思”升级到基于视频的判断，定位精度细化至亚米级别。同时，更多应用模式也在开发中，如阅读模式、解说模式等。

以后，视障人读书、点菜、看电影等，都将有一个随身助手。

照片由学校提供

关注“第一教育”

分享至朋友圈惊喜更多！

___________________________