今年7月,在巴黎奥运会来临之际,一段《1952年奥运会——新中国的第一支奥运代表团亮相奥运会场》AI修复视频在社交媒体上引发关注热潮。原本黑白的影像,经科研人员“巧手”,展现出鲜亮的色彩,栩栩如生地还原了中国奥运代表团挥舞着鲜艳的五星红旗,昂首挺胸、阔步迈入芬兰赫尔辛基奥运会闭幕式的场景。
唐金辉团队修复的《1952年奥运会——新中国的第一支奥运代表团亮相奥运会场》短片
这段视频,由南京理工大学计算机科学与工程学院科研团队修复,是深耕计算机视觉领域近20年的唐金辉教授最“出圈”的作品之一。
“做AI视频修复,算是科研的‘附带’产品,没想到大家反而对这最感兴趣。”唐金辉笑道。这位80后,29岁就成为南京理工大学计算机学院教授,自此一直从事多媒体分析与检索和计算机视觉领域的基础研究。
“我们团队的研究,首先从图像视频的内容增强入手,包括去除雨、雾、噪声,以及修复划痕等,以提高画面清晰度和质量。画面得到增强后,接下来的工作就是目标识别,识别图像或视频中的飞机、汽车等物体及其位置。在现实生活中,需要识别更复杂的场景,比如在监控视频中,画面中的两个人在握手还是打斗等等。这些技术在安防、高铁自动巡检等领域都有所应用。”唐金辉向记者介绍。
在进行图像视频修复与增强系统的研发中,AI修复史料、修复老电视剧,就成为一个很有意义的应用场景。但如何“修旧如旧”、还原历史,不仅要求团队成员精通技术,还要求他们当好“历史学家”。
“以往训练模型,是单纯的数据驱动,现在我们不光要用数据驱动,还要用知识来给模型做约束。”唐金辉举了个例子,现有的视频着色方法是通过爬取大量现代颜色数据对模型进行训练,一开始科研团队将奥运队员的西服颜色渲染成时下常见的藏青色,亲历当年奥运会现场的张长禄老人解释后,大家才知道,72年前奥运选手们身穿的西服颜色为咖啡色。
抱着还原史料的严谨态度,团队研发并提出了数据与知识联合驱动的视觉目标识别方法,同时通过采集老物件、老照片等的颜色建立语料库,纠正偏差,恢复当年的色彩。“视频修复好,张长禄老先生看到后,当场流下了激动的泪水。”唐金辉说。
目前,唐金辉团队在“视频修复增强大模型”领域,获得多项自主知识产权,不但能大幅提升历史影像资料的画质,还能对黑白视频进行自然流畅的渲染上色,原本分辨率是720x576像素的视频,可以被修复成高清甚至是超高清的视频。这些技术在《西游记》等“四大名著”经典电视剧上也有所应用。
此次获得省青年科技杰出贡献奖,唐金辉表示,这是很大的激励。“计算机科学是一个瞬息万变的领域,在近几年人工智能和大模型迅猛发展的当下,科研人员的工作方式、培养模式也都发生改变。在这样的挑战和压力下,我们也在努力从现有大模型中挖掘提取出有用部分,用以支持自身研究。”唐金辉表示,深耕基础研究20年,研究方向基本没有改变,但研究方法却在不断演进。“也希望年轻科研人,能够坚持自己的兴趣,专注于自己擅长的领域,不要盲目跟随他人的做法。”
新华日报·交汇点记者 杨易臻
图片由受访者提供