全球即时：他让计算机成为“看图说话”的高手

人们在交流时，会借助手势传达一些信息。而对于听力障碍者来说，手势不是辅助交流手段，而几乎是他们最主要的沟通方式。

合肥工业大学计算机与信息学院教授汪萌在多媒体智能领域所取得的科研成果，可以让计算机精确理解手语视觉意图，并能够自动生成多语种语言。他的这些成果，为听障人士运用现代信息化手段与外界互动交流，开辟了一个新通道。

“我们的目标，就是让计算机对多媒体信息的理解日益接近人类水平。”汪萌对科技日报记者说。

(资料图片仅供参考)

从最简单的图片内容识别起步

早在读研期间，汪萌就将多媒体智能中的多媒体内容分析与理解作为自己的研究领域和主攻方向。后来，汪萌24岁获得博士学位、27岁受聘为特聘教授、33岁获得国家自然科学基金杰出青年基金资助……外人看来顺风顺水的科研道路，他却觉得自己走得异常艰辛。

“最初，我们从最简单的图片内容识别入手，给计算机1000张照片，让计算机识别出哪些照片是在室内拍摄的、哪些又是在室外拍摄的。随后，再尝试识别哪些照片是在城市拍摄的、哪些是在乡村拍摄的。再后来，才能让计算机识别照片中的具体内容，比如是人还是动物、是车还是船等。”汪萌回忆道。

在多媒体智能起步阶段，这些简单的识别内容，一度难倒了以处理数据见长的计算机。带着这些问题，汪萌开展了一系列研究，终于将初阶的计算机识别难题给攻克了，但完成这些才只是开始。

在此基础上，汪萌开始研究描述生成，即给计算机一张图片，让计算机用一句话描述其中包含的信息，这被汪萌形象地称为“教计算机看图说话”。

经过2年的集中攻关，汪萌终于“教”会计算机用自主生成的、具有主谓宾结构的语句对图片进行描述，但是这种描述能力也只是勉强达到5岁孩子的语言表达水平，远未达到可以被大规模推广应用的程度，需要攻克的问题还有很多。

将技术成果在多领域应用

“研究中的每一个进步，都来之不易。想要在高水平的智能化道路上走得更远，我和团队成员只能脚踏实地、逐个攻克难题。”汪萌告诉记者，随着研究的深入，计算机内容分析的智能化水平在不断提升，它的理解能力也越来越强，描述的语言更加丰富、生动。

“我们逐步实现了人机问答和对话，让计算机在‘看’完一部电影后，向我们描述其中一段情节，进而让计算机针对某个问题或一系列关联性问题做出准确的回答。”汪萌回忆道。

十余年的持续攻关，汪萌带领团队成员围绕可解释的多媒体智能技术在视觉内容情感分析、视觉非接触式生理信号检测、多模态抑郁症诊断、情绪相关微动作检测与识别等领域的应用进行了先期探索，并取得了一系列突破性的成果。

“在这一系列成果的支撑下，如今架起一个广角镜头，计算机通过镜头‘看到’自动监控画面中的人与物，就能分析、推理其中相关物品、人物的关系，判断其是否存在安全隐患，从而实现对某些特定场所的安全感知、预警和管控。”汪萌说。

填补电力施工现场安全管控系统领域的技术空白

汪萌告诉记者，他和团队成员取得的原创性成果已经“走”出了实验室，为国家建设和社会发展贡献力量。

“我和团队成员为电力施工现场设计出了一整套智能感知、云边协同、全过程可视化的电力工程现场安全解决方案和软硬件系统，有效地提升了电力施工现场的安全水平。”汪萌表示，他们的成果应用在全国超过120个地市的工程现场，实现了对电力工程现场的远程实时监控和智能识别分析，还可以对其进行综合风险预判，进而降低了电力施工现场的安全风险。

汪萌及其团队的这一研究成果，填补了我国电力施工现场安全管控系统领域的技术空白，建立了拥有自主知识产权的技术体系，为电力工程大规模建设提供了技术保障。

如今，汪萌和他的团队成员正在探索将研究成果应用在无障碍引导、辅助教学、智能聊天机器人和无人驾驶等更多场景中，改善残障人士的生活并推动新兴产业的发展。