实验室研究方向(2021.09)
目前实验室的研究方向主要分为深度伪造检测、唇语识别、神经网络水印技术以及OCR方向。
深度伪造检测
研究者:胡嘉尚,郭子豪,张凯旋
简介:深度伪造(Deepfake)一词由深度学习(deep learning)和伪造(fake)结合而来,广义上的深度伪造是指利用深度学习技术,生成图像、音频或者视频的伪造技术,其伪造结果高度逼真,单凭人眼根本无法甄别。作为一种先进的人工智能技术,深度伪造在日常生活中有着广阔的应用场景,比如生成历史人物讲授课程的视频和音频,在线购物时快速生成用户试穿衣服的结果,生成仅供娱乐的有趣换脸视频,快速对用户的图像进行符合要求的修改等方面。然而现实并没有这么理想,深度伪造技术目前更多的用于非法方向,如合成女明星的色情视频、合成政治人物的敏感发言视频、合成未经个人授权的侵犯个人隐私的人脸图像或视频等。为了阻止深度伪造技术的滥用,采用深度学习的方法鉴别深度伪造视频成为了当下重要的研究方向。
目前工作方向: - 基于讲话人唇部运动具有一定深度伪造技术无法模仿的规律,使用唇部区域信息或全脸信息进行深度伪造视频的检测 - 保护特定讲话人的深度伪造检测 - 对音频进行深度伪造检测 - 基于整体面部信息进行深度伪造图像检测
唇读
研究者:张群,马兴华
简介:人类认知语言的过程除了声音信息之外,也可以通过讲话过程中嘴唇区域的视觉信息对语义理解进行补充。唇语识别任务是一项通过观察讲话人唇部动态变化过程去识别讲话内容的任务。然而,对于大部分没有经过专业训练的普通人而言,唇语识别是一项极具挑战性的任务,尤其是在没有上下文或是讲话内容较长的情况下。Easton 等人的实验表明,即使限定在只有三十种单个字符的情况下,听觉障碍者在唇语识别任务中对于单词的识别准确率最高仅能达到 29%,哪怕是有一定语境的复合词,被测试者也仅能识别 32%的单词。因此,采用深度学习方法进行唇语识别任务是一项十分具有研究意义的课题。但是由于唇部特征变化的细微性、讲话人的差异性以及实际场景变化的复杂性等因素,唇语识别任务也面临着很多的挑战和困难。从理论角度来说,唇语识别任务同时涉及到了图像处理和自然语言处理这两 个领域的知识,所以往往可以利用这些领域中相对成熟的杰出技术,去推动唇语识别研究的发展。
目前工作方向: - 唇读过程中中间表征的识别 - 英文的句子级别、单词级别的唇读识别 - 中文的句子级别、单字或词组的唇读识别
神经网络水印
研究者:李方圻 个人主页:https://solour-lfq.github.io/
简介:随着海量数据的收集能力提升以及硬件设备计算能力的极大提升,基于深度神经网络的人工智能技术得到了快速发展,广泛应用于包括计算机视觉、自然语言处理、物联网及车联网的各种领域,涵盖目标检测、人脸识别、视频生成、自动驾驶等多个具体应用方向,其工作效果和效率远远高于人类,促进了生产技术的变革和生产力的发展。 然而,训练一个有效的深度神经网络模型是需要大量开销的。首先需要在相关理论的支撑下对网络模型和算法进行设计,然后需要收集和预处理海量数据,最后需要消耗大量计算资源,通过数据的前向传播和梯度的反向传播对网络参数进行调整,这一过程需要消耗大量电力资源。与训练一个深度神经网络模型相反,使用一个已经训练好的模型则更加方便,用户只需要将数据输入模型,经过前向传播得到模型的预测结果即可。鉴于有效训练这些模型需要大量的专业知识、数据和计算资源,训练后得到的有效深度神经网络模型可以认为是重要的数字资产,并作为服务提供给用户使用,但在这一过程中恶意用户可能会企图非法使用甚至窃取相关模型。此外,一些公司将训练好的深度神经网络模型直接进行出售,但是又担心该 模型会被非授权转售或泄露给第三方未授权用户。因此,在深度学习这一领域需要一种能够证明模型版权所有者的方法,这一方向当前最有影响力的是神经网络数字水印技术。
目前工作方向: - 复杂机器学习场景(联邦学习、蒸馏学习等)的神经网络数字水印嵌入技术 - 神经网络水印检测技术与隐写技术
OCR
研究者:黄毅力,杨磊
简介:OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。本组的工作主要聚焦于实用场景下的票据单据的OCR识别。
目前工作方向: - 密集字体堆叠下的票据识别算法 - 污染图像的复原与识别