微软计算机视觉创研论坛首日干货:3项前沿检测技术解读malicious,male_裕信网

山东11选5

微软计算机视觉创研论坛首日干货:3项前沿检测技术解读

来源:网络 更新日期:2020-05-15 22:55


智东西(公众号:zhidxcom)编 | 董温淑

智东西5月15日消息,昨日上午9点,微软亚洲研究院创研论坛CVPR 2020论文分享会线上开幕。会议有19位计算机视觉(CV)领域学者分享最新研究成果,讲解内容涉及检测、多模态、底层视觉、图像生成、机器学习5大方向。

山东11选514日上午,3位计算机视觉检测方向的研究员做了分享,分别介绍了先进的人脸识别技术、动作检测技术和目标检测技术。智东西对这3项先进技术进行解读。

山东11选5微软亚洲研究院创研论坛CVPR 2020论文分享会是计算机视觉(CV)领域最重要的会议之一,本届会议共分享近20项CV领域前沿技术。

一、X射线检测算法识别假图像,准确率可达95.4%

Deepfake技术的滥用轻则造成虚假信息问题,重则会引起金融安全风险、侵权问题等。一些Deepfake图像可以做到以假乱真,人类肉眼难以判断出来。这种情况下,人脸识别技术可以帮我们辨别。

山东11选5现有的人脸识别工具大多针对某种特定Deepfake技术训练,用假人脸图像作为输入。就是说,人脸识别技术只能识别出特定方法合成的假图像。一旦Deepfake技术进化或换用其他Deepfake技术,人脸识别模型就可能失效。

微软亚洲研究院研究员鲍建敏讲解了人脸X射线识别技术(Face X-ray),这种技术用真实人脸图像进行训练。即使Deepfake技术进化,X射线人脸检测算法也能保持较高的准确性。

山东11选5制作一张假图像的方法是把两张图像叠加,即把一张修改过的人脸图像(前景)合成到背景图像(后景)中。研究人员注意到,由于每张图像拍摄或制作过程中用到不同的硬件(传感器、透镜等)或软件(压缩、合成算法等),前景图像和后景图像的特征不可能完全相同,因此人脸图像和背景图像之间存在一个“边界”。

Face X-ray技术利用了上述特征,用人脸灰度图像作为输入。Face X-ray模型可以识别出不同灰度图像之间的差异,这样不仅可以显示出人脸图像是真实的还是伪造的,还能确定虚假图像混合边界的位置。

▲左起第一张为真实图像,其他均为假图像,Face X-ray模型检测出了假图像混合边界位置。

研究人员对比了Face X-ray模型与之前人脸识别工具的性能。结果显示,模型检测出来的假脸帧数比之前的二分类方法更多,识别准确率最高可达95.4%。

山东11选5鲍建敏指出,算法还有一定局限性。比如,Face X-ray主要用人脸图像数据库FF++进行训练。FF++中大部分图像都是正脸图像,所以模型识别侧脸的准确性较低。

二、DAGM模型:区分动作与上下文,准确识别出动作

微软亚洲研究院研究员戴琦讲解了一种动作检测技术,该技术可以从视频中识别出动作。据了解,目前的动作检测技术可以分为全监督方法和弱监督方法。

山东11选5全监督方法的动作检测模型需要在训练过程中需要对动作间隔进行时间注释,十分昂贵和费时。因此现有的动作检测工具多采用弱监督动作定位(WSAL,weakly-supervised action localization)技术。

WSAL技术有两种类型,第一类建立一个从上到下的管道,学习一个视频级别的分类器,通过检查生成的时间分类动作地图(TACM,temporal class activation map)来获得帧注意力(frame attention)。第二类是从下到上的,直接从原始数据中预测时间注意力(temporal attention),然后从视频级监控的视频分类中优化任务。

两种方法都依赖于视频级别的分类模型,这会导致动作和上下文混淆(action-context confusion)的问题。比如,在一段跳远的视频中,跳远动作(action)仅包括接近、跳跃、着陆3个阶段,但是工作检测模型常把准备和结束阶段(context)也选中。

研究人员认为,解决这一问题的关键在于找到动作和上下文之间的区别。他们用判别性注意力模型(Discriminative Attention Modeling)和生成性注意力模型(GAM,Generative Attention Modeling)优化检测工具,提出了判别性和生成性注意力模型(DAGM,Discriminative and Gener-ative Attention Modeling)。微软计算机视觉创研论坛首日干货:3项前沿检测技术解读 共2页: 上一页12下一页

  • 上一篇:微信支付今日上线“摇免单”活动
  • 下一篇:解构这家公司22年发展史,我们看到了在线教育未来的主流趋势