作者 | 徐友聚
编辑 | 向 玉
前两天外媒铺天盖地报道了个大新闻:华盛顿杜勒斯机场的AI立功了,帮助警察蜀黍捉到了一名非法入境者。
这些美国记者真是大惊小怪,放在我大天朝,随随便便一个歌星都能完成“七杀”,你啥时候看我们骄傲了?!
美国海关喜提人脸识别AI
事情是这样的…
就在上个月,作为美国最繁忙机场的华盛顿杜勒斯机场完成了一场历史性的科技升级——他们在海关入口装上了人脸识别系统,大家可以刷脸入关了。
没想到AI上班刚刚三天,8月23日,它就碰上了自己职业生涯的最大挑战。
当时,一位黑人小哥哥刚从巴西圣保罗抵达华盛顿,小哥拿了本法国护照,准备刷脸过关进入美国。
刚走到人脸识别机器面前,AI抬眼一看:护照和眼前明显不是一个人,这小哥难不成有问题?
系统叫来了警察蜀黍。在一波刨根问底搜查后,小哥终于露出了破绽。
千思万虑藏到鞋垫下的真实证件,还是出卖了他——小哥压根不是什么法国人,而是来自同样说法语的刚果共和国。
事情很清楚了,AI协助抓捕了一位持假证件的非法入境者。
美国海关和边境保护局欢天喜地,毕竟他们终于在新技术上跑赢了老对手英国——伦敦警察局识别率2%的“脸盲识别”都敢吹,相比之下,我们美帝的AI简直堪称模范员工。
光是内部表彰还不够,他们找来了媒体,把AI技术树立成了打击犯罪的“英雄”,说要全国应用。
也是该推广一下了,全美将近两万个机场,现在用上AI的才14个…
人脸识别四部曲
其实说到人脸识别,可以分成前DL(深度学习)和DL时代,两者分水岭是2014年Facebook提出的DeepFace,它不仅让深度学习在人脸识别领域大放光彩,也构建了深度人脸识别中主流的基本框架,其主要的步骤主要有:人脸检测、人脸对齐、人脸特征提取、人脸分类。
我们分步来看~
01
人脸检测
在实际应用中,AI摄像头捕捉到的画面通常比较杂乱,存在若干张人脸和复杂的背景。而作为人脸识别的第一步,就要各个人脸在其中的区域,并且“画个框框锁定它”。
02
人脸对齐
但此时框住的人脸还无法直接进行特征提取。
低头玩手机的,侧身和同伴讲话的,抬头仰望诗和远方的……
?
为了降低识别难度,就要把人脸姿态统一校正为最理想的姿态——一张竖直的正脸,校正方法主要分为 2D 校正和 3D 校正两种。
2D校正首先对人脸区域进行截取,然后检测几个基点(如左右眼、鼻尖、左右嘴角共5个点)计算人脸的姿态,依此对人脸截图进行旋转,使人脸竖直。拿小布什举个栗子~
而相较之下,3D校正则需要检测更多基点(如常见的67点),并做Delaunay三角化,将通用的3D人脸模型与之做匹配,使得各基点的误差最小,将各三角区域的人脸图片贴到3D人脸模型上,通过旋转3D模型从而获取人脸的下面图像,3D校正可以有效降低侧脸的识别难度。
03
人脸特征提取
经过前两步,一张对正人脸的图片已经get~ 接下来,就是对人脸的特点进行描述。
深度学习可以将复杂、冗余的人脸图片转换为一个1024维或者其他维数的特征向量,在保留人脸特征信息的同时大量减少了数据量,是十分有效特征提取方法。
由于人脸识别与物体分类任务的相似性(将图片分到不同的ID/类别),VGGNet/InceptionNet/ResNet等用于物体分类的网络结构同样广泛适用于人脸识别中。
损失函数的改进是目前人脸识别主要的研究方向之一,相比于物体分类任务,人脸识别需要识别的ID数要更多;深度学习是数据驱动的,但获取每个人的大量人脸图片是不现实的,所以人脸识别需要适合的损失函数来提供更好的泛化性能。
如上图左侧Closed-set Face Recognition所示,将用于人脸识别任务的神经网络中使用同一般的分类任务一样的损失函数,最终训练得到的模型可以将特定人物(出现在训练集中)的人脸分开,实现识别的目的。
但各类别在特征空间中分布的较为分散,边界相距较近,如果待识别的是陌生人(未出现在训练集中)的人脸图片,则其特征向量的分布极有可能会和其他若干个不同人脸对应的区域重叠,使得网络不能有效的识别训练集之外的人,网络的实用性较差,这也是Closed-set所指的不足。
相比之下,Open-set Face Recognition则使用不同方法来实现类似度量学习中margin的概念,使得同一人的特征向量分布更加紧密,不同人的特征向量分布之间相距更远。由于每个人的特征向量分布区域更小以及margin的存在,使得即便是陌生人脸的特征向量也难和其他人的区域出现重合,从而实现更有效且实用的人脸识别。
目前人脸识别算法损失函数基于以下两个思路进行改进:
- Metric Learning: 直观来看就是让同一个人的特征向量分布在一个小的范围内,不同人的特征向量距离大于margin,如Contrastive Loss, Triplet loss及相关sampling method。
- Margin Based Classification: 由于分类(或者说softmax损失函数)本身已经实现了同一个人的特征向量相互靠近,所以改进的重点是让不同人的特征向量距离大于margin。包含Softmax with Center loss, Sphereface, NormFace, AM-softmax(CosFace)和ArcFace。
04
人脸分类
通过上述方式训练得到需要的神经网络后,就可以方便地计算出人脸的特征向量了。之后就是使用不同的算法对其进行分类,从而适应不同的应用场景。
常见的算法主要有以下几种:
- 基于cosine/欧氏距离的:
- 最近邻 适用于identification
- 阈值比较 适用于verification
- SVM等适用于小样本分类的经典分类器
- metric learning
- sparse-representation-based classifier (SRC) 相比SVM更适用于不平衡数据集
等等,还有………
彩!蛋!
能读到这里的,小编敬你是条汉子~
事实上,不只人脸识别,从手机解锁、门禁打卡,到机场火车站的安检措施,这些技术的落地都离不开指纹、虹膜等一类的生物特征识别技术的应用。
如果想一次性打包体验这些应用,小编建议你提前规划下月中旬的行程——9月16日,一场汇聚全球前沿科技、顶尖行业专家和技术大咖的中德人工智能大会,即将于珠海拉开帷幕!
想了解正在改变我们生活的物联网技术吗?想亲自坐上自动驾驶兜一圈风吗?想通过虚拟现实提前触碰未来世界吗?这里统统都能满足你…
黑科技展负责提供超乎现实的感官体验,而会场内则是一场观点与经验碰撞的思想盛宴——来自中德两国最顶尖的人工智能团队将携他们的最新研究成果亮相。同时 DFKI (德国人工智能研究中心)的技术专家也将围绕 AI 的未来趋势、技术落地和企业发展,带来精彩的主题演讲与研讨。
此外,大会现场还将举行国内首个“AI 行业独角兽战略联盟”的签约仪式,联盟成员将得到更多的资源与人才扶持,与海内外顶尖投资机构负责人一对一交流,并获得中德人工智能研究院专家的技术、产业指导。
无论你的企业希望加入国内第一个“AI行业独角兽战略联盟”,或是寻求出海发展的契机;抑或只是想近距离感受黑科技带来的震撼,都可以通过大会手机官网报名→ http://conference.cgaii.com/invitation/invitation.html ;
或者点击链接→ https://mp.weixin.qq.com/s/MW9kEO3fVhHlFD8H_5Q0rQ 了解更多大会详情。
参考文献:
[1] Y. Sun, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. CoRR, abs/1406.4773, 2014.
[2] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In Proc. CVPR, 2015.
[3] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2017
[4] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification. In arXiv:1801.05599, 2018.
[5] CosFace: Large Margin Cosine Loss for Deep Face Recognition
[6] Deng, J., Guo, J., Zafeiriou, S.: Arcface: Additive angular margin loss for deep face recognition. In: Arxiv preprint. 2018
本文暂时没有评论,来添加一个吧(●'◡'●)