基于YOLOv3的人脸关键点检测

阅读: 评论:0

^mmmm2021年第01期
(总第217期)基于YOLOv3的人脸关键点检测
屈金山,朱泽,万秋波
(三峡大学计算机与信息学院,湖北宜昌443002)
360度旋转拖把摘要:深度学习中神经网络强大的特征提取能力,使非约束场景下的人脸检测不再困难,于是人脸关键点的检测逐渐成 为人脸检测的关注点,但目前为止较少算法具备对人脸关键点的检测能力。Y O L O v3作为精度和速度均表现优异的算 法,同样不具备关键点检测的能力。因此,文章提出基于Y O L O v3的人脸关键点检测算法,该算法对Y O L O v3改进,设 计关键点损失函数,实现对人脸关键点的定位,最终实现Y O L O v3在人脸检测中同时输出人脸包围框和人脸关键点。实验表明,提出的方法在Y O L O v3上成功实现了对人脸矩形包围框和人脸关键点的同时输出。
关键词:人脸检测;深度学习;Y O L O v3;关键点检测;损失函数
中图分类号:TP391 文献标识码:B文章编号=2096-9759(2021)01-0055-04
F a ceLandmarkDetectionBasedOn Y O LOv3
Qu Jinshan,Zu Zequn,Wan Qiubo
(School of Computer and Information science,China Three Gorges University,Yichang Hubei 443002) Abstract: The powerful feature extraction ability of neural network in deep learning makes face detection in uncon-strained scenes no longer diffic ult,so the detection of face key points has gradually become the focus of face detection,but so fa r,few algorithms have the ability to detect face key points.As an algorithm with excellent accuracy and speed,yolov3 also does not have the ability of key point detection.Therefore,this paper proposes a face key point detection al-gorithm based on yolov3.
The algorithm improves yolov3,designs the key point loss function,realizes the location of the face key points,and finally re­alizes the simultaneous output of face bounding box and face key points in yolov3 face de-tection.Experimental results show that the proposed method can successfully output the rectangular bounding box and key points of human face on yolov3.
Key words: face detection;deep learning;Y O L O v3; face landmark;loss function
〇引言
人脸检测是机器视觉领域被深入研宄的经典问题,早期 人脸检测作为人脸识别的一部分,待检测的人脸通常为受到 约束的特征明显的人脸,具有清晰的五官特征以及较小的尺 度变化。但随着人脸检测技术的不断发展,非约束环境下的人脸检测也成为人们所关注的问题。但非约束环境带来的面 部遮挡、模糊、人脸角度、表情等使得人脸检测难度增大,传统 方法己经很难满足人们的需求。
深度学习使目标检测与识别取得突破性进展,之后被迅 速应用于人脸检测,并且在准确性和鲁棒性上表现大幅超过
收稿日期=2020-11-12
作者简介:屈金山(1995-),男,湖北宜昌人,硕士研宄生,研宄方向为计算机视觉;万秋波(1996-),男,湖北荆州人,硕士研宂生,研宂方向为 计算机视觉;朱泽(1994-),男,湖北武汉人,硕士研宄生,主研宂方向为计算机视觉。
[7]Yang G,Zhuang M.Achieving the secrecy capacity on strong
security using LT code with polar code pre-coding [C]//The 10th
IEEE International Conference on Anti-counterfeiting,Security,
and Identification (ASID).Xiamen:IEEE,2016:53-57.
[8]Zhang Y,Liu A,Gong C,et al.Polar-LDPC concatenated
coding for the A W G N wiretap channel[J].IEEE Communi­
cations Letters,2014, 18(10):1683-1686.
[9]Ardestanizadeh E,Franceschetti M,Javidi T,et a l.Wiretap
Channel With Secure Rate-Limited FeedbackfJ].IEEE Trans­
actions on Information Theory,2009, 55(12):5353-5361.
[10] Ardestanizadeh E,Franceschetti M,Javidi T,et al.Wiretap
channel with secure rate-limited feedback[J].IEEE Trans on
Information Theory,2009, 55(12):5353-5361.
[11] Wang L,Peng J,M,et al.Achieving secure transmission
using feedback-based LT code with degree di str ib uti on updated
[C]//The 9th International Conference on Wireless Communica­
tions and Signal Processing (W C S P).Nanjing:IEEE,2017:1-6. [12] 汪立康,彭建华,易鸣.一种基于反馈的喷泉码安全传输
如何自制夹蛋器
方法[J].计算机应用研究,2018,035(005): 1526-1529,1554.
(Wang Likang,Peng Jianhua,YiMing.Secure transmission method using fountain code with feedback[J]. Research on The Use of Computers,2018, 035(005): 1526-1529,1554.) [13] Wen-Zhu S ,Hong-Yu W,Kai-Yan Z,et al.A novel enco­
ding scheme for regular variable-node degree LT codes[J].
Acta Electronica Sinica,2014,42(10): 1918-1924.
[14] Cai P ,Zhang Y,Pan C,et al.Online fountain codes with
unequal recovery time [J]. IEEE Communications Letters, 2019,23(99):1136-1140.
[15] Huang J,Fei Z,Cao C,et al.Design and analysis of online
fountain codes for intermediate performance [J].IEEE Trans on Communications (accept).
[16] 牛芳琳,王南,王冬霞,等.一种改进的防窃听L T码[J].武
汉大学学报:理学版,2019(2).(NiuFanglin,W a n g n a n,Wang Dongxia,et al.An improved LT codes in anti-eaves­dropping method [J].Journal of Wuhan University:Science Edition,2019 ⑵.)
55
1x 13x 3128x 128卷积层 S 12 l x l 卷积层 1024 3x 3
烧结烟气脱硫
残差层___________________________________8x 8卷积层
1024
3x 3/2
8x 8
卷积层 256 1x 1卷积层 512 3x 3残差层 ISxlS 卷积层 512 3x 3/2 16x 16
卷积层 128 lx l 卷积层 256 3x 3
残差层 32x 32卷积层 256 3x 3/2
32x 32
卷积层 64 1x 1卷积层 128 3x 3残差层 64x 64卷积层 128 3x 3/2 64x 64
传统计算机视觉方法气在人脸检测领域,随着深度学习技 术的不断发展,利用深度学习强大的特征提取能力进行精细 化的检测人脸如关键点的检测不再是难题。因此,研究者们 也开始利用深度学习的方法来实现人脸关键点的检测。人脸 关键点的检测分为基于ASM 01 (ActiveShapeModeL )和AAM 141 (ActiveAppeamceModel )的传统方法以及基于深度学习的方 法,其中传统方法在关键点检测中利用参数模型,待检测的人 脸服从某个固定的分布,其参数固定,通过参数描述人脸关键 点的分布。由于待检测的人脸数据需要服从某个固定的分布, 因此仅仅适用于早期受到约束的具有清晰特征的人脸检测。 而深度学习强大的特征提取功能使得非约束环境下的人脸检 测成为可能,同时在深度学习模型中,由于参数是在模型的训 练中通过学习不断増加的,因此在基于深度学习的人脸关键 点检测中,人脸可以不服从特定的分布。当前,基于深度学习 的人脸关键点检测己经成为人脸关键点检测中应用最广泛、 精度最髙的方法。YOLO ,
JosephRedmon 于2016年提出,
其提出的单阶段目标检测的概念,使目标检测算法的速度明 显提升,后续又提出YOL 09000141、YOLOv 3卩、YOLOv 4[w后续 版本。YOLOv 3算法凭借其速度和精度优势,受到广大研宄 人员和学者们的青睐,获得较广泛的应用。在人脸检测领域,
YOLOv 3也已经被应用在人脸检测中M ,但不具备对人脸关键
点检测的能力。
基于上述考虑,本文提出一神基于YOLOv 3的人脸关键 点检测方法,该方法通过基于预测框左上角顶点的偏移量计 算各个人脸关键点的位置,之后输出人脸关键点,具体如下, 首先对训练数据集添加各个人脸关键点的位置信息,之后针 对添加的人脸关键点,重新设计实现YOLOv 3模型的输出参 数以及损失函数,同时在YOLOV 3网络损失函数中添加人脸 关键点的损失函数,最后在包含人脸关键点的训练数据集上 训练模型。最终实现YOLOv 3网络在输出人脸边界框的同时 输出人脸关键点。
1相关技术
YOLO 是一神基于深层卷积神经网络的通用目标检测算
法,其利用单个卷积神经网络,将输入图片分成n *n 个网格,
在每个网格上分别进行预测,直接对目标分类和回归。其中
YOLOv 3为YOLO 的第3个版本,如图1所示为YOLOv 3特 征提取网络Darknet 53。YOLOv 3网络具体检测原理如下,首
先对输入图片通过特征提取网络获取目标特征图,之后,通过 多尺度特征融合获得三个不同尺度下的特征图,大小分别为 13*13、26*26、52*52,分别用于提取大尺度、中尺度、小尺度目 标。YOLOv 3在训练前通过对训练数据集进行聚类获得9个
Anchors ,每个尺度下对应3个Anchors ,在检测时,对于特征
图上的每个像素(grid ),都会有3个Anchor  box 进行预测, 出最合适的Andiorbox ,给出相应的offset ,通过计算得到最终
的人脸边界框。
YOLOv 3网络在训练时学习4个参数1^、1?、1、111,其中1«、1
,为预测的中心点坐标的偏移值,U t 为尺度缩放,同时对于每
一个预测的边界框,在预测时给出这4个值,而4个值和最终 预测边界框的值(bx 、lv 、b w 、W 的映射关系如图2所示。图中 蓝框为预测边界框框,B w 、f t 表示预测边界框的宽和高,黑 虚线框表
示Anchor ,Pw 、Ph 表示Anchor 的宽和高。8(t «)、8 (t p 用于表示某个目标的中心点相对负责检测这个目标的网 格的偏移量,如图中所标明,其中(C x ,Q )表示中心点所在grid
cell 的左上角的坐标。
类型 卷积核数目
卷积核尺寸
输出卷积层硅胶气囊
32 3x 3
256x 256卷积层 64
3x 3/2 128x 128
ix 2x Sx 8x 4x 平均池化层 全局全连接层 1000
Soft  m ax
图1 DarknetS 3结构图
P_
P.
bh l〇(v
h —!•
by =a (ty.
)+cy 图2 YOLOv 3预测框与anchor 的关系
YOLOv 3训练损失函数如公式(1)所示:
L 〇SSr 〇L 〇r i  ~
S  /f ^ ^
~ ^ ^ ^ 1 +
<•0./«0^ A  ^ A
h
("1 ^
Z  £ ) l 〇s(l  - )卜
v =p
i  【
匕 1〇g(q )+ -匕)1〇gd - c,)卜J m d t l l f  Z  LPl (c >l 〇S(A (<?»+(1-^(e))l o S(,-i /->6 cccbm a
YOLOv 3损失函数中包含预测边界框的中心坐标损失、
宽高损失、目标置信度损失以及目标类别损失共4个部分,其 中目标置信度损失以及目标类别损失采用交叉熵损失而坐标 损失和宽髙损失采用平方误差和。
单阶段目标检测算法YOLO 的提出使目标检测算法的速 度获得明显提升,之后YOLO 卯00、v 3等版本的提出又使得精 度不断提髙。然而,YOLOv 3作为表现优异的目标检测算法, 在目标检测中其目标回归框为矩形包围框,缺乏对特定目标 关键点的展示。因此本文基于YOLOv 3,针对人脸检测,对
YOLOV 3算法进行改进,添加对人脸关键点的检测,使YOLO -2
43 6层层层
积积差卷卷残56
v3算法具有对人脸关键点进行检测的能力。
2基于YOLOv3的人脸关键点检测
本方案基于Y O L O v3的人脸关键点检测流程如下:首先 对训练数据集添加人脸关键点的标注,之后对Y O L O v3网络 的输出端添加关键点输出的功能,再对Y O L O v3训练损失函 数添加对关键点损失的计算,最后使用修改后的Y O L O v3网络在添加人脸关键点的数据集上进行训练获得模型,最终在 训练完成的模型上进行人脸及其关键点的检测。
第1节中描述了在Y O L O v3网络中如何对目标矩形框进 行回归,Y O L O v3在训练中学习4个参数^^、^^,在预测目标 矩形框时也输出这4个参数,用于获取目标矩形框。其中U k
用于获取目标矩形框中心点的位置,其计算公式如下:
tx ^ Gx - Cx(2)
ty = Gy- Cy(3)其中,G n G,是标注框在对应特征图上的中心点坐标,Cx, Q为该中心点所在的特征图网格的左上角坐标。
图3人脸关键点检测原理
本文提出基于预测框左上角顶点偏移的人脸各关键点的 定位方法原理图3所示:其中L E、R E、N O、L M、R M分别表示 人脸五个关键点左眼、右眼、鼻子、左嘴角、右嘴角到预测框左 上角顶点的偏移量。图中,在对人脸关键点的训练中,不同于 Y O L O v3训练时对目标中心点的回归,而是通过标签数据中提 供的人脸关键点的位置,来计算各个关键点与预测框左上角顶 点的偏移量。在检测时,网络在输出4个预测框参数的同时,输出人脸各个关键点相对于预测框左上角顶点的5组偏移量。通过这些偏移量计算得出人脸关键点。计算公式如下所示:
K=P.-e'w(3)
b…=P h-e,k(4)
=S(t,,)K L E y=為)A(5)
RE,--= S(t x2) K REy=S{tyl)bh(6)
NO,=--S(tx1)bwNOy=S{tri)bh(7)
L M X=:的=(8)
风=R M y=(9)式中(L E x,LEy)为点L E相对于预测框左上角顶点在x轴 和y轴方向上的偏移距离。同理,(肌,REy)、(N C L N O y)、(L M X, L M y)、(R M>,R M y)分别表示目标关键点R E、N O、L M、R M到 预测框左上角顶点的偏移距离。在模型检测阶段,图片输入 到Y O L O v3网络中,首先通过Y O L O v3网络得到人脸预测边 界框,同时,Y O L O v3在预测人脸边界框的同时得到人脸各个关键点距离预测边界框左上角顶点的偏移距离(Ax,A y),预测 边界框的左上角顶点坐标为(L U x,L U y),最终关键点的坐标通 过预测边界框左上角顶点坐标加上各个关键点的的偏移量即 可获得。
2.1训练数据集的处理
训练数据集的处理首先需要获得对应各个人脸关键点的 坐标,具体方案为首先标记人脸边界框,同时标记人脸五官关 键点坐标,包括左眼中心点、右眼中心点、鼻尖点、左边嘴角点、右边嘴角点共5个人脸关键点。由于Widerface数据集中人 脸数据较多,包含了尺度、姿态、遮挡、表情、化妆、模糊等不同 场景下的人脸,特别是人脸姿态,不同姿态如俯视、侧脸等场 景人脸关键点位置与正常人脸中的五官位置分布差异较大, 此外,对于遮挡情况下的人脸也往往因为关键部位被遮挡而 导致关键点的缺失,标记难度较大。因此,在对Widerface数 据集的训练集进行关键点的标注时,针对性的选取具有较清 晰五官的人脸来标记五官关键点的坐标,对于极小尺度下无 法观测到人脸关键点的人脸则
卷绕电池仅仅标注人脸矩形包围框,不 标记人脸关键点。如图4所示为Y O L O v3中原始标注效果以 及本文中对人脸关键点标注的效果。
(a)原始Y O L O v3 (b)本文标注
图4人脸标注
图5则描述了原始Y O L O V3标注格式和本文人脸关键点 方案的标注格式。
p a t h(戈i*i& yi息义1«〇» i d i)(x2g^如x2 組)i dl)
(b)V0L〇\3运记格式
p a t h(xliia y W M p D l”D2”D2P D3p D3p M j p M p i d l)•••i
(W关镰《方案阮《式
[]1猫,#8口 X它[] 21[]
图5原始Y O L O v3标注格式和本文标注格式
2.2 Y O L O v3网络修改
Y O L O v3网络输出使之具备输出关键点的能力,需要为 网络増加关键点的输出。Y O L O v3原始预测输出中只输出人 脸预测边界框的中心点坐标、预测边界框的宽高以及该预测 边界框的得分,因此对于每张图片提取的特征图的维度为 (nu m_anchors*bbox_a t t r s, grid_size, grid_size),其中 n u m_an-chors表示特征图上每个格子使用的Anchors的数量,Y O L O v3 中为3; bb〇x_attrs表示每个预测边际框所包含的参数,原始 Y O L O v3中其大小为85,其中80为目标类别数,5为每个预 测框的输出,包含2个中心点坐标以及预测框的宽和高以及该 预测框的得分;gricLsize表示特征途的尺寸。Y O L O v3在训练
57
(a)原始 Y O L O v 3
(b)本文 Y O L O v 3
图6效果对比
本文模型的最终检测效果如图6所示,其中没有关键点
中计算损失时,是将一个batch_size数的图片的数据一起计算, 因此,计算损失时,输出特征图维度为(batch_size, grid_size* grid_size*num_anchore, 5+类别数量)。本文中仅仅输出人脸一 个4别,同时S 每一个预测框的输出中,除了中心点坐标以及预 测框宽高之外,还增加各个关键点距离预测框左上角顶点的偏 移量共10个参数,因此本文中计算损失时,Y O L O v 3特征图输 出参数维度为(batch_size,grid _size *grid _size*num_anchors,16)。
完成Y O L O v 3输出参数的修改,同时对于添加的关键点, 还需要在Y O L O v 3网络损失函数中进行修改,添加关键点的 损失函数。本文添加的人脸关键点的损失函数如公式⑷所示。 在原始Y O L O v 3损失函数基础上添加公式(4),即为本文Y O - L O v 3方法的最终的损失函数公式(5)。
M ) M )
^
l t /T (2-»iX^X(*31-x3I )2+(>.3,-;3,)1]+
(1〇)
M> >M »
A _y.t ./7(2-"iX^X(>5.-»S .y -f(y5,-j6<)1]
^MSSmUXii _L n ,i>krt  = ^^rOLOvi  ^J °SSMnort  (ID
2.3模型的训练
本文使用带有5个人脸关键点标注的Widerface训练集 进行训练,该数据集由文献[10]提供。WiderfaCe[11]数据集由香
港中文大学提出,该数据共包含32203张图像,标注了 393703 张人脸,数据集分为训练集、验证集、测试集。该数据集人脸 种类齐全,人脸数量大。其中标注的最小人脸尺寸为l〇*l〇pi- xel。该数据集将作为本文模型的训练数据集,Widerface数据 集的下载链接如下:shuoyangl213.m e /W I D E R F A C E 。修改完之后的网络需要在训练数据集上进行训练得到最终 的模型,本文使用keras深度学习框架。训练结束后得到后缀为 上的keras模型,利用该模型即可实现对人脸及其关键点的检测。3实验结果及分析
的输出为原始Y O L O v 3检测效果,仅输出目标的矩形包围框, 而本文方法则使Y O L O v 3同时输出人脸矩形包围框以及人脸 关键点。最终本文方法在保证人脸检测精度的同时,使Y O - L O v 3具备了人脸关键点检测的能力。4结语
针对当前人脸检测中较少算法同时具备人脸矩形包围框 和人脸关键点检测能力的问题,本文利用Y O L O v 3在精度和 速度上的优势,对Y O L O v 3网络模型进行改进,通过设计添加 关键点的检测以及重新设计损失函数,最终实现了 Y O L O v 3 对人脸和人脸关键点的同时输出,在保证人脸检测精度的同 时,实现了同时检测人脸以及人脸关键点。参考文献:
[1] 刘英剑,张起贵.基于Edge Boxes和深度学习的非限制条
件下人脸检测[J].现代电子技术,2018, v.41;N o.516(13): 29-33.
角关联[2] 卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应
用研宄综述[J].数据采集与处理,2016, 31(1): 1-17.[3] Timothy F. Active Shape Models-Their Training and Applica-
tion[J] .Computer Vision & Understanding, 1995,61:38-59.[4] Edwards G  J, Cootes T  F, Taylor C  J. Face Recognition
Using Active Appearance Models [C ]. Computer \^sion - E C C V 98, 5th European Conference on Computer Vision, Freiburg, Germany, June 2-6,1998, Proceedings, Volume I I , 1998.
[5] Redmon J, Diwala S K , Girshick R , et al. You Only Look
Once: Unified, Real-Time Object Detection[C ], computer vision and pattern recognition, 2016: 779-788.
[6] Redmon J, Farhadi A . Y O L O 9000: Better, Faster, Stronger
[C ]. IEEE Conference on Computer Vision & Pattern Recog­nition, 2017: 7263-7271.
[7] Redmon J, Farhadi A . Y O L O v 3: A n  Incremental Impro­
vement. arXiv e-prints, 2018: arXiv: 1804.02767.
[8] Bochkovskiy A , Wan g  C -Y , Liao H . Y O L O v 4: Optimal
Speed and Accuracy of Object Detection[J]. ArXiv, 2020, abs/2004.10934.[9]
蒋纪威,何明祥,孙凯.基于改进Y O L O v 3的人脸实时检 测方法[J].计算机应用与软件,2020, 037(005): 200-204.[10] Deng J, Guo J, Zhou Y ,etal.RetinaFace: Single-stage Dense
Face Localisation in the Wild [J], arXiv preprint arXiv: 1905.00641,2019.
[11] Yang S, Ping L , Chen C  L , et al. W I D E R  F A C E : A  Face De ­
tection Benchmark[C ]. IEEE Conference on Computer Vi­sion & Pattern Recognition, 2016: arXiv: 1511.06523.
H
I
3
r
58

本文发布于:2023-07-22 08:35:29,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/187657.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:人脸   关键点   检测   目标   损失   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图