基于协同表示的监督的类判别字典学习算法

(整期优先)网络出版时间:2021-01-05
/ 5


基于协同表示的监督的类判别字典学习算法

张捷

(扬州大学,江苏扬州)

摘要:图像分类是计算机视觉领域的一个重要的任务,为了解决这一任务,本文提出一种基于每一类的判别信息生成的字典模型,称为监督的类判别的字典学习(Supervised Class-discriminant Dictionary Learning, SCDDL)模型。SCDDL模型从训练集中学习得到一个字典和在这字典上的表示系数,不仅不同类别的字典对训练样本的重建误差具有判别性而且表示系数具有判别性。在此基础上,充分利用重建误差的判别性和表示系数的判别性提出相应的图像分类方案。大量的实验结果表明,与现有的模型分类方法相比较,该分类方法在图像分类的任务上具有较好的分类性能,且算法的效率高。

关键词:字典学习;图像分类;协同表示;有监督学习。

Supervised Class-Discriminant Dictionary Learning Algorithm based on Cooperative Representation

Zhang Jie

(Yangzhou University, Jiangsu, 225009, China)

Abstract: Image classification is an important task in the field of computer vision. To solve this task, this paper proposes a Dictionary model called Supervised Class-discriminant Dictionary Learning (SCDDL) model.SCDDL model obtains a dictionary learning from the training set and the representation coefficients on the dictionary, which are discriminative not only for different class of dictionaries but also for the representation coefficients.On this basis, the discriminability of reconstruction error and representation coefficient is fully utilized to propose the corresponding image classification scheme.A large number of experimental results show that, compared with the existing model classification methods, this classification method has better performance in image classification task, and the efficiency of the algorithm is high.

Key words: Dictionary learning; Image classification; Collaborative representation.

一、引言

近年来稀疏表示编码[1]取得了较好的应用,比如在表示自然的图像上。图像可以表示为一组基的线性组合的形式,其中线性组合的表示系数是稀疏的。基于稀疏表示的分类模型(Sparse Representation based Classification, SRC)[2]在人脸识别上取得了很好的效果,SRC算法的思想是:同类别的样本可以由本类中的其他样本的线性组合表示,因此字典直接由训练样本组成,字典的原子就是训练样本。然后在稀疏表示的约束下(5ff42ec9c3db5_html_cb825c89435ad6e2.gif 范数约束)对测试样本进行稀疏编码,因此测试样本可以看成是字典原子的稀疏线性组合。SRC分类器的设计依据的方法是最小重建误差准则。Zhang Lei等人认为SRC算法的成功采用的是协同表示而不是稀疏表示[3],并且提出了基于协同表示的分类(Collaborative representation based classification CRC)算法,在稀疏编码的时候加上了5ff42ec9c3db5_html_53a6ce9673daf89a.gif 范数的正则项约束。实验结果表明,CRC算法比SRC算法的分类正确率更高,并且CRC算法的计算复杂度更低[3]。

SRC算法和CRC算法利用原始训练集直接构建字典,然后对测试样本进行稀疏编码。在图片分类任务上,SRC算法和CRC算法在图像分类的任务上并不是很高效。因此,越来越多学者致力于学习得到一个更好的字典,并能很好的对测试样本进行稀疏表示。在学术界中,一个经典的字典学习算法K-均值奇异值分解(K-SDV)算法[5],该算法致力于从训练集中高效的学习到一个过完备字典并用于对图像的重建和图像的压缩,但并不是很适合于图像的分类任务。在K-SDV算法提出之后,Julien Mairal等人[6]改进K-SDV算法,提出了用于图像分割和场景分析的DKSVD算法。Jiang Zhuolin等人[17]对K-SDV算法改进,提出了标签一致性K-SDV(LC-KSDV)算法,该算法在K-SDV的目标函数中加入标签一致正则项,使得稀释编码更具判别性,从而使得该算法在图像的分类上有不错的表现。近年来,Yang Meng等人[13]提出基于Fishe线性判别(Fisher Discrimination Dictionary Learning FDDL)算法在图像的分类任务上取得了较好的效果。然而,如何设计出一个出色的判别字典学习算法,使得该字典能够很好的表示和对未知样本进行分类,在该问题上仍然是值得研究的。

在本次研究中,设计出一个新的判别字典学习算法——监督的类判别字典学习(SCDDL)算法。该算法学习得到的字典具有类别信息,字典中的原子和类别的标签相对应。同一类别的字典和表示系数能够很好重建本类别的训练样本。不同类别的字典和表示系数重建训练样本能力较弱,此外,不同类别的表示系数具有较大的差异性。因此,对于一个测试样本,可以充分利用上述的两种信息实现分类。在图像的分类任务中,与已有的其他实验数据相比SCDDL模型相比于其他字典学习模型相比较具有较高的分类正确率。


二、监督的类判别字典学习

我们提出了一个能够从带有标签的训练样本中学习得到一个具有判别信息字典的学习算法,称作监督的类判别字典学习。给定带有标签的训练集5ff42ec9c3db5_html_b45a3c1d024d38e9.gif ,训练集中总共有5ff42ec9c3db5_html_1326084ae10a639a.gif 个类别,5ff42ec9c3db5_html_e9fe7898be0d686f.gif 是第5ff42ec9c3db5_html_845c98405b71d99f.gif 个类别的训练集。用5ff42ec9c3db5_html_7e206069be4ab81e.gif 作为表示系数,我们想要得到的结果是字典5ff42ec9c3db5_html_82a78b29e6d52baf.gif 经过系数表示后能够很好的表示训练样本,即5ff42ec9c3db5_html_7536a1bac92fe4f1.gif 。在这基础上我们还希望字典5ff42ec9c3db5_html_ebfa76d46e64ab44.gif 和系数5ff42ec9c3db5_html_d259965c334ef5a1.gif 在不同的类别之间具有很好的判别性,也就是说字典5ff42ec9c3db5_html_368185c52954c6df.gif 和系数5ff42ec9c3db5_html_56b6dfcefe93a466.gif 要和类别标签相关联。为了解决上述目标,我提出了以下的模型:

5ff42ec9c3db5_html_60c73507f68c552f.gif5ff42ec9c3db5_html_85ed9d5eb0e31445.gif (2-1)

公式(2-1)中的5ff42ec9c3db5_html_d48476db69439acf.gif 是表示约束项(Representation Constrained Term) [7],5ff42ec9c3db5_html_7675f8f4b93c5c51.gif 是不同于FDDL模型[13]中的的系数约束项,5ff42ec9c3db5_html_c4c7a437b12264c5.gif 是系数判别项,5ff42ec9c3db5_html_5fcb426cf51ee5c5.gif5ff42ec9c3db5_html_476f55942afdb1af.gif 是常数系数。SCDDL模型中使用5ff42ec9c3db5_html_e22edd0473a79852.gif 作为限制条件,保证原子都是单位的,因此字典原子可视为一组单位基。下面将说明5ff42ec9c3db5_html_d48476db69439acf.gif5ff42ec9c3db5_html_c4c7a437b12264c5.gif 中的细节和他们在模型中的作用。


(一)表示约束项

我们可以用5ff42ec9c3db5_html_a9ccee867570c078.gif 的形式来表示5ff42ec9c3db5_html_295c378eb5b885be.gif ,即得到等式5ff42ec9c3db5_html_afb5cb93acc6826b.gif 。其中5ff42ec9c3db5_html_b61cf9b32ee99f0e.gif 是第5ff42ec9c3db5_html_50b42c433947713b.gif 类子字典5ff42ec9c3db5_html_9196c61ffd86b5bc.gif 关于第5ff42ec9c3db5_html_dcca03f09ea4ce71.gif 类样本5ff42ec9c3db5_html_bf8af9851a030897.gif 的表示系数。我们希望的是5ff42ec9c3db5_html_8f6152af1f4817df.gif 很够很好的被5ff42ec9c3db5_html_38792c4b7831060d.gif 表示,即5ff42ec9c3db5_html_51fda074e90a928c.gif5ff42ec9c3db5_html_d6499c7d21a0643d.gif 。所以,用5ff42ec9c3db5_html_7edafa3a2d930195.gif 对样本5ff42ec9c3db5_html_62d6ba2845fd024d.gif 重建,考虑子字典5ff42ec9c3db5_html_d51fc3233fe4a1df.gif 是和第5ff42ec9c3db5_html_46b1489fb61ae5f7.gif 类样本相关联,但是我们不希望第5ff42ec9c3db5_html_50b42c433947713b.gif5ff42ec9c3db5_html_2c8e988c6a0a4676.gif ,类的字典能够很好的对样本5ff42ec9c3db5_html_62d6ba2845fd024d.gif 重建,所以我们使5ff42ec9c3db5_html_6fd9ff28253a6097.gif5ff42ec9c3db5_html_c491de10970d146.gif 这两项最小化以达到目的。因此,表示约束项5ff42ec9c3db5_html_52dab12474aebe4c.gif [14]被定义为如下的式子:

5ff42ec9c3db5_html_b9aab1a51a95d167.gif (2-2)

下面将说明公式(2-2)中的每一项在整个式子中的作用。

第1种情况,当有5ff42ec9c3db5_html_52dab12474aebe4c.gif =5ff42ec9c3db5_html_7edafa3a2d930195.gif 时,虽然字典5ff42ec9c3db5_html_42b59f7b38f39a87.gif 和系数5ff42ec9c3db5_html_ec7360c01a1ae03b.gif 能够对第5ff42ec9c3db5_html_8b72da7f37c3efef.gif 类训练本5ff42ec9c3db5_html_bf8af9851a030897.gif 很好的表示,但是第5ff42ec9c3db5_html_8b72da7f37c3efef.gif 类字典5ff42ec9c3db5_html_936175dc3d922113.gif 和系数5ff42ec9c3db5_html_865862f8a2e807d1.gif 并不能很好的对训练样本5ff42ec9c3db5_html_bf8af9851a030897.gif 重建,如图2-1中的(a)所示,5ff42ec9c3db5_html_bf8af9851a030897.gif5ff42ec9c3db5_html_5fc836ed90b3ce55.gif 的可视化图相差甚远。并且,第5ff42ec9c3db5_html_86d4054baf48f277.gif 类系数5ff42ec9c3db5_html_865862f8a2e807d1.gif 在系数5ff42ec9c3db5_html_295c378eb5b885be.gif 中不能有很好的判别性,5ff42ec9c3db5_html_865862f8a2e807d1.gif 不能和5ff42ec9c3db5_html_f5f1a2f756f99ba.gif5ff42ec9c3db5_html_6c1007085d212a3a.gif ,形成很好的区别,如图2-2中的(a)所示。

第二种情况,当5ff42ec9c3db5_html_52dab12474aebe4c.gif =5ff42ec9c3db5_html_7edafa3a2d930195.gif +5ff42ec9c3db5_html_1ae9ac43964a77cf.gif ,我们使第5ff42ec9c3db5_html_2e571a0f56d1c5df.gif 类的字典5ff42ec9c3db5_html_d9f66e5257127d02.gif 与第5ff42ec9c3db5_html_2e571a0f56d1c5df.gif 类系数5ff42ec9c3db5_html_865862f8a2e807d1.gif 能够对样本5ff42ec9c3db5_html_bf8af9851a030897.gif 很好的重建,如图2-1中的(b)所示,5ff42ec9c3db5_html_bf8af9851a030897.gif5ff42ec9c3db5_html_5fc836ed90b3ce55.gif 的相似性较高。同时第5ff42ec9c3db5_html_86d4054baf48f277.gif 类系数5ff42ec9c3db5_html_865862f8a2e807d1.gif 在系数5ff42ec9c3db5_html_295c378eb5b885be.gif 中有较好的判别性,如图2-2中的(b)所示。

第三种情况,当5ff42ec9c3db5_html_52dab12474aebe4c.gif =5ff42ec9c3db5_html_7edafa3a2d930195.gif +5ff42ec9c3db5_html_1ae9ac43964a77cf.gif +5ff42ec9c3db5_html_72385fb858e97804.gif 时,当我们对第5ff42ec9c3db5_html_2e571a0f56d1c5df.gif 类样本重建时,尽量减少第5ff42ec9c3db5_html_50b42c433947713b.gif 类字典5ff42ec9c3db5_html_c1015101604263ed.gif5ff42ec9c3db5_html_bd73a9cf05ac87df.gif 系数中的第5ff42ec9c3db5_html_50b42c433947713b.gif 类系数5ff42ec9c3db5_html_f5f1a2f756f99ba.gif 对重建结果的影响。从图2-1中的(c)看得出,5ff42ec9c3db5_html_bf8af9851a030897.gif5ff42ec9c3db5_html_5fc836ed90b3ce55.gif 的相似性很高,因此5ff42ec9c3db5_html_5fc836ed90b3ce55.gif 能够很好的对第5ff42ec9c3db5_html_2e571a0f56d1c5df.gif 类训练样本5ff42ec9c3db5_html_bf8af9851a030897.gif 重建。并且在上一步的工作基础上5ff42ec9c3db5_html_865862f8a2e807d1.gif 的判别性进一步增强,5ff42ec9c3db5_html_865862f8a2e807d1.gif5ff42ec9c3db5_html_f5f1a2f756f99ba.gif5ff42ec9c3db5_html_6c1007085d212a3a.gif ,形成很好的区别。

5ff42ec9c3db5_html_61f61f652a57ecc5.png5ff42ec9c3db5_html_5e2cd05a8d83d78c.png
5ff42ec9c3db5_html_499fd893fb94e107.png
5ff42ec9c3db5_html_9c76255309d214e6.png

图2-1第5ff42ec9c3db5_html_f7c04980fca8882e.gif 训练样本5ff42ec9c3db5_html_f0697b99106af0c7.gif5ff42ec9c3db5_html_add78f84d15ccab8.gif 对训练样本重建,(a)为训练样本5ff42ec9c3db5_html_f0697b99106af0c7.gif ,(b)、(c)、(d)分别为第一、二、三种情况下5ff42ec9c3db5_html_add78f84d15ccab8.gif 对训练样本5ff42ec9c3db5_html_f0697b99106af0c7.gif 的重建

5ff42ec9c3db5_html_89c75a7362d12502.png
5ff42ec9c3db5_html_116561e8eb88ec33.png5ff42ec9c3db5_html_c67f8540f4076afe.png

图2-2稀疏表示系数,(b)、(c)、(d)分别为第一、二、三种情况下的稀释表示系数矩阵5ff42ec9c3db5_html_21107ca1c1a67cb1.gif

(二)系数的判别项

稀疏表示SRC的本质就是样本尽可能的被表示为字典原子的线性组合形式[2],稀疏性是指系数在表示同类别样本时该类别的系数具有较大的分量,不同类别的系数具有较小的分量。同样的,我们使SCDDL模型的系数矩阵更加贴合与SRC的思想,我们增加系数区别项5ff42ec9c3db5_html_30cb772c9d98e0d2.gif 。理论上,如果5ff42ec9c3db5_html_22c3bbf05633dc27.gif5ff42ec9c3db5_html_b8807a5b93754d89.gif 是属于同一类的标签,5ff42ec9c3db5_html_8b89901bfd686e8c.gif ,那么5ff42ec9c3db5_html_4a3733c88f2f4e32.gif 的值就会很大,如果属于不同的类别标签,5ff42ec9c3db5_html_1b4b07df6c380094.gif ,那么值5ff42ec9c3db5_html_4a3733c88f2f4e32.gif 就会很小,因此文本定义系数区别项如下:

5ff42ec9c3db5_html_45b7c3c9040a4215.gif (2-3)

在这一项下,5ff42ec9c3db5_html_295c378eb5b885be.gif 中的其他类别表示系数5ff42ec9c3db5_html_865862f8a2e807d1.gif5ff42ec9c3db5_html_1b4b07df6c380094.gif ,就会变得较小,因此,进一步增强了表示系数矩阵5ff42ec9c3db5_html_b9c5566d1530a860.gif 的判别性。同时,在第5ff42ec9c3db5_html_f6a4bfe1dc1caa9f.gif 类训练集重建误差5ff42ec9c3db5_html_1ae9ac43964a77cf.gif 具有更小的值,而5ff42ec9c3db5_html_9fd4e0485ba64a24.gif 具有较大的值,因此也增强了重建误差的判别性。

(三)SCDDL模型

通过将公式2-2和公式2-3代入公式2-1,可以得到本文的完整模型:

5ff42ec9c3db5_html_3f7b4a8f7c8f762a.gif

5ff42ec9c3db5_html_d55ce3eabc1f5acb.gif (2-4)

在本模型中,通过学习得到的字典5ff42ec9c3db5_html_cc188cecdcd5a4c2.gif 和稀疏表示系数5ff42ec9c3db5_html_f77d3df88553a3af.gif ,能够使得5ff42ec9c3db5_html_6c2e8df3c682dcf9.gif 具有较小的值而5ff42ec9c3db5_html_c4771d412a6714aa.gif5ff42ec9c3db5_html_1b4b07df6c380094.gif ,具有较大的值。因此,第5ff42ec9c3db5_html_b09792b864242a7b.gif 类的字典5ff42ec9c3db5_html_31b729736d5c618b.gif 对于同类的样本5ff42ec9c3db5_html_c8e6ae2a9e82eca2.gif 有较小的重建误差,对于不同类的样本5ff42ec9c3db5_html_be4273f5e2294292.gif5ff42ec9c3db5_html_1b4b07df6c380094.gif ,据有较大的重建误差,所以我们认为重建误差具有判别性。不仅如此,第5ff42ec9c3db5_html_b09792b864242a7b.gif 类的样本在5ff42ec9c3db5_html_31b729736d5c618b.gif 上的表示系数5ff42ec9c3db5_html_865862f8a2e807d1.gif 相对于在5ff42ec9c3db5_html_b62c0c7196f78629.gif 上的表示系数5ff42ec9c3db5_html_9cbf6d92483066f6.gif 有较强的差异性。因此,我们说表示系数5ff42ec9c3db5_html_39bb17a02d0d3842.gif 有判别性。


三、模型的求解

公式2-4的的目标函数中有两个未知的变量5ff42ec9c3db5_html_cc188cecdcd5a4c2.gif5ff42ec9c3db5_html_f77d3df88553a3af.gif ,我们采用的方法是固定其中一个变量求解另一个变量,固定字典5ff42ec9c3db5_html_cc188cecdcd5a4c2.gif ,求解系数5ff42ec9c3db5_html_f77d3df88553a3af.gif ;固定系数5ff42ec9c3db5_html_f77d3df88553a3af.gif ,求解字典5ff42ec9c3db5_html_cc188cecdcd5a4c2.gif ,进行迭代求解。同时当固定一个变量时,目标函数中只有一个未知变量。此时,目标函数就成了凸函数[15],可运用凸优化问题求解。求解的算法见如下步骤。

(一)求解系数Z

我们固定5ff42ec9c3db5_html_3233d67e8a407308.gif ,假定5ff42ec9c3db5_html_3233d67e8a407308.gif 是已知的,目标函数就变成了求解系数矩阵5ff42ec9c3db5_html_b0fde8c40d753ddb.gif ,依次求解5ff42ec9c3db5_html_481ca3400e3023b0.gif 。当求解5ff42ec9c3db5_html_e970bf8108b95219.gif 时,假设5ff42ec9c3db5_html_3cb3b16e9d8fd036.gif 是已知的。所以目标函数(2-4)变成了求解下面的式子:

5ff42ec9c3db5_html_7325cad1e5c031ed.gif

5ff42ec9c3db5_html_4101a6f8717b0db0.gif (3-1)

由于存在5ff42ec9c3db5_html_1b5575974e134d65.gif 的分量5ff42ec9c3db5_html_865862f8a2e807d1.gif5ff42ec9c3db5_html_9cbf6d92483066f6.gif ,我们使用投影矩阵5ff42ec9c3db5_html_dd49bec87bf5bbcf.gif5ff42ec9c3db5_html_6eba37822b8f46fe.gif 使得等式5ff42ec9c3db5_html_fbdf9fd8048e6376.gif5ff42ec9c3db5_html_75b157920e98783d.gif 成立,因此我们使用5ff42ec9c3db5_html_9afee2486a26c792.gif5ff42ec9c3db5_html_46c9c0dfa2653976.gif 替换5ff42ec9c3db5_html_865862f8a2e807d1.gif5ff42ec9c3db5_html_9cbf6d92483066f6.gif 。投影矩阵5ff42ec9c3db5_html_dd49bec87bf5bbcf.gif (5ff42ec9c3db5_html_6eba37822b8f46fe.gif )的作用是使5ff42ec9c3db5_html_5754f9ec9125eb4d.gif (5ff42ec9c3db5_html_4ec2f1b1fc598c91.gif )关于第5ff42ec9c3db5_html_9b258286fb47da99.gif 类保持不变,其他的分量变为5ff42ec9c3db5_html_d3a7aef379710dc3.gif 。通过求解上面的等式得到如下的结果:

5ff42ec9c3db5_html_f34e00448427df63.gif (3-2)

(二)求解字典D

固定5ff42ec9c3db5_html_3bce62ba9822bb4c.gif ,假定5ff42ec9c3db5_html_f62fa92cbc3b726b.gif 已知,目标函数变为了求解字典5ff42ec9c3db5_html_c96fd87bc84e9c69.gif 。我们依次的更新,当求解5ff42ec9c3db5_html_f629852779c27dcb.gif 时,假定5ff42ec9c3db5_html_8bf8d0db998b2bcc.gif5ff42ec9c3db5_html_b6f03bbf4c901d7e.gif )是已知的。所以求解的问题就变成了如下的等式:

5ff42ec9c3db5_html_2f9a6c37832a19ca.gif

5ff42ec9c3db5_html_b0984e36babcfe44.gif (3-3)

式中5ff42ec9c3db5_html_3fc10569f6415d83.gif5ff42ec9c3db5_html_aae08b5554258452.gif 是训练集5ff42ec9c3db5_html_775b47487a9364e0.gif 在字典5ff42ec9c3db5_html_c9884ce077893beb.gif 上的表示系数。公式3-2还可以按照文献[14]的方法进一步简化成如下的形式:

5ff42ec9c3db5_html_281214d2898f6472.gif (3-4)

式中5ff42ec9c3db5_html_3b6937cb985363cc.gif5ff42ec9c3db5_html_a7d3fb8669c28f70.gif 。这里可以采用Yang Meng等人的方法逐个求解字5ff42ec9c3db5_html_a9729dae6832be6d.gif 中的原子[8]。当求解5ff42ec9c3db5_html_93f02f5018994037.gif 时,假定5ff42ec9c3db5_html_44e27b91d68f216e.gif5ff42ec9c3db5_html_1cb262c45599b9e7.gif 已知,直到更新完该类的中的全部全部原子。求解5ff42ec9c3db5_html_93f02f5018994037.gif 的式子可以描述为:

5ff42ec9c3db5_html_c84fd1ba97bcc87f.gif (3-5)

其中5ff42ec9c3db5_html_ea892deb7f5570a2.gif5ff42ec9c3db5_html_291961defbebba75.gif

下面给出SCDDL模型求解的具体算法。

SCDDL模型求解算法

  1. 初始化每一类子字典5ff42ec9c3db5_html_33c294bc1348c416.gif 的原子为样本5ff42ec9c3db5_html_6ea45a4c8aa81870.gif 的特征向量,5ff42ec9c3db5_html_4b6b89f039f2c1cc.gif 。初始化5ff42ec9c3db5_html_2ef14626a5f76b9a.gif

初始化迭代次数5ff42ec9c3db5_html_d36e3a4f566e8964.gif

2、While目标优化函数2-4未收敛且未达到最大迭代次数do

3、固定字典5ff42ec9c3db5_html_a15730f43a0e00c7.gif ,按照公式3-2更新每一类系数5ff42ec9c3db5_html_40081db11b25adc3.gif5ff42ec9c3db5_html_4b6b89f039f2c1cc.gif

4、固定系数5ff42ec9c3db5_html_cd098a80db1fb38d.gif ,按照公式3-5更新每一类字典5ff42ec9c3db5_html_a9729dae6832be6d.gif 中的原子5ff42ec9c3db5_html_4b6b89f039f2c1cc.gif

5、迭代次数加1:5ff42ec9c3db5_html_db0a485b5cfd9085.gif

6、End while

7、输出5ff42ec9c3db5_html_d5a60466dccf1166.gif


四、分类的方案

通过SCDDL模型学习得到的字典5ff42ec9c3db5_html_61d3d230e202da05.gif5ff42ec9c3db5_html_febf01374a98498.gif 后,其中不同类别的字典对于训练样本的重建误差具有判别性。同时不同类别的表示系数具有判别性。本文充分利用上述的两种判别信息提出以下的分类的方案。

当样本测试5ff42ec9c3db5_html_6941e9b8804737dd.gif 给定时,我们可以利用CRC模型[8]中的5ff42ec9c3db5_html_57bc9a3ccc9db6e.gif 作为样本5ff42ec9c3db5_html_6941e9b8804737dd.gif 在字典5ff42ec9c3db5_html_61d3d230e202da05.gif 的表示系数,5ff42ec9c3db5_html_12a7085f7ca70839.gif 定义为如下:

5ff42ec9c3db5_html_4e4a4699d6038723.gif (4-1)

其中5ff42ec9c3db5_html_829b386690993395.gif 是一个常数,5ff42ec9c3db5_html_992a23a173ef23ca.gif 表示为5ff42ec9c3db5_html_dc8c289a5154b3e5.gif 。其中5ff42ec9c3db5_html_1560055d7f817423.gif 为测试样本在子字典5ff42ec9c3db5_html_1c756c7e07278144.gif 上的表示系数。我们首先利用重建误差的判别性对样本分类,如果5ff42ec9c3db5_html_6941e9b8804737dd.gif 是来自第5ff42ec9c3db5_html_3dba13a5f83443f7.gif 类的样本,则5ff42ec9c3db5_html_c84d63093e53283d.gif 具有较小的值,而5ff42ec9c3db5_html_2d98cc21194e7bad.gif ,5ff42ec9c3db5_html_7dfc4475c508532c.gif ,具有较大的值。其次还可以利用系数表示矩阵的判别性进行分类,5ff42ec9c3db5_html_63b05011b781fc9c.gif5ff42ec9c3db5_html_6941e9b8804737dd.gif 在字5ff42ec9c3db5_html_61d3d230e202da05.gif 上的表示系数,如果5ff42ec9c3db5_html_6941e9b8804737dd.gif 是来自第5ff42ec9c3db5_html_3dba13a5f83443f7.gif 类的样本,那么5ff42ec9c3db5_html_9244505ae8432b8e.gif5ff42ec9c3db5_html_865862f8a2e807d1.gif 很接近而5ff42ec9c3db5_html_9244505ae8432b8e.gif 和。结合重建误差和表示系数的判别性,本文提出的分类方案如下:

5ff42ec9c3db5_html_5070aacc1e64d631.gif (4-2)

式中5ff42ec9c3db5_html_e69b9d7d5c8f8c08.gif5ff42ec9c3db5_html_4332cded8c84d4aa.gif 为第5ff42ec9c3db5_html_f7d301a35e16c639.gif 类字典原子的个数,5ff42ec9c3db5_html_81c2129ef0360b6b.gif 是权值,用于衡量5ff42ec9c3db5_html_2243af41c7ed5711.gif5ff42ec9c3db5_html_33860c4515c641cc.gif 对分类的影响比重。分类规则可以定义为如下:

5ff42ec9c3db5_html_ca95ae4ab0dda4da.gif 。 (4-3)

五、实验结果及分析

本节评价SCDDL模型和分类方案在图像分类任务上的性能。下面分别说明实验使用的数据、实验的参数设置、实验结果以及和其他主流字典学习算法做对比。

(一)使用的数据集

5ff42ec9c3db5_html_2c04c280c0444e2e.png 这部分我们来评估SCDDL模型在Extended Yale B [10]人脸数据集上的效果。采用经过裁剪成192×168像素的标准图像,裁剪后人脸数据只保留脸部特征。本文用含有10个个体的640张人脸图像,每个个体有64张不同灰度的人脸图像。从每个个体中随机选取32张人脸图像作为训练集,其余的32张人脸图像作为测试集。图5-1给出了某个个体的8张人脸图像样例图。

图5-1 Extended Yale B 数据集的样例图片

(二)参数设置

如不进行特别的说明,本文默认用如下的参数文用5ff42ec9c3db5_html_d931c1ca6960b97f.gif 表示SCDDL模型中一类子字典5ff42ec9c3db5_html_2159ce3cc75862a8.gif 原子的个数。由于实验采用的每一类训练集5ff42ec9c3db5_html_db012863ddd648e.gif 的样本数相同且为32个,所以设置每一类字典的原子数5ff42ec9c3db5_html_22692c346fdfd5d8.gif 。在公式2-1中的5ff42ec9c3db5_html_fd9911aa36f059ad.gif5ff42ec9c3db5_html_aaf333e92a72df2e.gif ,分别设置5ff42ec9c3db5_html_99dc6fe6e306892e.gif5ff42ec9c3db5_html_d9064290d241d96b.gif 。在分类的方案中的公式4-1和4-2分别有5ff42ec9c3db5_html_3001a5dad858b648.gif5ff42ec9c3db5_html_e85ebae59b43590e.gif 两个参数,我们设置5ff42ec9c3db5_html_77bb1ebcb4bb0113.gif5ff42ec9c3db5_html_b8a425f83c6e528d.gif

(三)实验结果及对比

SCDDL模型在Extended Yale B人脸数据集上表现处了良好的分类性能精度达到了98.8%,在此说明,分类的精度和模型、数据集及参数有关。下表给出各种优秀的字典学习算法在Extended Yale B人脸数据集的分类结果。

表 5-2 Extended Yale B人脸数据集字典学习算法结果对比

模型 正确率

模型 正确率

SRC[2] 90.0

SVM 88.8

DKSVD[12] 75.3

LC-KSVD[29] 90.6

DLSI[16] 91.4

DLSI*[16] 94.1

FDDL[13] 96.7

SCDDL 98.8

从表5-2可以看出SCDDL模型在Extended Yale B人脸数据集上的分类正确率最高,其次就是FDDL模型。

(四)算法的性能

由于本文的SCDDL模型在更新系数矩阵5ff42ec9c3db5_html_183770153860c35c.gif 上使用的求解算法不同于FDDL模型,FDDL模型采用的是传统的梯度下降法,而SCDDL模型直接求解出公式3-1得极小值。同时,优化目标函数公式2-1存在下界[15],在SCDDL模型求解算法下,每迭代一次目标函数的值就会相应的减少,在Extended Yale B数据下实验目标函数到达最大的迭代次数,且函数值趋向于一个稳定的值,下图可以看到迭代求解次数和目标优化函数值的关系

5ff42ec9c3db5_html_1611cde3adfd3382.png 图5-3 SCDDL模型求解目标函数值的变换过程

从图5-3可以看出当迭代次数到达4次时目标函数的值就基本达到稳定的值了,所以此算法较为高效。


【参考文献】

[1]李子奇. 基于稀疏表示的图像分类算法研究[D].江南大学,2020.

[2]Wright John; Yang A Y, Ganesh Arvind, Sastry S S, Ma Yi, Robust Face Recognition via Sparse Representation[j]. IEEE Transactions on Pattern Analysis and Machine Intelligence: 2009,31(2): 210-227.

[3]Zhang Lei, Yang Meng, Feng Xiangchu.Sparse representation or collaborative representation: Which helps face recognition?[C]// Barcelona. International Conference on Computer Vision. IEEE, 2011:471-478.

[5] M.Aharon, M.Elad and A. Bruckstein, K-SVD: An algorithm for designing overcomplete dictionaries forsparse representation[J]. IEEE Transactions on Signal Processing:2006,54(11):4311-4322.

[6]Julien Mairal, Francis Bach, Jean Ponce, Guillermo Sapiro, and Andrew Zisserman, Discriminative learned dictionaries for local image analysis[C]//Anchorage,AK. 2008 IEEE Conference on Computer Vision and Pattern Recognition,IEEE 2008:1-8.

[7] Meng Yang, Lei Zhang, Xiangchu Feng, and David Zhang.Sparse representation based ?sher discrimination dictionary learning for image classi?[J].International Journal of Computer Vision:2014.109(3):209-232.

[9]Taneja Shweta,Gupta Charu, Aggarwal Sakshi, Jindal Veni. MFZ-KNN — A modified fuzzy based K nearest neighbor algorithm: Noida. 7100689[P].2015.

[10] Lee K C, Ho Jeffrey, Kriegman D J, Acquiring linear subspaces for face recognition under variable lighting. Pattern Analysis and Machine Intelligence: 2005, 27(5): 684-698.

[12] Zhang Qiang, Li Baoxin. Discriminative K-SVD for dictionary learning in face recognition[C]// San Francisco, CA. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE, 2010:2691–2698.

[13]Yang Meng, Zhang Lei, Feng Xiangchu, Zhang David. Discrimination Dictionary Learning for sparse representation[C]// Barcelona. 2011 International Conference on Computer Vision, Barcelona,IEEE 2011:543-550

[14] Yang, Meng, Zhang, Lei, Feng, Xiangchu, Zhang, David. Sparse representation based fisher discriminationdictionary learning for image classification[J]. International Journal of Computer Vision,2014, 109(3):209–232。

[15]杨宝庆. 基于字典学习的图像分类算法及应用研究[D].上海交通大学,2017.

[16] Ignacio Ramirez, Pablo Sprechmann, Guillermo Sapiro. Classification and clustering via dictionary learning with structured incoherence and shared features[C]// San Francisco,CA. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,2010:3501–3508.

[17]Jiang Zhuolin, Lin Zhe, Davis L S. Label consistent K-SVD: Learning a discriminative dictionaryfor recognition[J]. Pattern Analysis and Machine Intelligence: 2013, 35(11):2651–2664.

【基金项目】

扬州大学大学生创新创业训练计划项目(学术科技创新基金项目)

【作者简介】

张捷(1997-),男,汉族,广西贵港市人,扬州大学,本科学历