原始的线性代数技术构建人脸识别系统

人工智能2年前 (2023)发布 wangzhan
3,968 0
ChatGPT国内版

机器学习的最新进展使人脸识别不再是一个难题。但在此之前,研究人员进行了各种尝试并开发了各种技能,以使计算机能够识别人。取得了一定成功的早期尝试之一是eigenface,它基于线性代数技术。

在本教程中,我们将了解如何使用一些简单的线性代数技术(例如主成分分析)构建原始人脸识别系统。

完成本教程后,您将了解:

  • 特征脸技术的发展
  • 如何使用主成分分析从图像数据集中提取特征图像
  • 如何将任意图像表示为特征图像的加权和
  • 如何从主成分权重比较图像的相似度
原始的线性代数技术构建人脸识别系统

人脸识别

教程概述

本教程分为 3 部分;他们是:

  • 图像和人脸识别
  • 特征脸概述
  • 实施特征脸

图像和人脸识别

在计算机中,图片被表示为像素矩阵,每个像素都以一些数值编码的特定颜色。人们很自然地会问计算机是否可以阅读图片并理解它是什么,如果可以,我们是否可以使用矩阵数学来描述逻辑。为了不那么雄心勃勃,人们试图将这个问题的范围限制在识别人脸上。人脸识别的早期尝试是将矩阵视为高维细节,并从中推断出较低维度的信息向量,然后尝试识别较低维度的人。在过去,这是必要的,因为计算机功能不强大,内存量也非常有限。然而,通过探索如何压缩由于图像尺寸要小得多,我们开发了一种技能来比较两个图像是否描绘相同的人脸,即使图片不相同。

1987 年,Sirovich 和 Kirby 发表的一篇论文考虑了这样的想法:所有人脸图片都是一些“关键图片”的加权和。Sirovich 和 Kirby 将这些关键图片称为“特征图片”,因为它们是人脸均值减去图片的协方差矩阵的特征向量。在论文中,他们确实以矩阵形式提供了人脸图片数据集的主成分分析算法。并且加权和中使用的权重确实对应于人脸图片到每个特征图片的投影。

1991年,Turk和Pentland的一篇论文创造了“特征脸”一词。他们建立在 Sirovich 和 Kirby 的想法之上,并使用权重和特征图作为识别面部的特征。Turk 和 Pentland 的论文提出了一种节省内存的方法来计算特征图。它还提出了一种关于人脸识别系统如何运行的算法,包括如何更新系统以包含新的人脸以及如何将其与视频捕捉系统相结合。同一篇论文还指出,特征脸的概念可以帮助重建部分被遮挡的图像。

特征脸概述

在我们进入代码之前,让我们概述一下使用特征脸进行人脸识别的步骤,并指出一些简单的线性代数技术如何帮助完成任务。

假设我们有一堆人脸图片,它们都具有相同的像素维度(例如,都是 r×c 灰度图像)。如果我们得到 M 张不同的图片并将每张图片矢量化为 L=r×c 像素,我们可以将整个数据集表示为 L×M 矩阵(我们称之为矩阵A),其中矩阵中的每个元素都是像素的灰度值。

回想一下,主成分分析 (PCA) 可以应用于任何矩阵,其结果是许多称为主成分的向量。每个主成分的长度与矩阵的列长度相同。同一矩阵的不同主成分彼此正交,这意味着它们中任意两个的向量点积为零。因此,各个主成分构建了一个向量空间,其中矩阵中的每一列都可以表示为主成分的线性组合(即加权和)。

完成的方法是首先采C=A-a在哪里a是矩阵的平均向量A。所以C是减去每列的矩阵A与平均向量a。那么协方差矩阵是

S=C.C

从中我们可以找到它的特征向量和特征值。主成分是按特征值降序排列的这些特征向量。因为矩阵是一个L×L矩阵,我们可以考虑求一个M×M矩阵的特征向量时间相反作为特征向量为了时间可以转化为特征向量时间经过=,除了我们通常更喜欢写作为归一化向量(即范数是 1)。

主成分向量的物理意义,或等效的特征向量=时间,是我们构建矩阵列的关键方向。不同主成分向量的相对重要性可以从相应的特征值推断出来。特征值越大,越有用(即包含更多关于) 主成分向量。因此我们可以只保留前 K 个主成分向量。如果矩阵是人脸图片的数据集,前K个主成分向量是前K个最重要的“人脸图片”。我们称它们为特征脸图片。

对于任何给定的人脸图片,我们可以使用向量点积将其均值减去版本投影到特征脸图片上。结果就是这张人脸图片与特征脸的相关程度有多近。如果人脸图片与特征脸完全无关,我们预计其结果为零。对于 K 个特征脸,我们可以找到任何给定人脸图片的 K 个点积。我们可以将结果表示为该面部图片相对于特征脸的权重。权重通常表示为向量。

相反,如果我们有一个权重向量,我们可以将受权重影响的每个特征脸相加并重建一个新的脸部。让我们将特征脸表示为矩阵,这是一个L×K矩阵,权重向量是一个列向量。那么对于任意我们可以将人脸的图片构造为

=

哪个结果是长度为 L 的列向量。因为我们只使用前 K 个主成分向量,所以我们应该预期得到的面部图片会失真,但保留了一些面部特征。

由于特征脸矩阵对于数据集是恒定的,因此变化的权重向量意思是变化的脸部图片。因此,我们可以预期同一个人的图片将提供相似的权重向量,即使图片不相同。因此,我们可以利用两个权重向量之间的距离(例如 L2 范数)作为两张图片相似程度的度量。

实施特征脸

现在我们尝试用 numpy 和 scikit-learn 来实现特征脸的想法。我们还将使用 OpenCV 来读取图片文件。您可能需要使用命令安装相关包pip

我们使用的数据集是ORL Database of Faces,它已经很老旧了,但我们可以从 Kaggle 下载它:

该文件是一个大约 4MB 的 zip 文件。它有40个人的照片,每个人有10张照片。总共400张图片。下面我们假设文件被下载到本地目录并命名为attface.zip.

我们可以解压zip文件来获取图片,也可以利用zipfilePython中的包直接读取zip文件中的内容:

以上是读取zip中的每个PGM文件。PGM 是一种灰度图像文件格式。我们将每个 PGM 文件提取为字节字符串,image.read()并将其转换为 numpy 字节数组。然后我们使用 OpenCV 将字节字符串解码为像素数组cv2.imdecode()。OpenCV 将自动检测文件格式。我们将每张图片保存到 Python 字典中faces以供以后使用。

在这里,我们可以使用 matplotlib 查看这些人脸图片:

原始的线性代数技术构建人脸识别系统

我们还可以找到每张图片的像素大小:

人脸图片通过 Python 字典中的文件名进行识别。我们可以看一下文件名:

因此我们可以将同一个人的面孔归为同一类。共有40个类,共400张图片:

为了说明使用特征脸进行识别的能力,我们希望在生成特征脸之前保留一些图片。我们提供一个人的所有照片以及另一个人的一张照片作为我们的测试集。剩余的图片被矢量化并转换为 2D numpy 数组:

现在我们可以对该数据集矩阵进行主成分分析。我们没有一步步计算 PCA,而是利用 scikit-learn 中的 PCA 函数,我们可以轻松检索我们需要的所有结果:

我们可以从解释的方差比中确定每个主成分的显着性:

或者我们可以简单地构造一个适中的数字,比如 50,并将这些主成分向量视为特征脸。为了方便起见,我们从 PCA 结果中提取特征脸并将其存储为 numpy 数组。请注意,特征脸存储为矩阵中的行。如果我们想显示它,我们可以将其转换回 2D。在下面,我们展示了一些特征脸,看看它们是什么样子的:

原始的线性代数技术构建人脸识别系统

从这张图片中,我们可以看到特征脸是模糊的脸,但实际上每个特征脸都拥有一些可以用来构建图片的面部特征。

由于我们的目标是构建人脸识别系统,因此我们首先计算每张输入图片的权重向量:

上面的代码使用矩阵乘法来代替循环。它大致相当于以下内容:

到这里,我们的人脸识别系统就已经完成了。我们使用 39 个人的照片来构建我们的特征脸。我们使用属于这 39 个人之一的测试图片(从训练 PCA 模型的矩阵中提取出来的图片)来看看它是否能够成功识别人脸:

上面,我们首先将矢量化图像减去从 PCA 结果中检索到的平均矢量。然后我们计算这个均值减去向量到每个特征脸的投影,并将其作为该图片的权重。然后,我们将相关图片的权重向量与每张现有图片的权重向量进行比较,并找到 L2 距离最小的图片作为最佳匹配。我们可以看到,它确实可以成功地找到同一类中最接近的匹配:

我们可以通过并排比较最接近的匹配来可视化结果:

原始的线性代数技术构建人脸识别系统

我们可以用我们从 PCA 拿出的第 40 个人的照片再试一次。我们永远不会得到正确的结果,因为它对我们的模型来说是一个新人。然而,我们想看看它有多么错误以及距离度量中的值:

我们可以看到它的最佳匹配有更大的 L2 距离:

但我们可以看到错误的结果与相关图片有一些相似之处:
原始的线性代数技术构建人脸识别系统

Turk和Petland的论文中建议我们为L2距离设置一个阈值。如果最佳匹配的距离小于阈值,我们就会认为该人脸被识别为同一个人。如果距离高于阈值,即使可以在数字上找到最佳匹配,我们也会声称该图片是我们从未见过的人。在这种情况下,我们可以考虑通过记住这个新的权重向量,将其作为一个新人纳入我们的模型中。

实际上,我们可以更进一步,使用特征脸生成新的面孔,但结果不太现实。在下面,我们使用随机权重向量生成一个并将其与“平均脸”并排显示:

原始的线性代数技术构建人脸识别系统

特征脸有多好?由于模型的简单性,它的成绩令人惊讶。然而,特克和彭特兰在各种条件下对其进行了测试。研究发现,其准确度“在光线变化时平均为 96%,在方向变化时平均为 85%,在尺寸变化时平均为 64%”。因此,作为人脸识别系统,它可能不太实用。毕竟作为矩阵的图片在放大和缩小后在主成分域会产生很大的畸变。因此,现代的替代方案是使用卷积神经网络,它对各种变换更宽容。

将所有内容放在一起,以下是完整的代码:

 

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...