交大教授训练机器看脸识罪犯识别准确率可达86以上


上海交通大学的武筱林教授和他的博士生张熙近期完成了一项研究,他们发现,通过学习,机器可以通过照片分辨出谁是罪犯,谁是守法公民,识别准确率在86%以上。

这篇论文题为《基于面部图像的自动犯罪概率推断》(Automated Inference on Criminality using Face Images),目前上传在预印本网站arXiv上。他们运用计算机视觉和机器学习技术检测1856张中国成年男子面部照片,其中将近一半是已经定罪的罪犯。实验结果显示,通过机器学习,分类器可以以较高概率区分罪犯与非罪犯这两个群体的照片。特别是在内眼角间距、上唇曲率和鼻唇角角度这三个测度上,罪犯和非罪犯存在较为显著的差距。平均来讲,罪犯的内眼角间距要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。同时,他们发现罪犯间的面部特征差异要比非罪犯大。

从古至今,从西方到东方,我们都能看到类似于“相由心生”的说法。但不论是相士或是从事相应研究的心理学家,都始终摆脱不了“迷信”或“歧视”的帽子。武筱林和张熙出于好奇,试图利用数据分析推翻这门古老的“伪科学”,但研究出来的结果令他们大吃一惊。更令他们始料未及的是,文章一经公开,就招来了漫天争议。

武筱林11月30日告诉澎湃新闻,他收到了很多邮件,虽然绝大部分是国际上的研究者来信索取数据和实验细节,进行学术层面的交流,但也有不少不友好的评论,甚至指责他的研究是对社会“不负责任”。


武筱林

“我们的运气也不好,文章刚出来的时候正好是特朗普当选前后。有来自美国的邮件说,‘美国现在已经一团糟了,你们就别添乱了’。 ”也有人直接建议武筱林撤稿。对于被贴上“歧视”的标签,武筱林有些恼火,他强调,他个人的价值观绝对是反歧视的,而他做这个研究的原本目的是证伪。

此外,他也收到了一些令人哭笑不得的评论,比如有的网友想让他把这个东西交给纪检委使用。

武筱林告诉澎湃新闻,他目前还是打算专心把这个工作进一步做得更严谨、更充分,这项研究的成熟程度离应用还很遥远,他们目前也没有任何走向应用的打算。

“从另一个角度讲,我们的研究也可能为反歧视提供依据”。但他也坦言, 人工智能研究应如何划定价值伦理的禁区,是个很严肃的问题,光凭他个人难以回答。

“现在世界范围里都存在这样的争论,人工智能已经发展到这一步了。”

那么,武筱林和张熙的这项研究,到底是怎么进行的呢?

通过学习,机器辨认出罪犯照片的准确率在86%以上

实验选取了1856张中国18到55岁男性的照片,面部发遮挡、无伤疤或其他标记,并将它们归为罪犯组和非罪犯组。非罪犯组包含1126张用“网页蜘蛛”从互联网上抓取的照片,人群来自社会各行各业:服务员、建筑工人、司机、医生、律师、教授等。罪犯组共730张照片,其中330张来自或省级公安厅的通缉令,400张由一所与实验组达成保密协议的公安局提供。在这730名罪犯中,235名涉及暴力犯罪,包括谋杀、、人身侵犯、绑架和抢劫,其余则犯下了偷窃、欺诈、贪污等非暴力罪行。所有照片都被调整为80cmX80cm大小,并对亮度和灰比都进行了控制,尽量避免对结果造成影响。


研究使用的照片样本。a组为罪犯,b组为非罪犯。

实验用4种分类器(逻辑回归,KNN,SVM,CNN)对样本进行检测,发现它们都能较成功地对罪犯和非罪犯组进行分类,准确率在86%以上。


4种分类器的准确率。

武筱林和张熙进一步发现,罪犯和非罪犯在面部特征方面最显著的差别在内眼角间距、上唇曲率和鼻唇角角度这三个测度上。平均来讲,罪犯的内眼角间距要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。


图b标注了存在差异性的3个特征点。表4为罪犯组和非罪犯组在3个特征点上的平均值和偏离值。

最后,他们发现计算机模拟出来的罪犯和非罪犯的“平均脸”比较相似,但罪犯间的面部特征差异要比非罪犯大。也就是,非罪犯群体间彼此长得更为相似,变化幅度更小。


图c为模拟出来的罪犯“平均脸”。图d为非罪犯“平均脸”。

“颅相学”、“天生犯罪人”:沉睡2个世纪的研究

许多研究者一看到武筱林的研究成果,就立马联想到了西方18、19世纪一度盛行的“颅相学”和“天生犯罪人”理论。

1870年,意大利监狱医生龙勃罗梭打开了意大利著名土匪头子维莱拉尸体的头颅,发现其头颅枕骨部位有一个明显的凹陷处,它的位置如同低等动物一样。这一发现触发了他的灵感,他由此提出“天生犯罪人”理论,认为犯罪人在体格方面异于非犯罪人,并认为犯罪人是一种返祖现象,具有许多低级原始人的特性。同时,他认为犯罪具有遗传性。

龙勃罗梭的理论带有很大的歧视性色彩,一经发表就遭到各方抨击。此外,由于龙勃罗梭的研究缺乏数据支持,也一直被当作伪科学对待。


龙勃罗梭《犯罪人论》。

此后,反歧视的价值伦理在西方社会得到了进一步发展,关于外表和犯罪性的研究也逐渐沉寂。直到2011年,美国康奈尔大学的一个心理学研究团队发现人们仅通过观察一个人的照片判断他是不是罪犯的成功率相当高。

“我也认真读过2011年他们的研究”,武筱林说道,“但他们采取的是传统心理学的试验方法。MIT Technology Review说,我们是在这个研究方向走出了新的一步,用数据说话。”

原本打算证伪,第一反应很吃惊

关于“颅相学”和“天生犯罪人”理论,武筱林坦言,“不管是从主流科学界的观点,还是从我个人的价值观、个人的直觉,我一开始都觉得这是不靠谱的。”而他认为,像康奈尔大学的心理学家们那样采用传统实验方法,以人为试验者,不可避免带有主观偏见,也会出现生理上的疲劳,因此他想到运用计算机进行数据分析,在定量层面上进行证伪。

但出来这样的结果,武筱林感到很吃惊。他们早在一年前就取得了结果,但迟迟不肯发表,而是反复交叉验证,但始终没有推翻原始的结论。

比如,在他们11月21日上传的第二版论文里,他们就作了一些修改。由于有人提出,罪犯的照片是由提供的,而使用的照相机可能在信号上与相机不同,他们故意在照片的光学信号上加了很多噪音,以淹没不同相机信号上的差异。但之前的结论依然成立,分类器仍有75%以上的准确率。此外,他们特地重新核实了犯罪者照片的拍摄情况,证实都是普通证件照片,而非被捕后拍摄的。

“所有算法出来的结果都相当一致,从技术层面来讲可靠性很高。”

“我是来敦促你撤稿的”

外表与犯罪性的关联研究似乎是个潘多拉魔盒,在沉睡了200多年后打开,一样会遭受纷至沓来的批评。

此前,武筱林也曾向媒体展示了几封他收到的措辞强硬的邮件。

一名留学在外的校友写到,“我建议你撤销这篇论文,并且上传一封公告,为不恰当的研究方法致歉。”理由是“这篇论文充满了极度的歧视和强烈的误导。我们人工智能领域的研究者不应当滥用技术,去做一些违反伦理的事情”。

这名来信者还特别强调:“这篇论文给的声誉带来了很糟糕的影响。这对那些申请美国高校的学子来说,将会是一场灾难。”

另一封信则来自美国康奈尔大学的科研同行:“我是来敦促你撤稿的,因为这是一项可耻的工作。我们无法选择自己的唇部弧度、眼间距和所谓的鼻唇角角度。但犯罪者的问题在于行为,而不是长相。”

外网上也有一些不友好的声音。Hacker News的一位用户说道,“我看摘要的时候还以为这是在开玩笑,读下去竟然是篇认真的论文。不过这种研究需要犯罪学、心理学和机器学习方面的专家,而不是随便两个懂Keras的人。”

有些数据隐私方面的专家也指出,“从这么小的数据样本里得到这么普遍性的结论,会给广大无辜群众带来大麻烦的。”

国际隐私保护组织的Richard Tynan博士认为,“作为一个个体,你不可能知道机器是怎么给你下定论的。在小数据集上,算法、人工智能和机器学习可能会建立起专断荒唐的相关性。这不是机器的错,把复杂系统运用在不合适的地方是很危险的。”

“我们的研究也可以是反相貌歧视的依据”

对于被贴上各种不友好的标签,武筱林感到有些恼火。他讲道,“我个人价值观其实是反歧视的。比如有些招工广告公开要求容貌姣好,我是非常反对的。”

同时,他强调在科学上相关和因果是两回事。“罪犯趋向有这些脸部特征,也只能说两者之间有相关性,并没有说明里面存在因果关系。不是说长得一样就是犯罪,不是说天生一张犯罪脸。”

“我们只是发现了统计上容貌和有些社会行为之间存在相关性。我们不关心也不可能去讨论里面的因果逻辑——也许有,也许没有——但我们不是这方面的专家,没有这方面的知识、训练、经验去做这个事情。”

从因果上来讲,也可能有这样一种解释:因为有些人长得异样,可能受到歧视和排挤,更容易走上犯罪道路。“所以我们的研究也可以是反相貌歧视的依据”。

“核物理学家该为造成的伤害负责吗?”

但当澎湃新闻问及该如何看待社会伦理价值和科研之间的关系时,武筱林坦言这个问题很严肃也很复杂,他个人也难以回答。

“为了人类社会更高的利益,是不是科学家要自律一点,而不是说求知求真者无罪,这个争议在世界范围内已经开始了,人工智能已经到这一步了。是不是就会有一些禁区,研究者不能去碰它,坦白讲我不知道。”

“核物理学家该为造成的伤害负责吗?”这是武筱林抛回给澎湃新闻的疑问。

目前,武筱林不想受到一些非理性的讨论的干扰。他还在紧张地完善这个实验,因为批评者主要指出他们的样本量不够。“我们用的是深度学习,深度学习现在也很时髦,比如谷歌(微博)的阿尔法GO,它需要大量的样本数据。由于隐私问题,我们的数据还是不够大,尽管在已经发表的文章里已经算很大了,但对深度学习来讲还是不够的。”

在经过完善后,他们计划将文章投到计算机视觉领域的国际会议上去,并投向《自然》、《科学》这样的学术期刊。但现在武筱林也在担心,公众是否会影响到学术界对他们研究成果的接受程度。

他期待能有更多在学术上理流的声音,哪怕是用数据推翻他们的结论。武筱林透露,这个领域有很大的拓展空间,目前有一些国际上的同行在做类似的题目,这也是他们提前将文章放上arXiv的原因,以保护优先权。

“大众积极的关注对我们的方向是好事,但不能误判误读。我们的研究没有得到任何私人或者门的支持,也没有任何的商业目的。”