谷歌研究院发布NIMA:能评价图像有多美,还能让图像变得更美
雷锋网 AI 科技评论按:本文发布于 Google Research Blog,作者为 Hossein Talebi, 机器感知领域软件工程师兼 Peyman Milanfar 研究科学家。雷锋网 AI 科技评论做了不改动原意的编辑和修改。
美是否存在标准?在图像处理与计算机视觉领域,图像质量与美学的量化问题一直困扰着研究者们。从技术的角度来说,图片质量的评估主要与像素降级相关,比如噪声、模糊、压缩等等。而图像在美学层面的评估,则需要根据图片所传达的情感或美感所连接的语义级特征来评判。
近年来,在人类标记数据的训练下,CNN 能解决图像质量评估的部分问题,不过只限于特定种类的图片(如风景照)。但这类方法通常会把图片分为两类:质量好和逊色的,这也使得它所应用的领域非常局限。谷歌采用的方法能够预测评级的分布,提供更好的质量预测,与实际评分有着更高的相关性,并能够应用于一般图像。
在 NIMA: Neural Image Assessment 这篇论文中,谷歌研究团队提出了一种深度 CNN,能够从直接观感(技术角度)与吸引程度(美学角度)预测人类对图像评估意见的分布。
虽然图像万千各异,但这一神经网络不仅能对图像进行与人类审美相符的评分,而且能帮助以智能照片编辑、优化视觉质量等需要大量人力与主观任务的处理,并尽可能减少在图像可能引致的视觉错误。
论文地址: https://arxiv.org/abs/1709.05424
背景
一般来说,图像质量评估可以分为全参考(full-reference)和无参考(no-reference 或 Blind, BIQA)的方法。(AI 科技评论注:客观质量评价方法还有一种,名为半参考方法,Reduced-Reference, RR,在这不作讨论)如果可采用全参考方法,则有诸如 PSNR,SSIM 等的图像质量度量。如果要采用无参考方法,需要依赖统计模型来预测图像质量。
这两类方法主要是预测一个符合人类感知的质量分数。在利用 CNN 做图像质量评估时,通过相关数据集(ImageNet)进行训练以实现初始化权重,并针对感知质量评估任务对注释的数据进行微调。
NIMA
虽然在训练数据集中,每张图像都会与人类评分的直方图相连接(而非单个二进制分数)。但典型的美学预测方法依然会根据质量好坏将图像分为两类。通过直方图的评分,我们拥有了一个评价图像质量的指标,这也同样是评价者共同达成的协议。在谷歌所采用的方法中,NIMA 模型并不是简单地将图像划出高分或低分,也不是针对平均分做回归,而是对任意图像都做一个评分分布——在 1 到 10 的范围内,NIMA 会将这张图的得分可能性分配给这 10 个分数。这这方法更直接地揭示了训练数据是如何被捕获的,此外,当与其它方法进行对比时,它能呈现对于人类偏好的更好预测。
NIMA 的向量得分(如平均值)采用不同的函数将图像用美学的标准进行排序。一些在 AVA 数据集中的大范围数据库测试图经 NIMA 进行评估后,按得分高低排序的结果如下图所示(括号内的数字为实际得分)。每张 AVA 图片通过 DPChallenge(一个摄影师社区)的 200 名评分员进行打分,所得到的平均分即为这张图片的实际得分。经过训练的 NIMA,对这些给定图片的打分与人类所给定的分数非常相近,这也意味着相近的审美排序。谷歌研究者也发现,同样地,NIMA 在其它数据集上的表现也非常优异。
NIMA 将这些来自 AVA 数据集,且标有「风景」标签的图像进行打分并排序,预测的 NIMA 得分(括号内为实际得分)如图所示。
此外,NIMA 的得分也可以用于比较图像的失真程度。下图所展示的 TID 2013 数据集的例子呈现了,在不同程度的失真情况下,图片的得分反映了图片质量。
来自 TID 2013 数据集的样例。NIMA 所计算的分数如图所示。
在感知层面增强图像
在本月月初的一篇论文 《Learned Perceptual Image Enhancement》 中,谷歌研究者们了解到,质量与美感分数同样也能被用于辅助图像增强的操作中。也就是说,如果将 NIMA 得分最大化作为损失函数的一部分,能够提升图像增强的感知质量。下面的例子表明,NIMA 可以作为一种训练损失,对色调增强算法进行调节。研究者发现,图像增强前后的得分发生了提升。因此,模型能够作为 CNN 的过滤器更好地调整图像的最佳观感,如亮度、高光与阴影等。
NIMA 能够当作训练损失函数的一部分以增强图像。以 MIT-Adobe FiveK 数据集的图片为例,经过带有 NIMA 的 CNN 训练后,图片原本的色调与对比度都有了更好的效果提升。
未来
这份工作揭示了,基于机器学习的质量评估模型有着广泛的应用前景。比如,谷歌研究员们能够让用户们轻松地在一大堆照片里进行精选最佳照片;或是为用户提供实时反馈,提升拍照质量。这些模型能够引导图像增强操作器,以产生观感更佳的图像处理结果。而从更直接地说,NIMA 的网络(或其它同类型网络)能够提供(虽然)不够完美的,但至少合理且符合人类审美的照片甚至是视频。谷歌研究团队很乐于分享这些研究结果,虽然他们也深知,在照片质量与美感的可解释性、可理解性上,仍然任重道远。
论文地址: https://arxiv.org/abs/1709.05424 ,雷锋网 AI 科技评论编译
雷锋网版权文章,未经授权禁止转载。详情见。