携程李翔:深度学习在酒店图像智能化上的一系列应用
雷锋网 AI 研习社按,旅行或出差,订酒店是必要步骤,随着线上预订越来越普及,对 OTA(Online Travel Agent)行业提出不少挑战。作为我国 OTA 领军企业,携程拥有全球百万家酒店数以亿计的图像,面对海量图像,如何挖掘出图像信息,节省成本,为用户和酒店创造价值,这些都是亟待解决的问题。
携程酒店研发部图像技术负责人李翔对雷锋网 AI 研习社表示,目前携程大部分的酒店图像处理工作都是计算机在做,需要人工完成的图像处理任务主要集中在部分用户上传图像的内容审核环节,因为用户上传的图像内容很不可控,同时又非常多元化。
李翔介绍道,携程每天需处理的图像达到数十万张,主要有如下四个来源:1)携程酒店商家拍摄;2)携程业务工作人员采集;3)携程的合作方提供;4)用户上传图像。而在海量图像处理过程中,酒店图像智能化起到关键作用。
酒店图像智能化主要包括两方面内容:
一是图像的智能处理与挖掘——在图像进入携程的过程中,对图像进行审核、质量提升和信息挖掘,目的是大幅减少图像的人工干预。
二是图像智能应用——在图像对外公开的过程中,对图像进行智能展示,目的是改善用户获取酒店信息的速度、准确性和完整性,提高用户的满意度。
如上所述,酒店图像智能化主要围绕图像的智能处理与挖掘和图像智能应用两方面展开。图像智能处理与挖掘包括图像预审核、图像质量提升和图像信息挖掘三个环节。图像智能应用包括图像智能展示、图文智能结合和酒店视频等应用场景。围绕图像的智能处理与挖掘,雷锋网 AI 研习社与李翔展开一系列讨论。
图像的智能处理与挖掘
-
图像预审核
图像预审核包括相似图像去重和水印检测等步骤。这里重点讨论水印检测。
李翔表示,水印自动检测在保护版权上非常重要,但是当前缺乏大规模的水印目标检测数据集用于深度学习网络的训练。为了能够更好地解决水印检测任务,他们构建了第一个大规模的水印图像数据集。
在制作水印图像数据集的过程中,他们收集了近百种常见的水印图案和十余万张无水印的图像,对于每种水印,他们以不同的尺寸、透明度、旋转角度和位置添加到图像中,并在制作过程中自动记录水印的信息。通过上述方式,他们以较小的人力投入建立了一个多元化的大规模水印目标检测数据集,为训练鲁棒的水印检测网络提供了基础。
他也向雷锋网 AI 研习社透露,近期将提供可以公开的版本供大家下载。
基于该水印检测数据集,他们进一步对比了 FasterR-CNN、SSD 和 YOLOv2 三种主流的目标检测方法,在对性能和效果进行综合评估之后,他们最终选择在 YOLOv2 的基础上进行改进,实现最终的水印图像检测器。
YOLOv3 于今年 4 月份公开,在公开后,他们也第一时间将其应用到水印检测任务中,测试结果表示 YOLOv3 的效果在 IoU0.5 的时候和 YOLOv2 一样,Map 都接近 100%。除了 YOLOv3,他们也实践了 Retina Net 等当前最新的检测网络。他表示,近期他们会将包括水印检测在内和水印相关的一系列探索和研究结果在 arXiv 上公开,希望能够对互联网图像提供方避免滥用有版权图像方面有所帮助。
-
图像质量提升
为了让用户能够看到更真实清晰的酒店图像,需要进行图像去模糊、小图放大和图像美化处理,这样能获取最有用的酒店信息。
由于将小图放大的超分辨率网络使用的损失函数一般是最小均方误差(MSE),该函数使重建结果有较高的信噪比,但是缺少高频信息,会使图像出现过度平滑的纹理。为此,他们采用 VGGNet 计算网络的感知损失(Perceptual Loss),使网络输出的图像更加自然。
此外,真实的低分辨率酒店图像往往存在有损压缩,图像本身具有块效应,直接使用超分辨率网络恢复细节,会使图像的块效应更加严重。为此,他们利用深度残差全卷积网络建立一个图像去块效应模型进行图像的预处理。
他们还构建了针对酒店图像超分辨率和去块效应的数据集。李翔表示,通过将高质量酒店图像进行质量压缩和降采样,可以快速得到大量的训练图像对,这比水印检测数据集的构建要便捷。
针对图像美化,李翔对雷锋网 AI 科技评论说道,「更确切地说,图像美化指的是图像视觉上的改善,主要是对部分拍摄不理想的图像进行自动优化,并不涉及对图像的真实内容的改变。」他们希望能够通过美化来降低在图像拍摄中由于设备不佳、操作不当和环境变化等因素对酒店图像蕴含的真实信息的影响。李翔表示,这一问题可以看作是一个图像到图像的转换问题,通过基于深层卷积网络的编解码器进行建模,并进一步在输入和输出之间加入跳跃连接,确保美化后的图像的真实性。
携程现在已经实现了图像亮度、对比度和色彩等的自适应改善和曝光区域的自动恢复,力求让用户获取更客观的酒店信息。
-
图像信息挖掘
图像信息挖掘包括图像内容分类、图像多目标检测和图像质量评价等等。雷锋网 (公众号:雷锋网) AI 研习社与李翔重点讨论了图像内容分类环节。
酒店图像是对酒店各方面信息的直观展示,为了帮助用户方便快捷地发现他们想要浏览的图像内容,携程将酒店图像分为了外观、大堂、餐厅、会议室、室内/室外泳池、健身房、公共区域、房间、卫生间和其他等类别,分类准确率已经达到 99% 以上。
为了能够实现在标注少量酒店图像的情况下达到良好的分类效果,他们利用深度网络有效的迁移学习能力,对在大规模数据集上已经预训练的网络权重进行微调。
在实际应用中,由于 ImageNet 数据集图像的内容和酒店图像差异过大,影响了网络迁移学习的效果,为了尽可能提升网络的迁移学习能力,他们借助与酒店图像内容最为接近的自然场景图像数据集上预训练的 VGGNet 作为初始设置,结果表明分类效果得到了较大提升。
在选择的过程中,他们也测试了 ResNet 和 Inception 等一系列网络,最终,综合复杂度和准确率等多方面考虑选择 VGGNet。
在训练过程中,训练数据集主要是依靠携程内部人员对真实酒店图像进行分类标注获得,每个类别他们标注了 1k 张酒店图像,酒店涉及高星/低星、民宿/品牌等不同类型。同时,他们在训练过程中进一步利用水平翻转、随机裁剪和色彩抖动等方式对自己标注的小规模酒店图像数据集进行数据增强。
接下来,他们会对图像内容做进一步的精细化分类,让酒店图像的类别更加的丰富,用户获取酒店信息更加快速。
-
模型评估与优化
在图像智能化的过程中,涉及到分类、检测、质量评价和超分辨率等多个模型,面对如此多样化的模型,他们对模型的评估分为客观和主观两种情况:对于分类和检测这些客观的图像任务,根据携程所建立数据集中的测试集进行模型的直接评估。对于质量评价和超分辨率这些主观的图像任务,除了利用测试集进行评估,还需要进一步借助人工来进行主观评估。
对模型的优化分为如下三个方面:
1)数据集的不断完善。李翔表示,数据是基础,建立一个适合自己特定图像任务的数据集至关重要。但是数据集的构建很多时候并不能一蹴而就,需要充分理解数据,以水印检测为例,他们在水印种类、透明度、尺寸和角度等多个方面进行了多次优化,水印检测的效果也随着数据集的不断完善而持续提升。
2)针对自身任务的模型调优。当前学术界流行的技术更多是面向常规的图像问题,然而在实际应用中要解决的图像任务各式各样,都有自身的特点。将这些技术直接应用过来,效果不一定尽如人意,往往需要针对不同任务的特性进行改进,包括网络结构、损失函数以及一系列训练的技巧等等,根据实验结果和 bad case 不断调整,使其更加贴合自身的任务。
3)不同模型的对比分析和迭代。当前深度学习发展非常快,各种网络层出不穷,需要不断学习新技术,对比实践不同的方法,从中选取更适合自身任务的方法。
与学界最大的不同在于数据
对于与学术界研究的不同,李翔如是说道,
「从自身经历来看,我觉得不同点首先在于数据。感谢一大批优秀的数据集如 ImageNet、COCO、VOC 和 Places 等,使得大部分人的学术研究可以专注于模型的创新。然而在实际中遇到的图像问题往往都没有现成的数据集可用,需要在充分理解图像数据的基础上,根据问题自身的特性来收集、清洗和标注图像数据。
为此在酒店图像智能化过程中,我们尝试了多种方式来提升不同任务的数据集的构建效率和质量。在数据集准备好之后,大部分学术研究更重视解决问题的角度和思路,让自己的研究更加有意义和新颖。但我们更加关心的是模型的精度、速度以及上线部署的难度,力求以简单而有效的方法来解决实际业务问题。」
他进一步表示,对于精度和速度之间的权衡,需要根据具体的图像任务来定。对于面向用户和商户的图像任务,速度更加重要,在损失可接受精度的范围内,满足实时性需求,提升用户体验。对于面向自身的图像任务,由于实时性需求不迫切,在速度可接受范围内,他们会优先考虑精度,保证图像处理的质量,图像信息挖掘的完整性和准确性。
从 0 到 1 的智能化建设之路
在采访的最后,李翔谈到携程图像智能化系统的建设之路,他表示,携程酒店图像智能化系统经历的迭代和改进其实是一条从 0 到 1 的建设之路。
最初他们的重心围绕如何减少酒店图像的人力成本投入。从第一个酒店图像去重模块开始,他们相继上线了酒店图像分类、水印检测和小图放大等等一系列模块。在大幅降低了人工对酒店图像的干预后,他们的重心逐渐向如何为用户和商户创造价值上转移,以丰富的酒店图像信息挖掘模块为基础,他们相继上线包括首图优选、图文结合和酒店视频在内的一系列图像智能化应用。他对雷锋网说道,在这一系列功能上线之后,用户预订订单转化率和间夜量得到了多次显著上升,用户浏览费力度也得到显著下降,实现了用户和商户的双赢,取得了很好的反响。
李翔表示,下一步,他们会继续坚持以用户为中心,将更多的优秀 AI 技术真正落地,从 1 到 N 为用户展现更多更好的图像应用,让酒店图像创造出更大的价值。
。