奇客 MIT 新计算机视觉算法以像素为单位识别图像

奇客资讯 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

对人类来说，识别场景中的物品就像看它们这么简单。但对于人工智能和计算机视觉系统来说，开发出对周围环境的高保真理解需要更多的努力。如果我们具体一点的话，需要大约 800 小时的手动标记训练图片工作。为了帮助机器更好地了解人们的做法，MIT CSAIL 的一组研究人员与康奈尔大学和微软合作开发了STEGO，一种以像素为单位识别图像的算法。通常创建计算机视觉（CV）训练数据需要人在图像中的特定对象周围画框——如给坐在草地上的狗画上的框——标记框内有什么东西（“狗”），以便用这些数据训练的 AI 可在草丛中分辨出狗。相反 STEGO（具有基于能量的图片优化的自我监督转换器）使用了名为“语义分割”的技术，该技术将类标签应用于图像中的每个像素，以便 AI 更准确地了解周围的世界。带标签的框中包含对象，也会包含边界内对象周围像素中的其他物体，而语义分割则标记对象的每个像素，但是只标记构成对象的像素——你只得到狗的像素，而不是狗的像素再加上一些草。这相当于机器学习使用 Photoshop 的智能套索和矩形框选工具的差别。这种技术的问题之一是范围。传统的多镜头监督系统通常需要数千张（如果不是数十万张）标记图像训练算法。将这个数字乘以即使构成单张 256x256 图像所需的 65,536 个单独的像素，现在所有这些像素都需要单独标记，所需的工作量很快就会大到不可能。CSAIL团队在新闻稿中写道，“STEGO 会寻找出现在整个数据集中的类似对象。”“然后它会将这些相似的对象联系在一起，在它学习的所有图像中构建一个统一的世界观。”