首届中国人工智能峰会开幕 宣亚数字技术团队荣获A级证书
2019年8月9日,由中央网信办、工信部、公安部联合指导、厦门市政府主办的首届中国人工智能峰会开幕,全国362支队伍近千个项目角逐数月的人工智能大赛同时揭晓。在中国人工智能峰会暨多 媒体 信息识别技术竞赛成果发布会上,来自北京宣亚国际数字技术有限公司(以下简称宣亚数字)的刘洋团队接连斩获了两个奖项,“特定物体识别”的最高级别的A级证书和“印刷文本OCR”的B级证书。
宣亚数字由上市公司宣亚国际 营销 科技 (北京)股份有限公司(300612.SZ)控股,在视觉技术和分析上面具有丰富的积淀,旨在依托深度学习与计算机视觉技术,深度理解 互联网 海量内容,构建视频、图像、文本的结构化数据分析平台,为内容创造更高的价值。
此次获奖显示了宣亚数字团队在技术方面的优势。在获得A级证书的特定物体识别项目中,宣亚数字团队结合自身在视频图像舆情监测、鉴黄、暴恐识别、违禁物识别等业务经验和优势,在数据标注和算法架构搭建上取得了重要突破。
据宣亚数字的技术人员介绍,在数据方面,团队将部分特定物体进行了细化和拆解,使训练样本更加丰富且具有多样性,从而使训练得到的算法模型对复杂情况的测试样本具有更强的鲁棒性。
同时,在算法架构方面,团队采用了目标检测网络+精细分类网络的多级级联架构,目标检测网络负责检测图像中的特定物体并进行粗分类,主要负责保证高召回率。精细分类网络对目标检测网络给出的检测框进行进一步的精细分类,保证高准确率,从而最终得到高准召的识别结果。该方案可以将图像中小尺寸的物体(如安全帽)检测出来,提高识别的召回率从而提升整体效果。
据了解,该技术是一项基础的人工智能技术,宣亚数字团队在实际的业务情景打磨下,对需求理解、数据标注、算法选型和架构设计等方面,都具备很强能力,而且积累了丰富的算法经验,所以才能在本次竞赛中取得好成绩。通过特定物体识别技术,可以完成对含有特定物体,如特定服饰的人物、违禁物品图像的监测,该技术可被广泛应用于图像黄色识别、暴恐识别、垃圾图片过滤等领域。
获得B级证书的印刷文本OCR项目里,宣亚数字团队结合自身在视频图像舆情监测的业务经验和优势,重点针对训练数据准备和算法架构搭建进行优化。
据介绍,针对OCR的应用场景,团队针对性地收集了包含类似文字风格的图像,首先在海量开源数据集上训练初版模型,然后在收集的针对性数据集上对模型进行微调训练,取得了较好效果。算法架构方面,团队同样采用了多级级联结构,通过检测网络实现文字行高召回,然后通过二分类网络将非文字行滤除,提高文字行检测的准确率。最后将文字行送入文本识别网络进行文字识别。
文本OCR的应用场景十分广泛,它能够识别文稿、视频等画面当中的文本字符,从而识别图像当中的文本,完成文字的监测分析。该技术已被广泛应用于视频图像的监测、敏感识别等领域。光学字符识别是理解图像中文本信息的第一步处理过程,结合团队对文本舆情理解和分类的业务积累,可以实现从视频图像到文本理解的多模态舆情识别,从而大幅度扩大监测范围。
本次中国人工智能峰会暨多媒体信息识别技术竞赛成果发布会,旨在为人工智能前沿技术与传统行业、社会管理的融合发展、资本对接、人才交流搭建“连接”桥梁,为人工智能的创新发展和跨界应用注入新动能。
大赛主任委员、中国工程院院士、中国计算机学会终身成就奖获得者倪光南在竞赛点评上称,本次大赛囊括了互联网的技术难点和前沿方向,兼具科学研究和技术应用,超过了国际同类比赛的规模。
大赛吸引了包括北京大学、清华大学、复旦大学、中国科学院大学、香港中文大学、北京航天航空大学、中国 传媒 大学、厦门大学、中科院信工所、中科院自动化所等科研院所等学术机构,以及阿里、百度、奇虎360、科大讯飞、浪潮、网易、美图、京东、上海依图、爱奇艺、中国电信、移动、联通等知名企业参加。宣亚数字团队能够从诸多优秀项目中脱颖而出,显示了团队强大的技术理解沉淀和开发应用能力。
在AI“理解”内容领域,宣亚数字是行业内的佼佼者。通过运用大数据、人工智能等技术提升网络内容监测、分析和预警水平,宣亚数字在保障网络内容安全、助推网络行业健康发展的业务上有着突出贡献。