联汇科技赵天成:解读兴智杯多模态预训练大模型平台的技术内核
作为2022年首届“兴智杯”全国人工智能创新应用大赛创新专题赛的技术支持方,联汇 科技 的自研多模态预训练大模型平台 OmVision Studio 与中科院紫东太初、百度文心成为本次大赛三大技术平台。
针对 OmVision Studio 平台核心技术和场景化使用,联汇科技首席科学家赵天成博士在兴智杯活动周首日应邀进行主题分享。重点解读 OmModel 视觉语言大模型之于加速普及人工智能应用的推动作用,详细介绍了联汇自研视觉语言大模型 OmModel 和本次大赛平台 OmVision Studio 的架构和使用,并为参赛选手提供了技术方向指导。
Q:如何满足80%碎片化的场景需求?
随着 互联网 技术和视频技术的飞速发展,大视频时代到来,视频数据成为各个行业沉淀最多的数据类型之一。数亿的摄像头、工业和 商业 环境下的智能机器人、超高清视频和短视频平台等不同渠道中沉淀了海量视频数据,但其中真正能够被企业、行业所挖掘和使用的数据占比只有10%-20%。
AI技术在视觉融合分析领域的利用率、普及率不高的重要原因之一是因为传统AI算法依赖于大量样本和人工标注,算法训练成本高、周期长、需求响应效率低,无法满足在市场容量超80%的碎片化、个性化长尾场景需求,对于企业而言,存在成本高、周期长、效率低等问题,很难满足实际的使用需求,技术难以为产业智能化升级服务。
在面对各行各业数字化改革、智能化建设浪潮,如何让人工智能成为企业的“通用能力”?真正帮助企业技术应用难题,视觉语言预训练大模型为企业提供了高效的技术路径。
Q:什么是“视觉语言预训练大模型”?
算法和算力的协同应用是人工智能更好发挥认知、理解能力的重要前提,而大模型则是算法、算力达到了一定高度后的“新物种”。
其中, “视觉语言预训练大模型”是将视觉模态和文本模态进行深度对齐及转换,计算机可以了解两种模态下的信息关联,使图片信息和文本信息实现双向转化,这是视觉语言大模型解决的核心问题。
联汇科技自研视觉语言大模型 OmModel ,将自然语言作为人类知识载体,将自然语言和视觉打通,基于大规模的自监督学习,产生全新的视觉识别、认知能力,实现语言模态和视觉模态之间的跨模态融合理解。
OmModel 拥有零样本识别、小样本调优、长尾识别、通用精准四大核心优势。基于大规模自监督学习技术,OmModel 已经具有强大的认知理解能力,能够实现通用场景下的精准识别,而对于企业大量的长尾识别任务,仅需要通过小样本的标注、学习,就可以满足大量碎片化的识别需求。
OmModel 还支持包括视觉问答(VQA)、人物行为检测(HOI)、语义指代(Grounding)、跨模态检索(IR)、属性识别(Attr)、开放词表目录检索(OVOD)等不同的响应任务,可以通过同一套网络结构、微调方式以及预训练参数完成视觉任务识别。
与同期大模型相比,OmModel 的优势非常显著。
在具体应用中,OmModel 可以完成各种视觉任务的视觉,包括属性、状态、动作等的识别,打破传统标注方式,可以通过自然语言定义任务,实现按需识别。
Q:OmVision Studio:OmModel的能力外延
OmVision 提供零代码的AI训练平台服务、泛场景的算法资源服务以及低要求的AI技能培训服务,企业可以通过很方便的方式获得人工智能能力。
OmVision 由 OmVision Studio 算法模型工厂和 OmVision OS 视觉操作系统两大支撑体系构成。 OmVision Studio算法模型工厂是业界首个视觉2.0开放SaaS平台。 提供预训练大模型的算法训练,让普通工程师可以实现免代码训练复杂算法,将算法训练门槛降到“0”,为企业客户提供行业化、场景化的视觉识别技术能力。 OmVision OS 视觉认知操作系统实现多场景视觉算法协同识别。 支持高并发视频处理、自动优化协同算法、算法冷启动定义等个性化需求,让每个摄像头拥有聪慧的“大脑”,让摄像头根据场景进行个性化协同预测。通过 OmVision 用户和企业可以通过可视化、低样本的方式快速搭建,使大模型能力得到充分的发挥和应用。
OmVision 平台开创了全新算法训练模式,利用预训练大模型强大的通识能力,提出算法声场“三部曲”:“0样本冷启动+小样本训练+算法在线调优迭代”的方式可用算法的应用交付,重塑视觉算法的生产流程,更好地保证了每个算法在实际环境中的识别精准度,产生真正可应用、可交付的算法,实现技术在各行业的场景落地。
平台打破传统算法仓的局限,实现基于预训练大模型的按需组装的零件搭建模式,在底层由各类应用零件组成,在上层可以根据各种语义定义的方式,实现零样本的数据启动和小样本加强,以快速生产算法应用,解决响应速度和使用成本的问题。同时,还可以实现多目标及复杂行为的识别。
Q:如何使用OmVision Studio?
如何使用 OmVision Studio 平台?
使用开发流程主要包含“创建应用”“应用评估”“小样本训练”“应用部署”四大步骤。
●创建应用
通过可视化应用创建器,多模型的排列组合,构建满足多场景、碎片化场景的算法应用;
●应用评估
选择要评估的应用和测试数据集,评估任务基本信息、各标签指标分数、评估速度、样本告警效果,生成评估报告;
●小样本训练
当缺乏应用构建“零件”或者交付上线效果和实验室差距较大时,需要通过小样本的标准训练增强识别精度;
●应用部署
最终API等方式进行调用、部署的方式,让更多的下游应用获得完整的闭环系统。
OmVision真正实现机器视觉2.0的技术优越性,包括响应速度、识别精度的提升,以及使用成本的降低。
作为通用技术,预训练大模型OmModel拥有的四大核心,即能力语义目标识别、复杂行为识别、环境状态识别以及内容协同预测,正在持续赋能千行百业场景落地,从城市安防到智慧校园、智慧工地、智慧社区等场景中具备了充分的技术应用基础。