产学研用一体化发展,值得买科技与人大高瓴AIGC联合研究成果亮相ACM MM 2024

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

10月28日至11月1日,2024国际多 媒体 会议(ACM International Conference on Multimedia 2024,简称ACM MM 2024)在澳大利亚墨尔本举行。中国人民大学高瓴人工智能学院宋睿华团队代表王希华受邀进行口头报告,分享了和值得买 科技 联合开展的多模态领域研究成果《TiVA:时序同步的视频到音频生成》(TiVA:Time-aligned Video-to-Audio Generation),详细阐释了TiVA研究过程、框架及实现路径,并指出该项研究为当下多模态领域视频到音频同步生成的技术难题提供了一套高效解决方案,提升了AIGC内容生成方面的速度、质量和智能化水平。

产学研用一体化发展,值得买科技与人大高瓴AIGC联合研究成果亮相ACM MM 2024

ACM MM大会由国际计算机协会(ACM)发起,是国际多媒体处理、分析与计算领域最具影响力的国际顶级会议,也是中国计算机学会(CCF)推荐的多媒体领域唯一的A类国际学术会议,涵盖了多媒体研究的所有领域,包括各种媒体模式、解决技术和实际挑战。

值得买科技与人大高瓴人工智能学院联合开展的AIGC研究自2023年6月发起,结合值得买科技的集群算力、历史数据和应用场景能力,以及人大高瓴的科研和人才能力,在AI内容创作、多模态生成等方面共同开展AI前沿研究,加速技术探索和应用。此次在ACM MM大会上进行报告的TiVA研究成果已经获得国家发明专利授权,专利权为值得买科技和中国人民大学共同拥有。

在ACM MM2024大会的报告中,王希华介绍,TiVA框架为AIGC内容生成带来了新工具,不仅能实现从视频到音频的高质量生成,速度还加快了约40%,“而且在语义匹配和时间同步的精度上,TiVA还击败了当前最先进的技术。”其核心在于音频布局的创新使用,通过低分辨率的Mel频谱图来提供粗略的音频结构布局,帮助模型更好地理解和预测声音的起始和结束时间,从而实现更精确的时间对齐。

在具体实现路径方面,通过新的音频信息表征形式Audio Layout,即极低分辨率的梅尔谱,来表示音频的粗粒度语义和时间信息。在一个无声视频中,先对其视觉语义进行编码并预测Audio Layout,然后利用语义编码和预测的Audio Layout作为条件信息,学习一个扩散模型生成音频。

除TiVA外,值得买科技与人大高瓴人工智能学院合作的另外两项研究成果也已面世,分别是面向电商领域的共享基座检索增强架构(BSharedRAG:Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain)、多模态知识增强的视觉信息查询架构(MuKA:Multimodal Knowledge Augmented Visual Information-Seeking)。其中,《BSharedRAG:面向电商领域的共享基座检索增强架构》在今年9月已被国际学术会议EMNLP2024录用,该大会是自然语言处理和人工智能领域顶级国际会议之一。

值得买科技CTO王云峰介绍,与人大高瓴的联合研究主要聚焦在多模态内容与电商搜索增强两大领域,正是与值得买科技的业务方向直接相关。“前者能助力探索优质消费内容的更多可能性,而后者能推动整个电商的进一步提效。”

具体而言,在检索增强生成RAG(Retrieval Augmented Generation)方面,电商领域存在大量长尾的用户查询信息且更新频繁,因此检索增强生成系统在用户意图识别、问答效率提升上的作用极为重要。而当前大多数系统采用检索和生成的独立模块,检索任务和生成任务无法相互受益和提升性能。针对此问题,值得买科技与人大高瓴联合研究团队提出了一种新的共享基座参数的RAG框架,即BSharedRAG架构。在此架构中,检索器和生成器共享一个领域特定的共享基座模型,以确保两个组件能够有效地协同工作。

产学研用一体化发展,值得买科技与人大高瓴AIGC联合研究成果亮相ACM MM 2024

▲BSharedRAG架构的训练和推理概述

通过这种设计,BSharedRAG框架能够实现检索和生成任务之间有效的知识转移,从而提高在特定领域的性能,尤其是在需要大量领域特定知识和频繁更新信息的场景中;同时,检索器能够提供对生成器有用的信息,而生成器的输出又能够反馈给检索器,以此形成正向反馈,对未来的检索效果进行优化。

在具体训练过程中,研究人员首先使用领域特定的语料库对基础模型进行持续预训练,作为领域特定的基座模型;然后基于共享的基座模型训练两个即插即用的低秩适应(LoRA)模块,分别最小化检索和生成的损失。实验结果表明,BSharedRAG在两个数据集的检索评估中相较基线模型分别提升了5%和13%的Hit@3(检索内容前三位的推荐有效率)表现,并在电商问答领域对比基线模型提升了23%的文本生成质量等。

王云峰表示,BSharedRAG框架已经在什么值得买APP中进行了应用,尤其是在自研AI购物助手“小值”中,不仅提高了商品内容检索的准确性,还能根据用户提出的历史问题进行更精准的意图识别,从而提供更贴合需求的商品推荐,“可以说在信息丰富、检索效率、个性化推荐和自然交互方面都起到了提效提质的作用,让用户的消费决策效率更高、体验更便捷、推荐更个性化。”

值得一提的是,在发布BSharedRAG架构时,双方联合研究团队还开源了一个电商领域的评测集,帮助研究者在统一基准下进行不同研究工作的效果对比,且该评测集将持续更新。将自身的科技成果和脱敏消费数据对外开源,这也与值得买科技AI战略中开放、连接、共享的精神相契合。

王云峰表示,“我们认为AI是一件值得且需要长期投入的事情,它不仅为企业构建技术壁垒、竞争优势,更能带动整个行业的繁荣与升级。因此,值得买科技不仅注重提升自身的AI能力,还与更广泛的合作伙伴共建高质量AI生态,持续推动行业的共建共赢。”

未来,值得买科技将推动全面AI战略稳步落地,实现对业务的提质增效和创新增长,同时还将携手更广泛的合作伙伴,在产学研用一体中持续推进AI技术的研究与落地,为创造消费信息自由流动的美好世界做出贡献。

随意打赏

提交建议
微信扫一扫,分享给好友吧。