美图公司吴欣鸿：视觉大模型应用普及将经历三个阶段

砍柴网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

“三个月前,MiracleVision绘画水平还停留在初级阶段。如今,3.0版本已经能描绘出真实细腻的画面细节。”

继今年6月19日正式推出视觉大模型MiracleVision后,10月9日,美图公司创始人、董事长兼首席执行官吴欣鸿在美图15周年生日会宣布,升级后的自研AI视觉大模型MiracleVision(奇想智能)3.0版本将正式投入应用。

现场,吴欣鸿将自己15岁的绘画作品与面世100天的美图视觉大模型生成作品进行了对比,他认为训练AI与人类学画有很多共通之处,通过充分学习不同的绘画风格和技巧,AI将能创作出具有独特性的原创作品。

在吴欣鸿看来, 视觉大模型应用普及将经历三个阶段:2024年之前为探索期,2024-2025年为高速发展期,2026-2030年为成熟期 ,随着视觉大模型在生产端的应用走向成熟,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

“垂直领域的极致效果、工作流整合、变现能力是目前AI视觉大模型在生产端的三个待解决的问题。但随着AI视觉大模型和生产端的磨合,这三个问题会被逐步解决。”

他认为,AI视觉大模型的本质,是无穷无尽的视觉创意库。“应用层相当于内容提取器,根据用户的需求,从这个巨大的创意库中提取所需要的内容,让用户在特定场景中使用。AI视觉大模型和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。”

美图公司吴欣鸿：视觉大模型应用普及将经历三个阶段

拆解大模型核心能力

据悉,通过加入“提示词智能联想”等新功能,MiracleVision3.0版本可降低大众的使用门槛,并通过“提示词精准控制”等功能来满足更加专业的设计要求。并具备“深化创作”“AI画面扩展”“局部修改”“分辨率提升”等专业功能。

具体来看,美图将自研AI视觉大模型MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

在“奇思妙想”层面,MiracleVision通过“提示词智能联想”功能降低大众的使用门槛,当用户输入关键词,MiracleVision可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,MiracleVision通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

在“智能创作”层面,MiracleVision通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

商用加速:五大行业将获提效

据悉,此次公布的 MiracleVision3.0将全面应用于美图旗下影像与设计产品。

与此同时,“MiracleVision将落地电商、广告、游戏、动漫、影视五大行业,希望能帮助五大行业工作流提效。”吴欣鸿进一步介绍道,AI视觉大模型带来的不仅仅是更好的视觉呈现,还有对工作流的效率提升,但目前大模型与工作流的结合仍在探索阶段,抓住应用场景的核心需求更为重要。

在电商行业,从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过MiracleVision实现;在广告行业,MiracleVision覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。

在游戏行业,MiracleVision可以包揽场景设计、角色设计、道具设计、UI图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本;在动漫行业,MiracleVision打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。

而在影视行业,MiracleVision的高可控性可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。