美图奇想大模型图像生成能力升级，AI图像赛道“卡位战”升级

砍柴网 • 5月前扫码分享

自生成式AI故事兴起以来,竞争是行业绕不开的话题,目前AI图像领域迎来新一轮全球竞速。10月22日,Stable Diffusion 3.5模型发布,图像生成更真实,性能提升,并专注于多样化输出和易用性。Midjourney 的创始人 David Holz日前宣布,一款全新的图像编辑器将在10月下旬上线。

10月24日,美图公司宣布旗下美图奇想大模型(MiracleVision)图像生成能力再度升级,综合实力得到进一步完善,并上线一站式AI短片创作工具MOKI,后续将逐步覆盖美图旗下产品生态,为用户带来全新的视觉体验。

这是美图奇想大模型一个月来的第二次升级。9月23日,美图奇想大模型率先进行了视频生成能力的升级,单次文生视频时长、单次图生视频时长均达5秒,可支持1分钟,帧率24FPS,分辨率1080P的超长视频生成。

值得一提的是,本次美图奇想大模型的图像生成能力升级,特别提取了中国文化元素进行针对性调优,实现了对东方语义乃至中西融合语义的精准理解与内容表达,并为用户带来极富东方韵味的视觉风格。

美图奇想大模型团队表示,本次图像生成能力的升级,依托美图奇想大模型强大的语义理解与文本扩写能力,实现精准画面表达与兼具故事感的氛围呈现。升级过程深度结合了美图公司在影像、美学、艺术等领域的长期积累,将多元美学理念融入模型训练过程,生成质感更加细腻自然,能呈现从轮廓、光影到构图的全方位电影级画面。

同时,升级后的美图奇想大模型支持超短文本到超长文本的内容输入,能精准理解多元风格与复杂场景,展现想象力爆棚的创意画面。

美图奇想大模型图像生成能力升级，AI图像赛道“卡位战”升级

事实上,2022年至2024年,文生图的技术以肉眼可见的速度迭代进化。Midjourney平均3个月一个版本,一路从V1迭代到了V6。美图奇想大模型也完成了从V1到V5的进化。2024年8月,由Stable Diffusion核心人员打造的开源文生图模型FLUX爆火,以出色的生成质量迅速成为文生图领域的“开源王者”。文生图技术的进化速度,像一把节奏紧凑的小锤,不停提醒所有AI图像工具的公司们,留给他们成长的时间,不多了。

短短两年时间内,文生图模型垂直赛道就已经发生了巨变:2022年8月,Stable Diffusion母公司Stability AI以三个月用户量增长1000万称霸市场;到后来,Midjourney通过产品迭代,在相当长时间内流量高居行业第一。而在国内市场,以字节、美图为代表的互联网科技公司也持续迈出创新的步伐。

大模型行业分析师表示,在非通用的AI细分赛道里,产品的竞争更加激烈并趋于白热化。与通用型AI个人助理不同,从长远看,AI图像工具的用户工具导向更强,更加强调操作简易性和出图质量,而非体验性、趣味性和新鲜感。

人工智能领域研究员表示,以Stability AI、Midjourney、美图为代表的企业在文生图领域产品竞争、迭代的背后,是愈发精细化、差异化的用户需求。从模型生成到成图质量到精细化的定制需求,更加强调性能和使用体验。美图奇想大模型全新升级的图像生成能力,支持超短文本到超长文本的提示遵循,能够精准理解多元风格与复杂场景,体现了2024年AI赛道更加细分、从模型建设涌入C端应用开发的总体趋势。同时,从用户角度不断优化性能打造精细化、差异化的产品体验才是AI公司最后的护城河。