AI短剧公司获百度投资；苹果AI将登VisionPro，今秋或将接入谷歌Gemini；上海医院用AI自动生成病历丨AI情报局

雷锋网 • 9月前扫码分享

融资快报

CreativeFitting获百度PreA+轮融资： CreativeFitting（井英科技）推出全球首款AI短剧APP，Reel.AI在海外市场正式发布，并迅速登上娱乐应用畅销榜，主创团队获百度投资。创始人兼CEO朱江毕业于上海交通大学计算机系，曾任触宝科技首席增长官，从0构建了千万级DAU的泛娱乐应用，并负责集团全球用户增长工作。

Axelera AI 在 B 轮融资中筹集了 6800 万美元： Axelera AI 是荷兰一家专门为 AI 推理构建的AI硬件加速技术提供商。其产品 Metis™ AI 平台是一种用于边缘 AI 推理的硬件和软件解决方案，以替代解决方案的一小部分成本提供性能和效率。支持者包括 Invest-NL Deep Tech Fund、European Innovation Council Fund、Innovation Industries Strategic Partners Fund和 Samsung Catalyst Fund，以及现有投资者 Verve Ventures、Innovation Industries、Fractionelera 和意大利主权基金 CDP Venture Capital SGR。

Illumex获1300万美元种子轮融资 ： Illumex 是以色列一家专注于为结构化数据添加语义含义的 AI 基础设施，领投方：Amdocs Ventures、Cardumen Capital、Samsung Ventures。

Clay获6200万美元B轮融资： Clay Labs Inc.是一家人工智能驱动的销售和营销初创公司。Meritech Capital Partners LP领投了B轮融资，Sequoia Capital Operations LLC、First Round Capital LLC、Box Group LLC和Boldstart Ventires LLC也参与了本轮融资。

Synthflow获740万美元种子轮融资： Synthflow 用于开发 AI 生成的电话通话技术，旨在帮助小型企业自动化客户互动，如安排约会、回答电话和收集信息。融资由 Singular 领投，现有投资者 Atlantic Labs 和包括 Krisp AI 创始人在内的投资者参投。

HydroX AI获400万美元融资： HydroX AI是一家位于加利福尼亚州圣何塞的人工智能初创公司，提供全面的大型语言模型安全和安保平台。支持者包括Vitalbridge Capital，Atom Capital和Microsoft执行副总裁，百度前首席运营官Qi Lu。

Loti 筹集了515万美元种子资金： Loti 利用 AI 技术保护公众人物免受深度伪造和未经授权使用人脸的侵害。

Dappier 获 200 万美元的种子资金： 为出版商提供通过内容生成模型获利的平台，同时保护版权不被侵犯。领投方为Silverton Partners。

Fluently 筹集 200 万美元种子资金： Fluently 是人工智能驱动的英语教师平台，投资参与方包括 Pioneer Fund, SID Venture Partners,和个人天使投资人。

LeyLine获得数百万美元种子轮融资： LeyLine是一家AI赋能人机混合智能生态系统开发商，致力于推出全球首个针对游戏，短剧，动画，CG等内容制作行业的AI赋能人机混合智能生态系统。融资领投方为春华创投，跟投方包括总部位于波士顿的深科技基金Taihill Venture和多位著名天使投资人，其中包括SparkCognition创始人Amir Husain，以及前康柏电脑首席技术官Bob Stearns创立的SternHill Partners。

Better Futures 筹集50 万欧元的资金 ： Better Futures 是一家总部位于爱尔兰都柏林的早期工程和制造人工智能初创公司，该公司打算利用这笔资金加速推出EVA(TM)，这是其面向工程师和制造商的新型人工智能助手和平台。

YconityAI完成600万元Pre-A轮融资： Yconity AI是一家人工智能平台开发商，其人工智能平台处理用户任务，识别重复的工作步骤，并自动生成自动化这些任务的代码。本轮融资投资方汉十投资，资金将用于技术研发。

（欢迎添加微信AIyanxishe2，了解更多AIGC、融资情况，与志同道合的朋友一同畅聊时新AI产品）

国内情报：

商汤如影AI视频生成平台推出央视记者王冰冰AI数字人：

商汤科技的AI数字人“AI冰冰”在《2024中国・AI 盛典》中首次亮相，展现了出色的多语言能力和逼真的视觉效果。基于SenseNova大模型技术，如影平台的AI视频生成技术实现了高清复制和自然的表情、嘴型、动作效果，展示出卓越的语言能力。

影视行业迎来首个妆造大模型：

阿里大文娱发布了自研影视妆造大模型神力霓裳，专精于古装剧的妆造创意设计，包含造型设计、妆发设计和纹样设计三大功能，造型师在设定朝代、性别、身份等条件后，输入相关提示词，2分钟即可获得造型图片。

全国首个司法审判垂直领域大模型启用：

深圳市中级人民法院上线运行人工智能辅助审判系统，这是全国首个司法审判垂直领域大模型。该系统将审判流程拆解为 85 个节点，开发出 4 个功能模块，包括立案智审、智能阅卷、智能庭审和智能文书生成。系统可提供全面支持，大幅缩短庭审准备时间。此外，系统还能深入剖析案件要素。

上海医院用AI自动生成病历，效率提升30倍：

上海市第一人民医院引入蚂蚁大模型提高病历书写效率的创新应用。通过关键信息的给定、语音输入等多种形式结合自动生成病历，简化入院记录的填写过程，将原本5到10分钟的工作缩减到了15至20秒。这是AI 大模型首次在全国医疗领域辅助医生生成电子病历。

天津大学科研团队开发可开源的片上脑-机接口智能交互系统：

天津大学科研团队与南方科技大学等机构合作，开发了一种可开源的片上脑 - 机接口智能交互系统 MetaBOC，该系统能够实现无人控制的脑机交互任务。研究通过干细胞培养技术创造了一个类脑组织 “片上脑”，能够模拟生物大脑的一些智能功能，并通过电极芯片与外界进行信息交互。片上脑由 “片”（电极芯片）和 “脑”（体外培养大脑）组成，可以实现对机器人进行避障、跟踪、抓握等任务的自主控制。

中山大学&字节智创数字人团队提出虚拟试穿新框架：

MMTryon的虚拟试穿框架，能够通过输入多个服装图像及指定穿法的文本指令，生成高质量的组合试穿结果，适用于真人图像和漫画人物。无需依赖传统的服装精细分割，在基准测试中超越了现有的 SOTA 方法。

何小鹏称2025年最top车企将进入AI智驾ChatGPT时代：

何小鹏发布Waymo和特斯拉FSD对比视频。他表示，FSD最近半年的进步速度飞快，而且随着FSD的数据量越来越大，整个Infra越来越好，坚信在2025，FSD一定会超过Waymo。何小鹏表示，整体来看，他认为2025年最top车企将进入AI智驾ChatGPT时代，并加速完全甩开当前规则模式的自动驾驶能力，而2026年会实现部分场景无人驾驶。

国际情报：

OpenAI向少部分用户推出GPT-4o(S2S)模型：

有少数用户发现 ChatGPT Alpha Models 中出现了一个名为 GPT-4o (S2S) 的新模型，目前该模型的用途尚未得到官方的解释。目前有两种猜测：一种是 S2S 可能是 GPT-4o 的滚动发布模型，另一种是 S2S 可能是 GPT-4o 高级实时语音模式的免费版。后者概率更大，类似于 GPT-4o，所有用户都可以使用，但免费用户的使用配额有限，使用后需要等待一段时间才能再次获得配额。

消息称苹果AI将登Vision Pro，今秋或将接入谷歌 Gemini：

古尔曼称苹果 AI 将在 Vision Pro 上运行，但运行该 AI 需要“足够的 RAM”，头显的 16GB RAM 能够运行摘要、书写工具和新版 Siri 功能，但 HomePod / mini 音箱只有 1GB RAM，无法运行相关 AI 模型。

此外古尔曼透露苹果或于秋季宣布与谷歌达成新协议，让 Apple Intelligence 接入Gemini。Meta 公司的 Llama 聊天机器人因为性能不佳而被苹果拒绝。此外，苹果希望通过 AI 直接盈利，可能会推出类似于 iCloud 的 “Apple Intelligence+” 订阅服务。

微软开源基于ChatGPT的超级文本代码智能体：

微软的研究人员提出了“Code-First”的技术概念，并基于ChatGPT开发了超级代码智能体——TaskWeaver。TaskWeaver可以将用户的自然语言文本请求转化为Python代码在后台运行，并且这些代码可以任意调用功能插件,完成数据读取、分析、模型训练等专业任务。

Runway Gen 3可以生成电影片头3D巨幅字幕效果：

Runway最新推出的Gen-3Alpha视频生成模型在保真度、一致性和动作表现方面有重大改进，不仅生成稳定光影，还展现强大想象力。内测博主展示了3D巨幅字幕效果，Gen3即将对所有人开放使用。模型精细控制运动，审美强大，想象力丰富，符合物理规律，生成速度快。

马斯克称xAI 将于 8 月推出 Grok-2 大语言模型：

马斯克在自己的 X平台宣布，其人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出。xAI 今年 3 月、4 月陆续推出了 Grok-1.5 大语言模型和首个多模态模型 Grok-1.5 Vision。xAI 曾表示，Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域“都能媲美现有的前沿多模态模型”。

扎克伯格最新深度访谈讨论智能眼镜、神经腕带与个性化AI的未来：

Meta CEO Mark Zuckerberg讨论了未来十年的技术发展，尤其是智能眼镜、神经腕带和 AI 技术在创作者和小企业中的应用。Zuckerberg认为智能眼镜将逐步取代手机成为主要的个人硬件设备。他提到，未来的智能眼镜将分为三种类型：无显示屏的基础型、带有抬头显示的中级型和全息显示的高级型。他还强调，未来的 AI 技术将不会是单一的，而是多样化的，允许创作者和小企业创建定制化的 AI。这种多样化的 AI 体验将提升用户互动的丰富性和个性化。

微软 AI CEO称今年年底，将拥有实时的语音界面，允许完全动态的交互：

微软 AI 负责人Mustafa Suleyman强调，AI 的发展并不会像加密货币那样成为一时的热潮，而是会持续对社会产生深远影响。他指出当前的 AI 技术已经在多个领域展现了其价值，这与加密货币在短时间内的表现形成鲜明对比。在谈及中美技术竞争时，Suleyman 呼吁在保持竞争的同时，也应寻求合作的机会。他指出，尽管中美之间存在技术上的分裂，但全球化背景下的合作仍然是不可忽视的趋势。通过共同努力，双方可以在各自的技术生态系统中找到共存的方式。

更多国际情报：

OpenAI聘请Zapier COO担任销售战略负责人，销售团队已达200人： 据Lionetti在LinkedIn显示，他曾在Atlassian和Confluent担任营销职务，并曾是Dropbox的增长领导者。

谷歌 AI 视频编辑应用 Google Vids 上线测试： Google Vids集成了Gemini，可以创建幻灯片、编写视频脚本，并从 Shutterstock 寻找素材，为整个视频制作分镜头脚本，还可以通过几句话来描述视频的主题或自己想要的效果。

Character AI推出新语音功能，可以给AI角色「打电话」： 支持多种语言包括英语、西班牙语、和中文等，确保通话体验的自然流畅性，与真人聊天无明显差异，用户可以选择或创建超过100万种独特的声音。

SK 海力士计划 2028 年前投资 103 万亿韩元押注 AI： 其中约 80% 用于 HBM 内存芯片。

高盛对科技公司大举投资人工智能提出质疑： 据高盛报告，尽管预计企业将在人工智能上投资超过 1 万亿美元，但 AI 技术相关的高成本，包括数据中心、电网和 AI 芯片，并质疑这些成本是否能够通过回报来证明。

反垄断机构将发威，微软与 OpenAI/谷歌与三星之间的交易受欧盟关注： 欧盟反垄断监管机构正在审查微软、OpenAI、谷歌和三星之间的 AI 合作关系，重点关注其排他性条款是否会对竞争对手产生负面影响。此前，监管机构已向大型科技公司发出调查问卷，关注其 AI 合作关系。并对“收购-雇佣”行为展开调查。

Product Hunt 热榜，Intercom推出"Early Stage"

Intercom为初创企业提供了一个全面的客户服务平台，"Early Stage"计划包含如AI驱动的客户服务机器人Fin、多渠道沟通工具、自动化工作流程等。这些工具旨在帮助初创团队高效管理客户支持，同时节省成本。同时针对资金不超过100万美元、成立不超过2年、员工不超过5人的初创企业，他们还提供为期三年的折扣优惠。

?https://www.intercom.com/

Hugging Face 热榜，突破性AI语音合成技术MARS5

CAMB.AI推出了先进的英文语音合成模型MARS5，采用创新的两阶段自回归-非自回归流程。该模型仅需5秒音频和文本片段即可生成适用于多种场景的高质量语音，支持140多种语言，并可通过标点和大小写控制语调。

MARS5提供了快速的"浅层克隆"和高质量的"深度克隆"两种推理方式，用户可根据需求选择。该模型在GNU AGPL 3.0许可下开源，同时也提供API调用。CAMB.AI团队计划持续优化模型性能，并鼓励社区贡献。

?https://huggingface.co/CAMB-AI/MARS5-TTS

开发者推荐

1.Arc.dev：全球远程人才招聘平台

Arc.dev 是一个帮助公司快速招聘全球顶尖远程开发者、设计师和市场营销人才的平台，提供兼职或全职的远程工作机会，并且直到雇佣为止无需任何费用。该平台拥有来自190个国家的35万多名候选人,通过HireAI技术实现快速匹配。

?https://arc.dev/?ref=producthunt

2. Plus AI为企业推出智能演示文稿制作工具

Plus AI推出了一款面向企业的AI驱动PowerPoint制作工具，旨在提高演示文稿制作效率。该工具提供定制模板服务，集成AI自动化功能，支持Google Slides和PowerPoint平台，并允许多种格式导出。Plus AI强调品牌一致性和团队协作，为企业用户提供了便捷的幻灯片创建和编辑解决方案。

这款工具不仅支持从零设计或转换现有模板，还注重用户安全和隐私保护。Plus AI采用企业级安全措施，达到SOC 2 Type II合规性标准。与其他AI辅助工具相比，Plus AI更专注于幻灯片制作领域，为企业提供专业和定制化的服务。

?https://www.plusdocs.com/plus-ai-for-powerpoint?ref=producthunt

3.gptpdf: AI驱动的PDF转Markdown新工具

开源项目gptpdf为PDF文件解析和转换带来了新突破。该工具利用GPT-4o等大型视觉语言模型，能够高效地将PDF文件转换为Markdown格式，包括复杂的排版、数学公式、表格和图表等内容。

gptpdf由CosmosShadow在GitHub上维护，以其简洁的代码（仅293行）和多模型支持赢得了开发者的青睐。该工具通过PyMuPDF分析PDF结构，再由AI模型生成Markdown，每页平均成本仅$0.013。gptpdf的出现为文档处理和知识管理提供了新的可能性，有望在学术研究和商业应用中发挥重要作用。

?https://github.com/CosmosShadow/gptpdf/

前沿技术

1.ClotheDreamer: AI驱动的3D服装设计新突破

上海大学等机构的研究团队开发了ClotheDreamer，这是一种基于文本生成3D服装的创新技术。该系统利用3D高斯模型和先进的AI算法，能够将文字描述转化为高质量、可穿戴的3D服装模型。

ClotheDreamer的核心在于其Disentangled Clothe Gaussian Splatting技术，可以分别优化服装和人体模型。该方法不仅提高了生成服装的质量和完整性，还支持自定义模板输入，为虚拟角色创作和数字时尚设计开辟了新的可能性。这项技术有望在游戏开发、虚拟试衣等领域产生重大影响。

?https://ggxxii.github.io/clothedreamer/

2.DiffIR2VR-Zero: 扩散模型助力零样本视频修复

来自国立阳明交通大学、东京大学和联发科技的研究团队提出了DiffIR2VR-Zero，这是一种基于扩散模型的零样本视频修复方法。该技术巧妙利用预训练的图像修复扩散模型，无需额外训练即可处理视频去噪和高达8倍的超分辨率任务。

DiffIR2VR-Zero通过创新的分层令牌合并策略和混合对应机制，实现了高效的视频修复。研究表明，该方法在多个具有挑战性的数据集上展现出优越的泛化能力，为视频增强领域提供了一个灵活且强大的解决方案。这一跨国合作研究成果有望在计算机视觉和视频处理领域产生重要影响，推动相关技术的进步。

?https://jimmycv07.github.io/DiffIR2VR_web/

3.Paint by Inpaint: AI驱动的图像编辑新突破

Weizmann科学研究所和以色列理工学院联合研究提出了一种创新的图像编辑技术——Paint by Inpaint，通过巧妙的"移除再添加"策略实现高质量图像编辑。核心是利用预训练擦除模型和扩散模型，结合文本指令，无需用户提供输入掩码即可精确添加物体。

研究者构建了大规模数据集PIPE，采用多阶段过滤确保数据质量。基于PIPE训练的模型在人类评估中获得72.5%的偏好率，远超其他方法。这一突破性技术为AI辅助图像创作开辟了新途径，有望在设计、广告等领域产生重大影响。

?https://rotsteinnoam.github.io/Paint-by-Inpaint/

热议话题

澳大利亚语音演员面临AI挑战：工作岌岌可危

澳大利亚语音演员联合会（AAVA）近日发出警告，人工智能（AI）声音克隆技术可能严重威胁5000名本土语音演员的职业生涯。这一技术在广播、商业广告和电子游戏等领域的应用，正逐步改变传统配音行业的格局。