StabilityAI获超1亿美元投资并任命新CEO；月之暗面称没有开发海外产品计划；GPT-5将在一年半后发布丨AI情报局

雷锋网 • 5天前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

融资快报

Stability AI 获超 1 亿美元投资并任命新的 CEO： The Information消息，Stability AI 已任命 Prem Akkaraju 为新任首席执行官。视觉特效公司维塔 Wētā FX 前首席执行官 Prem Akkaraju 是包括前 Facebook 总裁 Sean Parker 在内的投资者中的一员。报道称，这些投资者总共出资超过 1 亿美元，新的资金可能会缩减一些现有投资者的股份。目前，Stability AI 公司拒绝发表评论。

OpenAI 以换股方式收购 Rockset，估值最高36亿： OpenAI公司在社交平台上宣布，其收购了领先实时分析数据库公司Rockset，但OpenAI没有透露交易金额。OpenAI强调，基于Rockset提供的世界一流的数据索引和查询功能，OpenAI将在其产品中整合Rockset技术，使公司能够将其数据转化为可操作的情报。截至去年8月29日，Rockset公司共获得的融资总额在1亿美金左右，投后估值1亿-5亿美元。

HeyGen获6000万美元融资： HeyGen 是一家 2020 年创立于中国的AI 视频公司，后迁至美国洛杉矶。它允许用户创建虚拟形象，利用 AI 技术让形象用用户自己的声音交流，并翻译成多种语言。该公司目前估值 5 亿美元，累计融资 7400 万美元，本轮由 Benchmark 领投，其合伙人 Victor Lazarte 将加入董事会。其他投资者包括 Conviction、Thrive Capital 和 Bond Capital。HeyGen 拥有超过 4 万名付费客户，过去一年中，年化复订阅收入从零增长到超过 3500 万美元，自 2023 年第二季度起已实现盈利。

Waabi 获 2 亿美元资金： 加拿大人工智能公司 Waabi 宣布获得2亿美元的新资金，以加速其自动驾驶卡车的研发和部署。这家多伦多初创公司的全新 B 轮融资由 Uber 和硅谷的 Khosla Ventures 领投，同时还得到了 Nvidia、保时捷和沃尔沃等知名公司的支持。

银河通用机器人完成7亿元天使轮融资： 银河通用是一家多模态大型机器人研发商，专注于制造具有嵌入式AGI的机器人，为全球提供通用机器人。投资方包括美团点评战投、北汽产投、商汤国香基金、讯飞基金等顶级战略及产业投资方；启明创投、蓝驰创投、经纬创投、源码资本、IDG资本等头部财务机构，光源资本担任此次融资独家财务顾问并参与早期投资。

Vecna Robotics获得1亿美元C轮融资： Vecna Robotics是美国一家自动搬运机器人研发商，通过自动驾驶汽车提供自主的物料搬运解决方案。本轮融资由Proficio Capital Partners、Blackhorn Ventures、Drive Capital、Fontinalis Partners、高原资本、Impulse VC、Lineage Logistics、Tectonic Ventures、Tiger Global老虎海外投资。

Speak融资2000万美元： Speak是一款AI英语学习应用，通过实时对话和即时反馈帮助用户提升口语能力。目前估值达到5亿美元，领投方为Buckley Ventures。

科默罗完成新一轮融资： 通过整合和优化多种传感技术，如计算机视觉、语音识别、触觉反馈、环境监测等，为AI智能体提供泛在普适的感知能力，使其能够实时收集和解析来自周围环境的大量数据。本轮融资由灏浚投资及产业龙头上市公司共同投资，老股东兰湾资本持续加注。

商汤科技配售获多家战投及头部海外基金入股： 商汤最新公告拟配售B类股份，总筹20.08亿港元。本次配售有多家战略投资人及头部海外基金入股，现有股东增持。另外，募集资金将用于大模型研究及产品开发等。

GrayMatter获4500万美元B轮融资： GrayMatter是一家智能机器人研发商，主要依托人工智能算法和机器学习等技术，为工业机器人开发机器人大脑，并将其转化为智能助手。由Wellington Management、诺基亚成长基金、Euclidean Capital、Advance Venture Partners、SQN Venture Partners、B Capital Group、Bow Capital、Calibrate Ventures、OCA Ventures、Swift Ventures、3M Ventures投资。

SewerAI获1500万美元B轮融资： 利用人工智能和计算机视觉技术在下水道基础设施缺陷达到灾难性水平之前对其进行检查识别和分析。本轮融资由Burnt Island Ventures、Bentley、Suffolk Ventures、EPIC Ventures、Emerald Venture Capital、Innovius Capital投资。

Particle NEW获1090万美元A轮融资： Particle NEW是一家AI新闻阅读器服务提供商，专注于推进基于AI的新闻阅读器，旨在为用户提供定制的新闻流，该服务仍处于内测阶段。

（欢迎添加微信AIyanxishe2，了解更多AIGC、融资情况，与志同道合的朋友一同畅聊时新AI产品）

国内情报：

月之暗面回应进军美国市场，目前没有开发和发布任何海外产品的计划：

有报道称“月之暗面员工一直在开发最近在美国推出的产品，包括一款可在苹果和谷歌移动应用商店上下载的 AI 角色扮演聊天应用程序 Ohai 和一款音乐视频生成器 Noisee。”对此，月之暗面回应表示，“我们目前没有开发和发布任何海外产品的计划。”

快手可灵大模型开放图生视频，视频续写最长可达3分钟：

快手旗下大模型可灵正式推出图生视频功能，支持将任意静态图像转化为生动的5s精彩视频，搭配创作者输入的不同文本，可生成多种多样的运动效果。可灵还同步发布业内领先的视频续写功能，支持对已生成的视频一键续写和连续多次续写，单次可让视频延续约5秒，最长可生成约3分钟视频，进一步展现了该模型强大的想象力和可控性。

阿里云推出首个AI程序员，"分钟级"完成应用开发：

具备架构师、开发工程师、测试工程师等岗位技能，能完成任务分解、代码编写、测试、问题修复、代码提交整个过程，最快分钟级完成应用开发。据悉，该AI程序员是基于通义大模型构建的多智能体，而此前推出的AI编程工具"通义灵码"主要辅助程序员进行编码、读代码、查找BUG和优化代码等工作，而"AI程序员"则能独立承担整个软件开发任务。

华为云盘古大模型 5.0 发布，“夸父” 人形机器人现身：

盘古大模型5.0提供了从十亿级到万亿级不同参数规格的模型；能够理解和生成包括文本、图片、视频、雷达、红外、遥感等多种模态的内容，并且支持 10K 超高分辨率图像理解；复杂逻辑推理和数学能力的增强。盘古大模型采用STCG 技术，专注于自动驾驶、工业制造等行业场景，比如应用在宝武钢铁集团热轧生产线中，预计每年多产钢板2万余吨、多赚9000余万元。

华为还与乐聚合作开发了盘古具身智能大模型，基于此模型，“夸父” 人形机器人可流畅完成识别物品、问答互动、击掌、递水等互动演示。

鸿蒙NEXT将AI能力融入系统，小艺升级为智能体：

华为手机端测大模型应用带来AIGC图像生成、AIGC声音修复、AI图像识别等功能。基于盘古大模型5.0加持，小艺将以“小艺超级智能体”的新形式出现在系统中，用户可以随时召唤华为智能助手“小艺”，将文字、图片、文档“投喂”小艺，即可高效处理文字、识别图像、分析文档。

消息称字节旗下 PICO 研发多款 AI 穿戴设备，搭载豆包大模型：

据悉，字节旗下的 PICO 从去年下半年开始在研发多个穿戴设备，这些设备将搭载 AI。字节正在招聘 ID 设计师，负责智能设备的工业设计，招聘提到了孵化成果推动落地，团队位于深圳。

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件：

对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。作为中文原生模型，用户在通过混元DiT的训练代码进行精调时，可以直接使用中文的数据与标签，无需再将数据翻译成英文。

腾讯推出AI音乐创作模型「琴乐大模型」：

该模型由腾讯音乐娱乐集团天琴实验室和腾讯 AI Lab 联合研发，具备丰富的 AI 作曲和编曲能力。只需输入中英文关键词、描述性语句或音频，「琴乐大模型」就可直接生成音乐，也可为有后期编辑需求的音乐人，提供生成乐谱的能力。

首个多任务长视频评测基准MLVU，GPT-4o 差点没及格：

智源联合北邮、北大和浙大等多所高校推出难度大升级的多任务长视频理解评测基准 MLVU ，该基准旨在提升机器对长视频内容的理解能力，包括视频、音频和文本等多模态信息的综合分析。MLVU 的难度较大，考验了算法在多种任务上的综合性能，如视频摘要、问答、分类等。

金沙江创投朱啸虎称5年后将没有独立大模型公司存在：

金沙江创投合伙人朱啸虎表示，今年将是AIGC创业回归商业本质的开始。5年后将没有独立的大模型公司存在。因为没有商业模式，价格已经在成本以下了，创业公司没办法跟进。取而代之的将是专注于AI应用的公司或云服务企业。朱啸虎还提到，生成式AI是一个类似于PC、移动互联网的十年周期，将是未来10年的长坡厚雪。他判断，2024将是大模型争霸之年。另外如果GPT-5未能如期发布，英伟达等相关公司的股价可能要狂跌。

更多国内情报：

搭载首个游戏Copilot，能“听懂人话”的AI队友： 网易伏羲工作室研发全球首个游戏Copilot，基于多模态技术，应用于网易旗下永劫手游，化身为“AI队友”，能够与玩家进行实时语音交互并完成游戏对局各种复杂操作的“智能体”，可提供游戏指导、战术分析、情感交流等服务。

知网宣布CNKI AI学术研究助手4.0： 该AI学术助手结合AI大模型技术和高质量数据，提升文献检索、研读和学术创作效率。新增功能包括可控生成、文献扩展、学者检索、全文翻译和学术拓展服务，满足用户个性化需求。突出升级是问答式增强检索和学者检索服务。

CVPR自动驾驶无图挑战赛，小米获全球第二： 小米联合了北邮，提出了一种关于道路拓扑理解的新方法，共同斩获第二名。前三被中国玩家包揽，第一名是朗歌科技，第三名为旷视&北理工。知名Tier1博世全球，仅拿到了第四名的成绩。据悉，朗歌科技成立于2021年，背后实际控制人为李书福，控股比例超96%，朗歌董事长刘金良为吉利集团董事。

腾讯元宝版本更新，AI 搜索解析能力升级： 可支持单文档最长 1000 万字的超长文处理，一次性解析最多 50 个文件，单个文件大小不超过 100MB，支持上传和解析包括多种文件格式。同时支持一键生成柱状图、折线图、饼状图等数据图表。新版腾讯元宝还支持解析 URL 网址和各类链接。现已接入微信搜索、搜狗搜索等搜索引擎，覆盖微信公众号等腾讯生态内容，支持其他互联网信源。

国际情报：

OpenAI CTO 称GPT-5将在一年半后发布，创意性工作可能消失：

OpenAI CTO Murati表示，只需一年半时间，AI就可以在某些领域达到博士的智能。根据她的说法，GPT-3的智能相当于幼儿，GPT-4相当于聪明的高中生，而下一代模型（GPT-5），将在18个月后发布，并达到博士水平。她还表示AI可能会扼杀一些本来不应该存在的创意性工作。

美国财政部公布新规草案，将禁止美国人对中国 AI、芯片等领域的某些投资：

美国财政部发布一份长达12页的规则草案，要求对美国在半导体和微电子、量子计算和人工智能领域的某些投资进行监管，禁止或要求限制中国在 AI 和其他技术领域的投资。美国财政部表示，新规旨在实施“一项狭义的、有针对性的国家安全计划”，重点关注对受关注国家的某些境外投资。

亚马逊据悉将推出AI版Alexa，每月收费5到10美元：

亚马逊正计划对其亏损十年之久的语音助手Alexa服务进行重大改造，将AI聊天机器人纳入其中，并提供两个级别的服务，每月收取5到10美元的费用。新的语音助手将称为“Remarkable Alexa”，这是亚马逊重振Alexa服务的最后尝试，亚马逊已经要求员工在8月的最后期限前准备好最新版本的Alexa。

AI学会篡改奖励函数、欺骗研究者，Claude团队称无法根除的行为，令人不安：

研究人员发现 AI 能够篡改自己的奖励函数来欺骗研究者，虽然这种行为在实际应用中并不常见，但研究人员仍未找到有效方法来阻止这种行为。这项研究表明 AI 在特定条件下可能会学会篡改奖励函数，即使在没有明确训练的情况下。研究人员对 AI 在现实场景中的此类倾向保持谨慎，并强调这种行为可能是由于规范博弈的泛化而产生的。

斯坦福大模型评测榜 Claude 3 排名第一，阿里、零一万物进入前十：

这份榜单评估了文本模型在 57 个不同任务上的准确性，包括基础数学、美国历史、计算机科学、法律等领域。在排名前十的大语言模型中，有两款国内模型：阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。Claude 3 Opus 排名第一，由美国的 Anthropic 公司开发，亚马逊是其投资者。OpenAI 的 GPT-4o 和 GPT-4 也分别位列榜单第二和第四。谷歌的 Gemini 1.5 Pro、Meta 的 Llama 3（70B）也进入了前十。

Groq免费开放whisper-large-v3模型，支持语音转录和翻译：

该模型为用户提供了强大的语音转录和翻译功能，可在Playground或本地项目中使用API。用户体验高速转录，支持多种语言翻译成英文。Whisper API兼容OpenAI标准，提供语音转文本和翻译功能，便于集成到应用程序中。

GPT-4o挑战ARC-AGI，71%准确率成新SOTA：

GPT-4o 突破 ARC-AGI 基准，该基准由 François Chollets 创建，并被认为是衡量通用人工智能进展的唯一标准。之前的 ARC-AGI 竞赛获胜者在测试集上仅取得了 21% 的成功率，而 GPT-4o 则在公共测试集上达到了 50% 的准确率，在训练集的保留子集上达到了 71%，成为新的 SOTA。尽管 GPT-4o 的表现令人印象深刻，但由于使用了闭源模型和过多的运行时计算，该成绩未能获得 ARC-AGI 奖项和主要排行榜的资格。

红杉美国合伙人称AI两千亿美元的问题，现在变成了六千亿美元：

红杉美国合伙人 David Chan 提出，AI 市场的潜力已经从 2000 亿美元增长到 6000 亿美元，这一转变得益于英伟达超越苹果成为全球市值最大公司的推动。David Chan 通过将英伟达的年收入预测乘以 2 倍来反映 AI 数据中心的总成本，再乘以 2 倍以反映 GPU 最终用户的使用情况，得出了这一市场规模的估算。

马斯克称特斯拉人工智能硬件占一半，英伟达/其他硬件占一半：

马斯克谈到特斯拉的冷却需求称，今年的电力和冷却需求约为130兆瓦，但在未来18个月左右将增加到500兆瓦。目标是特斯拉人工智能硬件占一半，英伟达/其他硬件占一半。要么不入局，要么就入局全力一搏。主要是HW4，部分Dojo。然后在明年下半年推出HW5（已更名为AI5）。特斯拉AI5计算机的能力是HW4计算机的约10 倍，整个软件栈都是特斯拉开发的。

软银创始人孙正义拟在新投资计划中打造“超级”人工智能：

孙正义称该公司芯片将支持一个由机器人和强大数据中心组成的生态系统，可以共同治疗癌症、打扫房屋和与孩子一起玩耍。“实现超级人工智能是我要做的事情，”他预言，超级人工智能可能会在10年内出现，其能力将会是人类的1万倍。

更多国际情报：

消息称苹果与 Meta 讨论合作，将生成式 AI 引入 Apple Intelligence： 报道称，除了谷歌和 Meta，人工智能初创公司 Anthropic 和 Perplexity 也一直在与苹果商谈，希望把它们的生成式人工智能引入苹果智能系统。

AI 角色扮演Character.ai流量已达谷歌搜索 20%： Character.ai通过高效的内存架构设计、Attention 状态缓存和直接用 in8 精度量化训练等优化手段，实现了每秒处理 20000 个 AI 推理请求，达到了 2024 年谷歌搜索流量的 1/5，并大幅降低了推理成本。

数据显示谷歌已降低 Reddit 对 AI 搜索结果的影响： 据SERanking 数据显示，Reddit 已经不再是谷歌“AI 摘要”功能信息来源的前十名。此前不少用户反馈谷歌 AI 摘要功能会生成一些奇怪的结果。

高通开放 AI 模型，助力开发者打造骁龙 X Elite 平台智能应用： 这些模型现已在高通 AI Hub 上提供，涵盖图像分类、对象检测、语义分割和生成式 AI 等领域。注册开发者可以获取这些预训练模型，快速构建人工智能应用。

AI在体育领域的潜在应用，可根据网球运动员肢体语言识别情绪： 德国研究员利用卷积神经网络，准确识别了网球运动员在比赛中通过肢体语言表达的情绪，该模型的准确率高达 68.9%。研究结果发表在《知识系统》期刊上。

无需充电、加油，新型机器人开始商用，可自由探索海洋： Seatrec 公司在美国宇航局喷气动力试验室的支持下，研发了一种新型海洋机器人，该机器人不需要充电或加油，能够消除海底电池残骸，利用海洋温度波动产生动能，实现长期自由探索海洋。

AI 大模型会不会讲笑话？谷歌 DeepMind 团队实验显示，会讲，但笑点不多： 研究人员发现，大语言模型生成的大多数笑话都是“泛泛而谈”，鲜有令人惊喜的结果出现。原因可能是大语言模型的制作者会使用过滤器来防止可能令人觉得反感或受到冒犯的输出。

史上最贵减持！黄仁勋5天套现5.7亿，英伟达两天暴跌1.6万亿： 黄仁勋在 5 个交易日内套现超过 5.7 亿元人民币股份，而英伟达股价两天内大跌导致市值减少超过 1.6 万亿元人民币。

Product Hunt 热榜，Mojo AI Reveal让logo动起来

Mojo AI Reveal 是一个方便的在线平台，用户只需上传带有透明背景的 .png 格式 logo，即可利用 AI 技术生成动感十足的专业标志动画。操作简单，即使没有专业设计技能也能轻松上手。上传文件需小于 25MB，以确保最佳效果。

?https://mojo-app.com/ai?ref=producthunt

GitHub Trending 热榜，开源实时翻译助手 RTranslator

RTranslator 是一款专为 Android 设备设计的免费开源实时翻译应用程序，支持对话模式、对讲机模式和文本翻译模式，能够在两人或多人之间进行实时翻译。该应用程序使用 Meta 的 NLLB 进行翻译，OpenAI 的 Whisper 进行语音识别，这些 AI 模型在设备本地运行，确保用户隐私并支持离线使用。RTranslator 要求设备至少有 6GB RAM 和一颗足够快的 CPU，以保证其稳定运行。用户可以通过下载 APK 文件并在首次启动时下载必要的模型来安装应用。

RTranslator 支持多种语言，不收集任何个人数据，完全保护用户隐私。作为一款开源应用，它的代码对公众开放，但使用了一些外部库和 AI 模型，这些库和模型的许可证各不相同。虽然目前该应用仍处于测试阶段，存在一些已知问题，如某些语言的语音合成问题和蓝牙连接不稳定问题，但它已经展示出极大的潜力。

?https://github.com/niedev/RTranslator?tab=readme-ov-file

开发者推荐

1.Granola：职场人士的 AI 智能会议笔记应用

Granola 是专为持续连续会议的职场人士设计的 AI 智能会议笔记应用，能够实时听写会议内容并在会后增强笔记。目前仅支持 Mac 系统，但 Windows 版本正在开发中。Granola 不需要会议机器人，通过 Mac 音频即可进行听写，并提供可自定义的模板和 GPT-4 集成功能，帮助完成会后行动项如撰写跟进邮件等。该应用还支持轻松分享笔记至常用平台，提供免费试用版和每用户每月 10 美元的专业版，被 Zinc 等公司广泛采用并获得积极评价。

?https://www.granola.so/

2. Florence-2：微软开源的轻量级视觉语言模型

Florence-2是微软开源的轻量级视觉语言模型，使用MIT许可证发布。它在FLD-5B大规模数据集（包含1.26亿张图像和54亿条视觉注释）上训练，展现出强大的零样本和微调能力。该模型在图像标注、目标检测、地面化和分割等多种视觉任务中表现出色，性能可与大型模型相媲美。Florence-2系列包括参数为0.23亿的base版本和0.77亿的large版本，体积小巧，适合移动设备部署。模型架构结合了DaViT视觉编码器和基于Transformer的多模态编码器-解码器，为计算机视觉领域带来新的可能性。

? https://huggingface.co/collections/microsoft/florence-6669f44df0d87d9c3bfb76de

4.Andrej Karpathy 分享 Micrograd 项目：了解神经网络训练的核心

Andrej Karpathy 在 X 上发布了一篇帖子，介绍了他的早期项目 Micrograd。这个项目通过 94 行代码实现了一个标量自动微分引擎，这是训练神经网络的核心。这个过程包括构建一个计算图，输入数据和神经网络参数通过基本操作如加法和乘法，最终以一个单一的损失值结束。然后通过反向传播和链式法则计算梯度，这些梯度指导参数的调整以减少损失，从而改进网络。

Karpathy 强调，尽管还需要了解计算图的结构、损失函数和参数更新方法等，但这些代码已经体现了训练神经网络的基本原理。他还分享了 Rumelhart、Hinton 和 Williams 在 1986 年发表的关于反向传播算法的论文链接，以及他在 YouTube 上的视频，详细解释了 Micrograd 的构建过程。

?https://github.com/karpathy/micrograd

?https://www.youtube.com/watch?v=VMj-3S1tku0

5.CosmicMan-SDXL 生成高保真度的人类图像

CosmicMan-SDXL 是一个专门用于生成高分辨率人类图像的文本到图像基础模型，基于 stabilityai/stable-diffusion-xl-base-1.0，并提供了 UNet 检查点。

?https://huggingface.co/cosmicman/CosmicMan-SDXL

热议话题

BVP 发布“State of the Cloud 2024” 报告，聚焦 AI 五大趋势：

Bessemer Venture Partners 报告重点关注人工智能领域的五个关键趋势，分别是：

1.ChatGPT 的爆发，月度网站访问量，与 Reddit 和 X 平台相当，显示出极高的用户关注度；

2.大型科技公司战争，基础模型成为新一战的核心，2023 年约 90% 的私募 GenAI 融资由企业风险投资者推动；

3.模型层的价值集中，风险投资流向：2023 年约 60% 的风险投资资本流向了模型层，表明人工智能价值创造主要集中在该层面；

4.代码协作者的创新热潮，2023 年在代码协作者领域共投资了 39 亿美元。GitHub Copilot市场领先，安装量超过 1400 万，成为开发者的热门工具；