3 月 11 日,国际领先的 AI 数据技术公司星尘数据(Stardust AI)在北京举办 2024 年春季产品发布会,重磅推出 MorningStar,一款面向 AI 的数据闭环产品。MorningStar 是首款专注数据价值发现的 AI 数据平台,相较于传统的数据管理工具,这款理念先进、操作便捷、功能丰富的 AI 数据发现、管理、协作、迭代平台,专为发现数据价值,加速模型迭代,解决 AI 数据债问题打造,能够支撑企业 Al 数据高效迭代的关键环节,避免数据债风险积聚、低价值数据成本浪费、模型训练与应用效果反馈链长等问题。
▲MorningStar 正式发布
目前,MorningStar 数据管理平台已开放申请,可以进入官网查看更多介绍&提交需求。
一、 MorningStar 是什么?
▲ MorningStar 数据闭环
MorningStar 是一款满足 AI2.0 时代数据管理需求的全能工具,旨在为算法工程师提高非结构化数据管理效率,为公司节省数据资产管理成本和模型上线迭代时间,以领先的数据生命周期管理、全面的数据挖掘工具、强大的指标追踪与难例发现能力、高效合规的数据资产管理等产品优势,远超国内外同类产品,让算法开发更流畅、更敏捷,让数据价值得以全面释放。
二、 MorningStar 的用户是谁?
通过打造以数据为中心的协作环境,MorningStar 能够消除企业 AI 数据债问题,主要服务三类用户:机器学习算法工程师、业务人员、技术管理人员。针对不同的用户,MorningStar 能够满足各类不同需求,涵盖数据难例发现和模型迭代,指标跟踪;数据价值挖掘、业务效果反馈,运营测试;数据要素管理和企业价值沉淀等丰富的使用场景。
三、为什么选择 MorningStar ?
数据技术已经推动了人工智能的三次变革。在大模型时代,各行各业都需要基于自身数据打造超级员工,以提高企业的生产效率。模型和算力可以购买,但数据需要精细化、全流程的管理,才能释放真正的价值。企业需要搭建一个可发现、可管理、可协作、可迭代的数据管道,才能具备获取数据、生产数据、持续迭代数据的能力,促进内部以数据为中心的协作,从而在 AI2.0 时代中获得核心竞争力。
MorningStar 是市面上唯一一个专为 AI2.0 时代企业打造的数据闭环产品,全面覆盖 AI 算法从训练到生产全链路中的数据管理、迭代、优化、挖掘等闭环链路,致力于帮助企业建立高效的数据闭环系统,实现数据价值最大化和模型效果最优化,助力打造差异化竞争力壁垒。
▲MorningStar 产品优势
(1)领先的数据生命周期管理
算法工程师可以通过 MorningStar 进行 AI 数据生命周期的管理,强化数据版本控制、快捷数据切片、可追溯数据血缘和安全管控。平台的自动化工作流能够确保数据在每个阶段都能得到妥善管理和最优化处理。
▲数据切片
灵活的数据切片功能,算法工程师能够一键选定算法迭代数据方向,用于后继数据处理流程。
▲数据流:记录数据包含不同语义信息的版本生产流程
数据流程编排和调度,算法工程师可以方便地记录数据处理过程和语义结果并进行版本管理,记录全生命周期数据信息,确保数据的可追溯性和操作的可复现性。
▲数据流:数据来源和数据送标
算法工程师可以通过平台进行模型真值对比,通过一系列数据追溯、模型调试和分析生成工具,发现难例数据,一键送标至 Rosetta 数据标注系统。
(2)全面的数据挖掘工具
MorningStar 支持深入挖掘数据价值,包括细颗粒度可视化、指标计算、数据分布探索、跨模态数据检索等,能够通过人工监督、语义检索、特征生成和数据增强等手段,用更低成本获取最优算法,并通过可视化的数据挖掘逻辑,帮助用户发现并解决模型训练中的难题。
▲分布可视化
上图展示了 MorningStar 通过可视化数据挖掘逻辑,找出难例数据和标签分布异常的数据,具备丰富的可扩展性。
▲数据探索
算法工程师能够使用 MorningStar 进行各类场景、各种维度的数据检索,快速掌握数据情况,制定算法实验思路。
MorningStar 支持各类型多模态数据可视化,语义检索,更便捷快速地定向挖掘所需的高价值数据。
(3)强大的指标追踪与难例发现能力
作为首款集合难例发现策略的数据闭环产品,MorningStar 能够保证模型训练过程可追踪可迭代。通过一系列数据追溯、模型调试和分析生成工具,助力实现和维护高质、可复现的 Al 模型。
▲数据溯源:通过数据流实现对算法评测所用数据的随时溯源。
▲版本对比
通过选择不同的数据版本,实现算法预测结果和真值的对比,并结合可视化功能便捷地定位和分析难例数据。
▲指标追踪和效果检测
MorningStar 通过 SDK 便捷地打通模型训练环境和训练数据分析管理、指标分析环境,便捷地进行算法迭代。
(4)高效合规的数据资产管理
MorningStar 支持对数据集进行全面的分析,助力经营管理负责人实现企业级数据要素管理分析,一览呈现数据资产规模、内容分布、归属权等维度的资产信息。
▲数据合规审计
团队可以通过 MorningStar 整合数据资产,共享使用价值。通过权限管理和使用记录,加速各部门之间的数据流通,同时保证数据安全。
▲数据资产展示
此外,MorningStar 整合多源、多格式、异构数据,管理超大容量数据,实现企业资产可视化建模;支持对多维度细粒度数据的分类盘点,促进企业内部数据深度理解,提高企业跨部门协作中数据流转效率。
上图展示了通过 MorningStar 进行数据集热度值排名,通过数据使用次数、场景标签、标注结果等评价数据资产对算法迭代价值,助力数据要素的经济效益分析。
(5)更多功能
作为一个优秀的算法工程师,还在用原始的自建工具、临时工具,甚至 Excel 来处理数据吗?MorningStar 作为专业的 AI 数据发现、管理、协作、迭代平台,除了能够让你进行以上高级操作,还有丰富的实用功能!例如支持多源、多格式、异构的结构化数据统一管理;支持 SDK,可以进行模型的性能评估和监控,获得全面的模型评估报告。
值得一提的是,星尘数据联合港科大打造的 CIF-Bench 自动化评测即将上线 MorningStar!28 个模型评测榜单,重点评估了 20 种基础维度,考察模型在 150 类任务上的指令遵循能力,榜单链接:https://yizhilll.github.io/CIF-Bench/。
一位自动驾驶算法工程师曾反馈,原本需要花费 1 天时间才能发现的难例,通过平台只需要 1-2 小时即可,大大提高了迭代效率。
未来,MorningStar 还将持续进行迭代更新,欢迎各位使用者为我们提出宝贵的建议,和我们一起重构数据闭环管理,让 AI 算法迭代更高效!
五、 MorningStar 正式发布
据星尘数据创始人&CEO 章磊介绍:「 在 AI2.0 时代,掌握自己的数据就是掌握自己的模型 。 」 企业数据价值的核心在于定义、管理和迭代数据。在不断演变的 AI 技术浪潮中,持续管理、优化和迭代数据将成为企业在 AI2.0 时代脱颖而出的关键因素。如果您的企业希望利用自有数据和百亿级大模型打造出自己的超级员工,MorningStar 诚挚地邀请您与我们进行沟通。无论您是哪类有 AI 数据管理需求的用户,MorningStar 都能提供全面的解决方案和灵活的使用方式,包括 SaaS、企业私有化部署以及支持软件定制化开发。
产品官网地址:https://stardust.ai/MorningStar
需求提交地址:https://stardust.ai/contact