AI产品经理B端产品典型案例——从0到1构建机器学习平台
编辑导读:现在,越来越多的重复繁琐的工作正在由机器人代劳,而随着人工智能的发展,机器学习平台未来能帮助人类解决更多复杂的事情。本文作者分析如何从0到1构建机器学习平台,希望对你有帮助。
一、需求分析
1. what
首先解答一个问题,什么是机器学习平台。第一步就是要了解什么是机器学习,主要指的是现如今大火的人工智能的实现方法(比如利用决策树、聚类、贝叶斯分类、SVM、adaboost等等,当然也有当前主流各种深度神经网络模型Alexnet、resnet等等),跟人工智能、深度学习的关系可以参考我的另一篇文章《 AI产品经理的7堂必修课:必备的AI基础知识 》此处不做赘述,当然这些知识也应该是一个AI产品经理应知应会的。
什么是一个机器学习的平台呢?因为前面提供机器学习是人工智能的实现方法,那么这个平台就是AI算法工程师实现人工智能算法所需要的工具集,为什么是工具集而不是工具;因为平台的定义绝不仅仅是单一功能的,而是涵盖了从0到1如何实现一个算法模型的数据准备、算法模型选择、验证、测试与优化、量化与部署,即从无到最终实现。因为这是一个相对复杂的系统工程,每一个步骤或者是每一个不同类型的任务需要的工具就会有差别,因此我们需要一个平台提供端到端闭环的完整服务。
最终实现的事情可以这样理解,我们输入是一些我们在日常生活中想要AI计算机解决的问题(比如如何快速识别人脸、如何在手机上分类图片),输出就是一个完成的AI服务(无论是在线的网页访问还是离线的手机上调用)
2. who
我们的用户是谁?
首先上文提到了AI算法工程师,因此是一个个有特定职业技能的个体,因此我们定义成是一个to C的产品么?不要忘记知名产品经理俞军老师说过:“用户不是人,而是需求的集合。”
我们所看到的AI算法工程师(学生),他们都是被一个个组织所雇佣,最终是为了解决一个个企业/组织面临的有待用AI方法解决的问题。但是如果没有平台,其实这些事情也可以做,只不过相对效率就低了很多。因此我们的平台定位就是:高效高质量的解决组织面临的需要AI算法模型解决的问题。
因为商业的本质是追逐利益最大化的,如何提升AI算法模型从无到有的每一环节的效率且并最终可以做到边际成本为零(批量的复制生产AI模型且不会出错,或者版本一致性较差等问题),甚至可以做到替代部分人甚至替代全部的人,这个应该是机器学习平台追求可以不断优化迭代的方向,也是企业组织会为你的产品买单的原因,因此这个平台定位是一个to B的产品。
3. when & where
解决了上一个问题,这个问题就十分好回答了。
既然我们的用户是利用AI解决实际生产经营问题或者提供AI服务的组织,那么他们使用的场景应该就是典型的workplace,当然包含可远程办公接入的场景,接入的设备默认就是相对专业的电脑而不是各种移动端设备。且由于我们是to B类的产品。且一般ai算法模型的训练迭代可能是7*24的,因此对于平台的稳定性、安全性、容灾性要求更高。
但是对于刚开始仅对内部服务的平台除外,这类平台初期,可以多邀请早期内部的算法同事优先使用,在早期发现各种问题,并进行敏捷迭代,稳定后再逐步推广到范围更大的组织使用。其实很多to B的产品应该都是这样的路线,比如钉钉、飞书,其实都是从内部需求中不断打磨最终才拓展到外部,面向更大的市场,做商业上的变现。
二、竞品分析
其实机器学习平台并不是一个很创新的产品,其实早期做云平台的公司,都从PaaS逐步向上做SaaS做更增值的部分,那么机器学习应用就是一个很典型的场景。
根据IDC发布的报告,可以看到机器学习平台赛道已经聚集了三支实力军团:以BAT、AWS和微软为代表的云服务商;以第四范式为代表的AI平台公司;以新华三为代表的大数据公司。从2021年上半年的中国AI云的市场占有份额TOP我们重点分析下百度、阿里、华为、腾讯以及海外代表亚马逊;
图1、IDC发布的2021上半年中国AI云服务市场份额占比BAT占据前4名中的三席
接下来对这五家进行一个横向的对比分析:
表1、主流AI学习平台对比分析
通过表格分析可知,如今主流平台的核心优化点都在于提升的效率,无论是一站式服务、节约成本、零门槛上手、快速训练/部署等等,此外平台预置预训练大模型也将是未来机器学习平台的一个突出趋势。
三、如何实现how
通过分析国内外主流机器学习平台,我们得出机器学习平台的全流程,具体流程梳理如下思维导图:
图2、机器学习平台全流程拆解
如果想要进一步了解每每一个机器学习平台产品的功能模块细节,建议大家可以去各家官网上查阅产品文档,相信我,认真读懂整个产品文档,你应该可以构建一个60分的机器学习平台了。个人比较推荐华为modelarts和百度的EasyDL,两家的文档结构清晰、内容翔实。
但是由于这几家的平台产品都是面向全行业的用户,比如百度EasyDL支持图像、文本、语音、OCR、视频、结构化数据(数据智能),但是我们一般自己构建的平台更多的是针对自己组织所遇到的问题,因此一上来并不需要特别全面,而是针对某一个任务完成端到端流程的打通,后续再横向拓展兼容其他类型的任务。
再比如,我现在遇到的问题就是计算机视觉CV领域的非常常见问题图片多标签,这是一个分类问题,谷歌的imagenet整个数据集包含21841类,1400万张图片,其中常用的子集包含1000类,120万张图片,为什么我们还在做类似的问题,就是因为大而全必定就会在某个具体领域具体产品场景上表现够好,比如我们的手机相册,随着隐私保护逐步引起大家重视,不太可能要求用户把数据全部同步到云端。
如何通过机器学习平台自动化的提升端侧提升用户端侧相册照片的多标签表现力,需要从数据整理、模型训练(增量学习、大模型蒸馏小模型)、测试和调优(在满足用户使用场景的测试集上进行验证,看迭代的模型是否较上一版本有显著提升,同时需要考虑端侧的算力与功耗的平衡)。
虽然商业化的机器学习平台有其优势,比如更稳定、功能更全面、更自动化,但是针对自有问题场景深度定制的平台可以更精准的定位痛点、解决本质问题。自有平台与商业平台可以进行优势组合,自有平台做商业平台无法解决的,商业平台完成已经非常成熟的、经过大规模商业论证的部分。最终让机器学习平台价值最大化。
图3、相册某任务的用户行为分析,用来反推机器学习平台需要重点优化的功能
前期构建过程中,可以多与具体负责该功能的ai算法工程师进行访谈,了解其当前工作中的主要困难、比如一些商业化的平台无法解决的但是高频遇到的,主要影响其效率的;并结合最终应用场景的用户埋点数据进行分析,包括一些NPS数据,用户当前对于哪些场景满意度较差、哪些环节影响了使用体验、打断了用户的使用节奏,那么这些就是我们需要总结归纳,通过平台来解决的问题。
当然做前期的产品调研也要考虑到未来平台产品的可扩展性,下一步计划解决什么样的任务,与平台技术专家多沟通,深入了解用什么样的架构/设计可以兼容未来的潜在需求,聊聊平台产品成功时候的样子。
四、如何在早期提升用户的活跃度,实现从0到1 的用户增长
因为从0到1的时候还不涉及商业化变现,但是其实一个平台本身可以通过一些自身的论证数据来体现其价值。比如,数据准备效率从100人天缩短至10人天,训练耗时从1天变成0.5天等等。平台本身的用户活跃度和使用时长也可以很好的说明一些问题。
同时早起可以营造一个内部开放共享的生态环境,比如类似华为和百度的AI市场,鼓励大家内部开源模型、数据等等,同时对于积极开源的用户可以按照贡献值提供平台特殊的福利,不一定是以金钱来衡量,但是却是算法工程师很刚需只有你可以提供的。
比如说,贡献值高的用户有排队训模型的VIP通道,模型可以加速训练,可以优先体验一些平台的新功能(一键式部署/自动采集标注数据等等);这些对于组织内部有限的资源,且工程师每天可能会花很多时间来等待资源训练的话,贡献度高的用户在你这个平台上就可以体验到“爽”的体验。其实这背后的道理跟做其他产品是一样的,别让用户“等”、别让用户“想”、别让用户“烦”,要让用户有参与感!
随着平台逐步壮大后,从1到N的商业模式其实上面推荐的商业化平台都有很好的示范,比如拿百度的EasyDL距离,图像在训练模型阶段不收取任何费用,仅在模型部署应用阶段计费,分为:公有云API计费(按QPS计算)、私有服务器部署计费、设备端离线SDK计算(按装机数量计算)、软硬一体方案计费(整机+算法服务的一整套解决方案,直接卖设备)。大家可以直接参考。
最后,希望看完这篇文章的你对于如何构架一个机器学习平台或者是打造一个B端的产品能有一些启发。
作者:大仙河,7年AI产品相关经验;微信号 :大仙河知识学堂
本文由 @大仙河 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Pexels,基于 CC0 协议