从大数据的角度分析人工智能的产业价值链及玩家布局

亿欧网 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

【编者按】人工智能必定会让未来更有科技感，然而在算法还不是很成熟的条件下，如何才能将人工智能与应用场景玩出“性感”，这是科技创业公司在摸索的方向。想要借助人工智能的“机械臂”盖出一座令人满意的“房子”，大数据的“砖”少不了。

本文便从大数据的角度看人工智能的价值产业链、持续升温的原因以及玩家布局和玩家应具备的核心能力。

本文首发于大数据杂谈，作者杨慧；由亿欧编辑，供业内人士参考。

人工智能的“ 微笑曲线 ”

在过去一年中，中国大陆在人工智能领域进行了202次投资，共涉及10亿美元（约合68亿元），市场规模庞大。纵览全球，据Venture Capital调查报告，截至2016年11月，全球范围内总计1485家与人工智能技术有关公司的融资总额达到了89亿美元。大量的投资资金涌入人工智能行业，整个行业呈现一种欣欣向荣的景象。

从大数据的角度分析人工智能的产业价值链及玩家布局

图１：全球AI初创企业投资资金（资料来源CB Insights）

重要科技业者施振荣（亿欧注：宏碁集团创始人）曾提出有名的施氏“产业微笑曲线”，这一理论影响了台湾产业的中长期发展。从数据流通的角度看，看似一片繁荣的人工智能产业，也呈现出“微笑曲线”的特性。

一、数据视角下的人工智能行业价值链

从数据流通的角度出发，我们可以将行业价值链分为供给、流通、分析、需求四个环节。人工智能行业价值链也会存在一个微笑曲线：数据交易市场的完善与分析算法的趋同使这两个环节的附加价值不断降低；而数据的供给测与最后的解决方案则会成为附加价值最高处。因此，占据特别的数据来源，将别人无法结构化的数据进行结构化转化，或者发现适合人工智能解决的实际需求并提供解决方案，成为价值最高的环节。

从大数据的角度分析人工智能的产业价值链及玩家布局

图2：人工智能行业价值微笑曲线

亿欧注丨微笑曲线： 有两个要点, 第一个是可以找出附加价值在哪里, 第二个是关于竞争的型态。中间是制造，左边是研发，属于全球性的竞争，右边是营销，主要是当地性的竞争。在产业链中，附加值更多体现在两端，设计和处于中间环节的制造附加值最低。

1、供给环节

供给环节也就是采集数据的环节，是让人工智能所使用的数据进入到流通环节的入口。现阶段数据的供给主要有三种：

1）自筹数据，即从零开始，投入大量资源采集数据。 但是，这需要解决采集什么（要求企业资深对数据有更深的理解）、如何采集（要求企业具备数据采集的能力，包括线上和线下）以及采集以后如何处理（技术平台、指标体系、发布利用等）的问题，有可能需要引入有经验的第三方数据解决方案提供商，比如TalkingData这样已经在金融、地产等领域有深厚积累的企业

2）公共数据。 例如美国、英国、加拿大、新西兰等国家政府都已经有自己的线上数据平台，我国地方政府也在逐步走向开放，比如香港、上海、北京、武汉、无锡、佛山和南海等城市也都已经初步上线了数据平台。

3）产业数据协同，即下游创业公司或行业公司和产业链上游的数据或平台型公司建立合作，连接对双方均有利的产品或数据。 国内有价值的产业数据一般集中在BAT巨头的生态体系中，对外开放度相对有限。企业也可以寻求一些第三方的数据平台公司合作。

简单的结构化数据无法满足人工智能的发展需求，人工智能的应用需要大量能够反映用户信息、行为的非结构化、情景化数据作为支撑，这些数据往往需要通过具有针对性的识别才能转化为后期可利用的数据。

而非结构化数据的识别需要投入大量的研发，这形成了一个较高的技术壁垒， 决定了真正核心、具有高价值的情景化数据最后只会集中在少数企业手中 。对于整个人工智能产业价值链而言，这一部分所能带来的价值无疑是巨大的。

2、流通环节

数据流通的环节也就是数据整合、交易的环节。对于分析层与应用层的人工智能厂商而言，他们不一定会涉及到数据采集的自行采集。此时，直接向拥有数据采集经验的基础层厂商购买数据绝对是最高效易行的方式。

目前国内的数据交易市场发展并不成熟，许多数据交易都是企业之间直接点对点地进行，缺乏一个完善的数据交易市场体系。在未来，无论是大数据还是人工智能，都需要大量的多源化数据作为支撑， 数据交易机制的形成成为一个必然的趋势。

数据交易市场的存在是必不可少的，它是消除交易摩擦、促进市场连接与匹配的重要工具。但从产业价值链的角度出发，数据流通环节并不会参与全新的价值创造，这决定了数据流通环节所带来的产业附加值并不会太高。

3、分析环节

人工智能的分析环节，也就是人工智能利用数据级逆行建模、迭代算法的环节。目前人工智能的算法研究，主要集中于学术科研机构与国际领先的互联网厂商，如 Google 、 Facebook 、微软等企业，这些机构与实验室为前瞻性的理论算法研究做出来不少贡献。此外，在某些具体的行业领域，也会出现一些具有的算法企业，它们的算法更具有针对性。

大型企业的人工智能实验室，逐渐将最新的人工智能算法开源，供全球人工智能研究者共同借鉴和使用。其中的典型案例就是谷歌的DeepMind，所使用的系统正是来自于Facebook。行业内一些创业公司也在加大开源的力度，比如TalkingData在今年也开源了超大规模算法引擎Fregata，能够在10亿样本、1亿维度的数据集上快速训练模型，大大降低数据科学在工程上的门槛和成本。

算法可是算是人工智能的核心引擎， 没有合适的算法，人工智能将无法实现。 算法的开源推动了全球人工智能产业的发展，对于许多相对小型的企业而言，这将成为它们算法的基础。不过，这也意味着，在算法分析层面上，各厂商之间的差距并不会太大。

4、需求环节

需求环节也就是将现实中的需求转化为人工智能需要解决的目标问题集，并概念化成一套亟待解决的方案环节。在需求环节中，往往对应着明确的行业解决方案，而这些方案的结果最终也将以潜移默化的形式出现在具体的日常应用之中。

例如，如果你在Facebook上厌倦了各种晒娃的动态，但你无需命令式地告诉它：“不要再出现这些晒娃照了！”。Facebook可以通过往期的浏览速度、浏览历史等判断你是否对类似内容感兴趣，并在之后逐渐减少相关信息的推送。这一看似简单的功能正是对人工智能应用的典型案例。

但是想实现人工智能的解决方案应用并不容易，问题的发现与解决方案的提出都需要投入大量的人力、物力，但这也是人工智能走出实验室，走向生活应用的关键一步，其产生的价值也是相对较高的，这也意味着对人工智能技术提出了很高的要求。

二、微笑曲线对AI行业的影响

由于这样微笑曲线的存在，未来中国人工智能行业的发展会呈“两化”趋势——生态化和开源化。

1、生态化

为了满足人工智能对数据多源的需求，人工智能公司会倾向于在数据供给和需求两方形成壁垒并打通端到端全价值链，形成生态是必然趋势；中小企业将存活于交易和算法两个环节，依附于大公司的生态。最后会以数据的流通、算法的不断迭代提升为基础，形成端到端的闭环生态。

2、开源化

为了满足人工智能向通用人工智能/强人工智能发展过程中对数据多源性、交叉性的要求，数据生态的开放性将进入一个新的阶段——大规模开源阶段。许多顶尖的技术和算法确实都是免费提供的，并且很容易就能下载。比如，Google、Facebook、微软等巨头都已投入大量资源在支持AI开源社区，同时众多初创企业也在努力参与。

AI开源社区持续升温，原因至少有两点：

首先，AI 公司和组织是由科学家和学术研究推动的，他们自身的理念推崇共享和公开发表自己的研究成果。

第二，开源可以抬高行业的壁垒： 如果大家都认可使用TensorFlow可以做到什么，那么另一家竞争者如果想要取代谷歌的地位，至少需要证明自己也可以提供不逊于TensorFlow的能力。同时开源还会培养数据科学家的忠诚度，因为一旦他们适应了TensorFlow，就会在下意识的把尽可能多的工作都建立在TensorFlow之上——这就挤占了别的开放平台的生存空间。

Bostrom在2016年的一篇文章中说过，短期内，更高的开放度可能会加速AI的普及。软件和知识都是非竞争性商品，这也会让更多的人使用它。人们可以用最低的成本在此前顶级的应用和技术基础之上进行开发，或者修正bugs。对于大公司来说，这也是塑造品牌的一个良机。

目前的人工智能行业依旧处于初创期的混战状态，大多数企业的业务内容差异性并不明显，市场格局尚不稳定。但随着市场的成熟，在价值链“微笑曲线”的驱动下，由数据所连通的AI产业将会向生态化的方向发展。在市场竞争稳定之前，如何选择合理的企业定位，规划自己的企业发展路径将成为每个企业必须要慎重考虑的事情。

三、数据视角下的AI产业布局与玩家分类

2006年，“深度学习”神经网络的出现，使人工智能的发展又迎来了一个小高潮。越来越多的学术界研究者步入工业界，又为人工智能的应用发展增加了强劲的动力。图像识别、语音识别、语意转换、姿态识别……人工智能在各个领域的识别应用令人眼花缭乱，不知如何区分。就在你为各个领域划分而感到困扰时，不妨换个思路， 从数据的角度去审视人工智能的各个层次， 这是因为，无论是哪个领域的人工智能，都离不开数据的训练。

如果将这些人工智能相关的技术如果按照数据处理和应用的生命周期来划分，可以归结成 三大类人工智能技术： 基础类人工智能技术、分析类人工智能技术、应用类人工智能技术。 如果将这三类技术作为纵坐标，以行业垂直领域作为横坐标，可以将现在 国内的人工智能竞争领域 划分成如下的一个行业结构图：

从大数据的角度分析人工智能的产业价值链及玩家布局

图1：数据视角下人工智能行业布局示意图（资料来源TalkingData）

1、数据视角下的AI技术划分

AI技术的发展离不开硬件设备的支持，硬件支持构成了人工智能发展的基础。在人工智能的整个应用过程中，数据贯穿始终。根据数据生命周期，在数据的生命历程的各个环节——收集、链接、准备，认知、分析，预测——都会有不同的企业进行分工。

有些企业能够打通数据上周期的多个环节，形成端到端的交付能力。按照对数据的利用程度不同，我们可以将人工智能大致划分为三个阶段，基础搜集阶段、数据分析阶段与具体应用阶段。目前有些企业是深耕于某一具体层面，而有些企业则是打通数据利用上下游，形成完整的产业链。

按照人工智能对数据的利用程度，我们大致可以将其划分为三个层次：基础层、分析层与应用层。

从大数据的角度分析人工智能的产业价值链及玩家布局

图2：纵向角度人工智能产业分布（资料来源TalkingData）

1）基础层。 人工智能的基础层，主要从事的是搜集数据，并将自然语言、图片、视频等非结构化信息转化为结构化的可用于分析的信息。这些内容看上去相对简单，与人们印象中通用的人工智能相差甚远。但事实上，正是这些看似简单的部分，构成了人工智能的基础。基础层的发展，推动了人类对于非结构化数据的处理，这将丰富后期人工智能应用的进行。

2）分析层。 分析层主要是利用基础层已经获得的数据，利用算法对其进行分析。在具体的分析过程中，往往会根据领域的不同和数据的差异化，选择合适的算法。然后不断对算法进行优化，以得到更好的分析洞察。目前以谷歌为首的人工智能领先企业在逐渐将算法开源，这在一定程度上拉动了整个算法领域的发展，推动着人工智能的进步。

3）应用层。 应用层主要是将人工智能应用于特定领域，例如医疗、金融、自动驾驶等。这部分企业往往提供最终的、可实际操作的人工智能产品。相对于基础层与分析层，应用层的企业往往涉及的领域层次会更广，或多或少会利用到具体的算法分析。

2、企业玩家分类及各自的速赢策略

在前文提到的在行业布局中，由于不同的人工智能企业在纵向上打通的程度不同，横向覆盖的行业范围也不同，总体上来说，我们可以将现有市场上的人工智能企业分为五种类型的玩家：

1）硬件驱动者： 这类企业的核心优势是硬件集成性、计算能力以及一体化能力。GPU虽然最初是为了提高计算机图像渲染效率而生，但因为具有很强的并行计算的能力，所以也大量应用于深度学习，为深度学习提供了硬件支撑。为了在市场上占有一席之地，各大硬件厂商争相推出定位在机器学习的硬件设备，在GPU芯片方面，Nvida很早就开始布局，推出了很多款不同配置的GPU芯片，占领低中高端市场，并专门为深度学习推出了GeForce 1080P和Tesla K40和K80。尤其是GeForce 1080P，具有极高的性价比，一经推出，一卡难求。

Intel也不甘人后，推出了适合深度学习的大规模参数服务器。Google有深度学习的一体机，并计划开放云端的计算资源。Amazon也专门在AWS上面推出了配置GPU硬件的主机，供数据科学从业人员使用。

2）入口占有者： 入口占有者，也就是把握住数据供给和需求端口的企业。这类企业的核心优势是数据和需求的洞察和采集。一般行业的数据都有较强的行业特点，但是会遇到数据类型单一的挑战，提升数据价值会有一定难度，必须引入外部数据源来补充数据维度，于是产生了对数据供应商的需求。

一些企业针对这种情况，着眼于对数据的汇聚、治理和增值，开始构建数据市场，打通自己的数据和第三方数据，逐步提高数据价值，并累积属于自己的数据资产。当这部分数据资产积累到一定程度，会形成壁垒，掌握上下游玩家的数据流向。

3）算法服务提供者： 算法提供者是指拥有较强的算法能力并能够以服务方式提供的企业。这类企业的核心优势是算法的可复制性、可扩展性和研发迭代的速度。由于开源社区的活跃，很多开源算法包已经能够满足用户的需求，算法本身已经无法形成足够的壁垒。

比如，在数据量很大的情况下，可以用TalkingData大规模机器学习算法包Fregata，小数据量的时候可以用基于Python的Sklearn或基于Java的Weka等。在深度学习方面，Facebook开源了Caffe，Google开源了TensorFlow，百度开源了Paddle……这些框架都具有相当的成熟度，用它们能够很快搭建深度学习模型。

但是开源算法有时候并不能完全匹配使用场景，所以又出现一些企业能提供更加专业的算法模型训练的服务，以帮助客户规避模型训练带来的风险和成本，比如Explosion就为客户提供类似的服务，甚至如果客户对模型结果不满意，就不收费。

这类公司拥有专业的数学和工程方面的人才，通常对某些问题有自己的专业解决方案，在算法的优化和模型的训练上面积累了大量的经验，从而能够提供高效优质的服务。由于算法科学方面人才的紧缺，也出现了一些算法服务平台，算法科学家可以把算法代码托管到平台上，使用者按照某种模式（比如，调用次数）付费。

4）垂直领域玩家： 垂直领域玩家是指在探索数据在垂直行业的智能化应用的企业。这类企业的核心优势是对于该垂直领域需求的深耕和闭环的运营。在探寻智能行业应用的过程中，通常以自身行业应用场景和需求为出发点，围绕新兴数据的生命全周期，快速构建“数据平台层、数据分析层、数据应用层”的智能化应用建设体系，挖掘出契合、提升自身业务体系效率或模式的数据智能化应用，实现行业产能的提升。

以医疗科技公司Lifegraph开发的移动健康产品为例，智能可穿戴设备为实时采集用户健康信息提供了可能（基础层）。Lifegraph围绕医疗专家智库建立智能化情感与健康识别模型（分析层），帮助医师与病患家属实时交流病患健康信息（应用层），保障病患异常信息被有效监测，从而降低病患事故发生的概率。

传感器技术的发展，为Lifegraph拓展了数据维度；通过与专业医疗机构的合作，快速定位移动医疗健康产业需求，并获取专家知识能力，开发垂直领域数据产品，形成行业竞争优势。其他垂直领域案例还包括Tele-Lauguage的医疗智能代理语音治疗，Mapquest的智能交通规划，K-12的教育辅助机器人，蚂蚁金服的芝麻信用，今日头条等等。

5）生态领域玩家： 生态领域玩家是指能够建立起跨行业、跨业态、贯穿数据生命周期的数据平台、分析平台以及应用平台的智能数据科技企业。这类企业通常具备极强的平台技术能力，通过平台向合作伙伴提供数据整合、分析和算法能力，并最终在平台上实现横向差异化、纵向专业一体化的数据应用服务能力。

为了快速建立行业壁垒、形成竞争优势，生态领域玩家必须具备至少三种核心能力：

▶ 具备较强的数据平台与自有数据优势，支撑生态合作伙伴的数据整合，帮助生态上的合作伙伴的数据交换与整合，加速完整的数据视图的构建，实现各种场景化数据的有效支撑。

▶ 具备较强自有数据科学优势，与合作伙伴进行能力互补，依托合作伙伴垂直领域的专业性，快速构建行业智能数据分析能力，实现对多维度数据的钻取，加速从数据到数据价值挖掘的进程。

▶ 具备较强的客户渠道优势或品牌优势，以合作伙伴为应用验证场景，加速垂直领域智能数据应用的形成，快速复制并输出。

比如， Google生态中的Niantic Labs与任天堂在数据与技术上紧密合作，最终推出了风靡全球的游戏Pokemon Go（精灵宝可梦）。百度生态中的百度联盟以平台为支撑，与广告生态商进行数据合作，最后形成国内最大的网盟之一。苹果移动设备的功能生态与IBM达成合作，通过IBM的集客资源与大数据能力，打造更加垂直的商业应功能。

数据贯穿了人工智能的始终， 虽然不同层级和领域的企业对数据的应用程度和应用方式各不相同，但是对数据数量和质量上的要求是相同的。许多学术界学者开始进入工业界的一大原因，就是因为工业界拥有大量、一手的数据——这是人工智能发展必不可少的动力与燃料。

李开复曾提到，人工智能更适用于拥有大数据基础，且数据量可以实现自我推动的公司，所以， 在加入人工智能领域的竞争之前，不妨先看看自己的数据准备是否充分。