文/智能相对论(aixdlun)
作者/叶远风
AI成了新基建的C位,不论是原本就以AI立身的百度,还是纷纷在技术上加大投入以拥抱新基建的阿里、腾讯等巨头,最近都显出强化AI地位的态势。
在AI新基建浪潮下,其背后的动力和“灵魂”——AI数据行业正在快速增长。按照艾瑞咨询《2019年中国人工智能基础数据服务行业研究报告》,预计2025年市场规模将突破113亿元,其中,原本就在AI技术和应用上领先的企业在数据业务上也更为积极。
有人曾称5G是“新基建”的“基建”,是很多新基建项目的前置技术。事实上,以数据众包为代表的AI数据行业,也可以看作AI新基建的“基建”型业务,为各行各业智能化转型提供动能,加速智能经济到来。反过来,当AI新基建蓬勃兴起时,它背后的数据众包产业也面临急速膨胀的市场,这是一片门槛不算高的蓝海,但并非人人都能做得好。
多重因素推动AI数据需求进一步增长
AI从行业架构上分为基础层、技术层、平台层以及应用层。无论是算力、算法、数据都只是在基础层,海量的数据获取和加工是AI发展的基石。
我们通常看到的那些AI智能化应用,在后端首先都需要足够多、足够好的数据对计算机进行训练。
推动基础层AI数据需求进一步增长,肯定来自于更上层的“倒逼”。总体看来,新基建的大背景下,整体AI行业的高速发展驱动了AI数据需求的增长“提速”,而具体来看,又有三重因素:
1、AI应用落地时对数据的强依赖
以人脸识别为例,一般的FaceID已经为人所熟知,其原理,是通过大量数据训练,让算法可以精准为整张脸标记特征,眼睛、鼻子、嘴、颧骨……从而识别不同的人物、确定身份(图片来源:网络):

但是,实际应用落地要想适用面更广,又会有新的麻烦。
例如,疫情期间戴上了口罩,就没办法为鼻子以下的部位做特征标记进行比对。这时候,AI数据的价值就体现出来了,更复杂、更大量的数据训练,让系统在鼻子以上部位能标记出更多、更细致的特征,半边脸就能完全区别出一个人来,甚至有科技公司开发出凭借眼部复杂特征的识别方式。

只有更高质量、更具有丰富度的数据,训练出更细致的特征标注能力,系统识别的能力才会越强。在人脸识别之外,很多AI落地应用也有类似的逻辑。
2、AI应用场景深耕,垂直领域变为数据竞逐
在AI走得更快、更远的一些场景,数据的价值更为明显。
例如,在自动驾驶领域,决定自动驾驶平稳性和安全性的,是系统对路况各种要素的识别,而它们都依赖于前期大量数据训练,给机器标注各要素、教会它识别。
标注得越精细,机器的理解能力就会越强,发生意外的可能性就越低,就像学生学习知识一样,“不知道”的东西越来越少(图片来源:网络)。

国内处在自动驾驶领先位置的百度,首先领先的就是数据,其ApolloScape数据集比Cityscapes、Kitty等同类的自动驾驶数据集大10倍以上,涵盖更复杂的环境、天气和交通状况。