天下赢家资讯看点:NLP到了“数据为王”的时代
2020-07-10 07:37 / 作者:复古传奇 / 分类:游戏新闻[ 天下赢家导读 ] 天下赢家财经网-NLP数据产业正处在蓝海,一个不会由巨头坐庄的蓝海。
天下赢家资讯看点了解到工作人员齐整坐好,每个人都对着电脑全神贯注,一件又一件的“东西”在眼前划过,经过标准化处理就转到下一流程……这实际上是人工智能行业里的数据标注办公区一角。
由于深度学习的研究方向,人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。
很长一段时间以来,在过往AI的发展中数据的采集与标注行业没有过多地被关注,毕竟,与算法、算力这些高大上的东西相比,AI数据的生产总带着那么几分与AI技术的“科技感”截然不同的形象。
然而,随着AI的发展走向纵深,更多人发现这是一个误解,AI数据产业正在向着高专业化、高质量化的方向蓬勃发展。
根据2018年智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》,2018年该行业市场规模已达到52.55亿元,2020年市场规模有望突破百亿。有行业人士估计AI项目中会有10%的资金用于数据的采集和标记,2020年,数据标注行业最终市场规模将达到150亿。
而分享市场的,既有BAT、京东等互联网巨头,也有云测数据这种专注于高质量交付的专业化数据平台。
庞大的前景下,数据采集与标注也可以分NLP(自然语音处理)、CV(计算机视觉)等几个部分,随着数据需求量的增大、对数据质量要求的提高,其中的NLP越来越成为“硬骨头”,AI数据产业终将面临它带来的难题,也承袭这种难题下空出的市场空间。
AI的数据、算法和算力“轮流坐庄”,NLP到了“数据为王”的时代
芯片制程以及大规模并联计算技术的发展,使得算力快速提升后,AI能力的提升主要集中到了算法和数据上(算力提升当然还有价值,只是相对价值那么明显了,例如不可能对一个物联网终端设备有太多的算力设定要求)。
这方面,多年以来,人工智能技术都呈现“轮流坐庄”的螺旋提升关系:
算法突破后,可容纳的数据计算量往往变得很大,所以会迎来一波数据需求的高潮;而当AI数据通过某些方式达到一个新的程度时,原来的算法又“不够了”,需要提升。
2018年11月,Google AI团队推出划时代的BERT模型,在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步,地位类似于更早期出现的Resnet相对于CV的价值。
以BERT为主的算法体系开始在AI领域大放异彩,从那时起,数据的重要性排在了NLP的首位。
加上两个方面的因素,这等于把NLP数据采集与标注推到了更有挑战的位置上。
一个因素,是NLP本身相对CV在AI数据方面的要求就更复杂。
CV是“感知型”AI,在数据方面有Ground Truth(近似理解为标准答案),例如在一个图片中,车、人、车道线等是什么就是什么,在采集和标注时很难出现“感知错误”(图片来源:云测数据)
而NLP是“认知”型AI,依赖人的理解不同产生不同的意义,表达出各种需要揣测的意图,Ground Truth是主观的。
例如,“这房间就是个烤箱”可能是说房间的布局不好,但更有可能说的是里边太热。人类语言更富魅力的“言有尽而意无穷”的特点,应用于AI时,需要被多方位、深度探索。
另一个因素,是AI数据的价值整体上由“饲料”到“奶粉”,对NLP而言这更有挑战。
大部分算法在拥有足够多常规标注数据的情况下,能够将识别准确率提升到95%,而商业化落地的需求现在显然不止于此,精细化、场景化、高质量的数据成为关键点,从95% 再提升到99% 甚至99.9%需要大量高质量的标注数据,它们成为制约模型和算法突破瓶颈的关键指标。
但是,正如云测数据总经理贾宇航所言,“图像采标有很强的规则性,按照规范化的指导文档工作即可,但NLP数据对应的是语言的丰富性,需要结合上下文等背景去理解和处理。”在高位提升这件事上,NLP数据更难。
例如,在订机票这个看似简单的AI对话场景中,想订票的人会有多种表达,“有去上海的航班么”,“要出差,帮我查下机票”,“查下航班,下周二出发去上海”……自然语言有无穷多的组合表现出这个意图,AI要“认得”它们,就需要大量高质量的数据的训练。
由此,我们再来理解商业机会。
数据采集与标注的公司有很多,从巨头的“副业”到AI数据专业化平台,总体而言主要玩家如图所示:
除此之外,更多中小玩家甚至几十人的草台班子数不胜数。在中国,目前全国从事数据标注业务的公司约有几百家,全职的数据标注从业者有约20万人,兼职数据标注从业者有约100万人。
易入门、难精通,而上述两大因素决定NLP数据面临巨大的挑战,做得好的就更少。
在数据“坐庄”NLP的大背景下,空出了大量的商业机会,而客观上的高要求阻却了大量低门槛入场的玩家,NLP数据相对于CV更像一个蓝海。
打破单纯“体力活”标签,NLP数据采集与标注从四个方面自我演进
有机会就总有人会进场,不久前,中国人工智能高峰论发布了中国人工智能科技服务商50强,既有商汤、旷视这种明星企业,也出现了榜单内唯一的AI数据服务商云测数据,这显示AI数据正在进入“主流圈”,在蓝海中尝试跑出独角兽企业。
当然,前提是平台能够解决好NLP数据的痛点问题。
事实上,CV的“感知”需求使得“体力活”可能就能够胜任大多数据生产工作(谁不认识一辆车、一个人呢),而“认知”的NLP数据要突围,只是“体力活”早已经不够。
至少目前来看,行业玩家在四个方面有所动作,或正在解决NLP数据痛点问题。
1、业务模式,用“定制化”迎合商业落地期的NLP
曾有媒体向Google工程师提起M-Turk的时候,他表示“我们不敢用Turk标注”,因为回收的数据良莠不齐。