一个办公室,几台电脑,十几个人,似乎就可以组建一个数据标注团队,但从人工智能企业的角度来看,选择数据供应商应当是项目经验丰富的,稳定的,性价比高的合作伙伴,无组织的标注团队会因价格优势在市场获得一定份额,随着越来越高的标注精度要求和越来越快的响应速度要求,粗放的管理方式和单一的标注工序已越来越跟不上市场的脚步。
数据服务商的核心竞争力到底是什么?
景联文科技CEO郑晓薇给出的答案是:成熟的自研数据标注平台,用工具进行预先标注,人工干预进入修改,提高标注效率,用最快的速度交付合格的数据给客户。
标注平台对于AI训练数据标注准确度的提升有重要意义。
一.标注操作台:集成众多高效的标注工具
景联文标注平台支持图像类,语音类,文本类,视频类,3D点云类等多类型数据标注。
具体功能:
图像类可实现基础的点,线,框标注,语义分割,实例分割等;
文本类支持实体提取,文章理解;
语音类支持语音切割,语音转写;
视频类支持视频审核,事件提取;
3D点云类支持3D语义分割,点云连续帧标注。
其中2D图像标注可以实现部分预标注功能,标注员只需对AI标注的数据检查调整即可提交进入审核。从人工标注训练AI模型,到AI代替一部分人工标注,预标注的应用前景十分广阔,推动着整个标注行业优化升级。
同时支持标注工具的定制开发,可灵活满足不同的标注需求,配合客户进行数据处理落地。
图片来源作者
二.项目管理平台:可视化管理助推产能提升
项目管理平台,具体的执行步骤是新建项目—执行标注—全量质检—部分抽检—验收数据,其中新建项目由项目经理通过公司内部竞标后创建,按流程配置工具,上传数据,分发任务。
数据在线可以实时流转,标注,审核过程透明且有记录可循,减少内部沟通成本,项目经理通过可视化面板把控标注进度,能够及时调整标注方案,做好逾期风险管控。
在绩效管理模块,团队绩效和个人绩效均自动化生成,配合公司的绩效奖励制度,既方便统一管理,也使标注员保持高度专注的作业状态,相比传统管理,产能得到极为明显的提升。
图片来源作者
该标注平台上线以来,平均交付速度超过传统模式50%以上,为客户提供更高质量更低成本的AI训练数据,更好的服务人工智能数据处理需求。
未来,景联文数据标注平台将提高执行系统平台的流程化协作能力,准确地把控从创建任务、分配任务、标注流转到质检/抽检等环节,保障标注数据精度提升。
新基建浪潮之下,各行各业都在积极拥抱AI,进行智能化转型,以“AI+”为核心的科技策略,正在推动社会形态、经济结构不断发生变化。随着AI技术的进一步发展,传统家居、安防、驾驶、教育、商业、城市管理……都将被颠覆。
而在这一过程中,数据作为驱动AI向前快速飞奔的“燃料”,重要性日渐凸显,大量的数据采集标注需求涌向市场。据艾瑞咨询《2020年中国人工智能基础数据服务白皮书》预测:到2025年,AI基础数据服务市场规模将突破100亿元。
在市场规模迅速扩大的同时,市场对数据的需求也在发生变化。
AI数据产业正在迎来变革
AI作为一项前沿应用技术,受到社会各界的广泛关注,经过多年发展,如今AI面临着一个现实而又紧迫的挑战——商业化落地。
为了加快落地进程,AI算法企业需要解决两个问题,一是提升算法的精确度,以保证在市场中的领军性;二是保障算法模型稳定度,从而实现在各类场景中的适用性。
而解决这两个现实问题的最简单办法就是——数据,大量、高质量、场景化的数据。
图片来源作者
目前,AI数据生产主要依赖于市场上林林总总的AI数据服务企业、外包团队以及兼职个人,由于市场需求量大、准入门槛低,行业整体处于野蛮生长状态,从拼人力逐渐过渡到了拼价格,但本质上数据质量却没有明显提升。
在中国信息通信研究院发布《人工智能发展白皮书(2018年)》中也曾提到了“在数据层面,主要存在流通不畅、数据质量良莠不齐和关键数据集缺失等问题。尤其是数据标注主要通过外包形式,劳动力水平决定了产出的标注数据质量。”
而随着AI的落地,对数据质量要求的逐渐提高,AI数据产业也正在迎来变革,原本粗放式的数据生产模式已经逐渐式微,景联文科技这类AI品牌数据服务商开始兴起。
自建标注团队是行业发展必然
纵观市场,AI数据生产主要有转包模式、众包模式、自建团队模式三类。
早期众包模式凭借着低廉的价格、大规模的人力资源从而占据着市场,但随着行业发展,众包模式的弊端初显:直接和标注团队对接,非常考验需求方项目管理能力,并且由于标注人员素质等原因,无法执行复杂任务。
图片来源作者
在众包模式不能满足市场的背景下,转包模式出现了。转包模式是由具备行业经验的数据供应商承接项目,再将项目拆分转包给标注团队或个人执行,数据供应商扮演的是一个沟通管理的角色,通过协调需求方以及标注团队,共同完成项目。
但转包模式也并非没有缺陷,由于供应商没有自己的采集标注团队,就容易出现层层转包情况,数据倒手数次,安全性无法保证。
对于科技企业而言,数据意味着未来,数据隐私和安全是科技公司做决策首要前提,因此,也有部分数据供应商投入大量资金、人力组建自有标注团队,并提供驻场、第三方部署等业务方案,解决了客户后顾之忧。
景联文科技CEO郑晓薇解释道:“传统AI数据生产,无论是转包还是众包,本质上都是一种轻资产模式,这样的优点是前期投入成本低,周转率快,但弊端也就是对交付数据质量和服务态度难以把控。AI大规模落地在即,未来行业对数据的需求将从量转向质的层面,因此,自建团队模式是行业发展的必然。”
景联文科技:自建标注团队,生产高质量AI数据
景联文作为市场上最早一批自建标注团队的AI数据服务商,在业务开展之初,就砸下重金组建项目团队,确保服务流程的规范与高效。
经过多年沉淀,目前景联文在全国范围内拥有5个标注基地,220名全职人工智能训练师;上线了自有标注平台,涵盖了绝大多数主流标注工具,支持语义分割、拉框标注、多边形标注、关键点标注、3D点云、2D3D融合标注、图片分类、声纹识别、ASR转写、韵律标注、NLP、文本分类、OCR转写、情绪判断等多种标注业务;提供企业私有化部署、跨地区作业等定制服务。
谈及自建标注团队的初衷,郑晓薇表示:“早期景联文专注于指纹防伪算法,随着业务的推进,公司有大批量指纹采集需求。考虑到指纹采集工作涉及到公众隐私,因此公司决定内部培养专业团队执行。”
图片来源作者
一次偶然的机会,某科技大厂客户在参观了景联文数据基地后,希望景联文代为标注一批保密数据,由此景联文正式踏入了AI基础数据市场。短时间内,景联文凭借着多年处理敏感数据的经验,以及长期深耕To B市场的流程管理经验积累,在行业迅速站稳脚跟。
截至目前,景联文科技已与阿里巴巴、华为、vivo、美团、字节跳动、滴滴、陌陌、海康威视、大华、宇视、同济大学、中国人民大学、工信部中国电子技术标准化研究院、公安部一所等多家企业、机构达成深入合作。
景联文科技立足行业、放眼未来,从工具到团队管理,全方位构建完整业务生态。在AI数据服务这条赛道上,景联文还将继续前进,为AI落地提供高质量、场景化的数据支持。