做数据标注的你,和即将从事这个行业的大家,是不是都有遇到过文件打开是乱码、文件后缀不常见,提示没有应用软件可以打开……一系列的问题呢?
特别是刚进入数据标注这个行业,或者是平时不太玩电脑对计算机了解较浅的小伙伴们,是蒙圈不知道该如何处理,今天呢,咱门就梳理一些关于数据标注文件格式的基础知识,作为新手的你一定要了解一下哟
文件格式
文件格式(或文件类型)是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式。
对于硬盘机或任何电脑存储来说,有效的信息只有0和1两种,所以电脑必须设计有相应的方式进行信息-位元的转换。对于不同的信息有不同的存储格式,文件格式也意味着文件的用途。
我们日常常用的扩展名有哪些呢?
1.办公软件中的Word文件.docx,PPT文件.pptx,Excel文件.xlsx;
2.图形文件多以.png、.jpg、.gif结尾;
3.音乐和视频文件则是.mp3、.mp4、.wav、.wmv;
4.文本.txt;
5.环境下的可执行文件.exe
对于这些扩展名大家习以为常,并不觉得奇怪,那么在数据标注的过程中,我们可能会遇到哪些文件格式呢?
文本标注
通常较为常见的文本标注文件格式是txt、xlsx这个两种格式,具体的要看自己当时做的项目数据方的一个要求,来进行后缀就行了
图像标注
图像标注涉及计算机视觉、机器视觉….等技术,所以格式种类相对更丰富一些,较为常见的有:bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。其中用得最多的就是bmp、jpg、png了
当然标注完之后还是需要根据数据的需求制定特定的数据输出格式,或者某一项标注工具下指定的标注格式,例如下图这几种标注工具,导出的数据格式各有不同
音频标注
无损格式:例如WAV、FLAC、APE、ALAC、CDA
有损格式:例如MP3、AAC、Opus
所以我们在标注的时候使用的原始数据WAV格式也会多一些。其标注的结果文件除了上面通用的标注文件格式外,还有用Praat软件标注的后级名为“”的文件,它是一种“分段”文件,详细记录了语音的总时长、每一个标注层内所有标注区间的时长及标注内容等信息
视频标注
视频数据标注任务的数据结果可包含视频标签的时间位置、空间位置和标签信息等内容。不同标注任务和要求会产出不同的结果,但不影响定义数据格式及其组成部分。
标注文件的输出格式推荐使用易解析、易存储的数据格式, 包括JSON、XML等。
医疗标注
·影像数据(CT/DR)
RAW,裸格式:就是最原始的图像,没有经过任何处理,拍出来是什么样就是什么样;
BMP格式:BMP不压缩,可以任意选择图像灰度深度或图像位数;
DICOM格式:DICOM是一种统一的兼容各种CT,MRI,PET等医学影像的图像存储方式; .dcm文件就是遵循DICOM标注的一种文件。
DICOM标准支持的设备包括心电图、核磁共振成像、心血管、超声心动图等多种医疗社保,因而DCM文件被广泛应用于医疗行业。一张CT片子对应多个.dcm文件:
·病理切片数据
.jpg格式,如果是一张病理切片如果被切分成.jpg格式的图片通常会被切成少则几十张多则几百张的图片
.tif格式:这是一种灵活的位图格式,其数据格式是一种3级体系结构,内部结构可以分为三部分:文件头信息区、标识信息区和图像数据区。
以上就是目前数据标注涉及到的文件格式,即后期AI训练师在数据处理中必须要了解到的基础知识