ai标注工具 AI标注神器 X-AnyLabeling-v2.3.0 发布！

默认分类1年前 (2024)发布 admin

3,550 0 0

导读

今天主要为大家详细介绍 X- v2.3.0 版本近期更新的一些功能和新特性，同时也借此机会分享下这半年多下来的开源心路历程。

首先，提到图像标注软件，可能许多从事计算机视觉相关领域的研究人员及从业者脑海中第一印象便会想到由MIT开源的主流标注软件：，又或者是和CVAT等耳熟能详的主流标定软件。可能细心的读者会像，既然有了这么成熟的工具，那花那么多精力重新设计和开发这样一款软件的意义是什么呢？

我的答案最早也是：Yes。在设计X-之前，包括笔者本人我也是基本在通过上述几款主流工具来解决日常的业务需求。这最开始也跟笔者从事的岗位性质有关，作为一名算法工程师，可能大家都或多或少能体会到，其实工作时间大部分时间是在与数据打交道；哪怕在以及AIGC发展如火如荼的今天，如何快速构建高质量的数据仍然是主旋律。在大多数场景下，数据的质量远比数量要来得重要，相信在一线的从业人员对这点会深有体会。这一点其实跟我们在学校做研究的方式不同；学术届更多地的是提出一个idea，然后在公认的数据集上刷榜，大多数时候都是在过拟合数据分布，往往也经受不住实际应用的推敲。

一开始，笔者的工作更多地是围绕在目标检测业务上，这其实用CVAT，甚至是便已经能够应付了。后来，随着业务的多元化导致各类需求逐渐增多，但本质上还是围绕一个核心——数据，毕竟对于落地的算法其实更讲究的是稳定性，再有便是搭配一些上下游去做整体的逻辑应用，几乎很少会频繁的更换算法模型或者去尝试多如牛毛的SOTA模型。为此，我们会面临几个问题：

数据的多样性

众所周知，不同的任务其对应的数据输出形式各有不同。举个例子：

放在以往，大家可能更多地会针对特定的场景挑选合适的工具去完成相应地标定任务，例如：

可想而知，我们需要耗费更多地精力去完成这些工作，因为每一款工具的使用都有一定的学习使用成本；

工具的易用性

针对第1点，有同学提过可以使用由 Intel 公司开发的开源工具——CVAT；当然，不得不承认，CVAT工具是一款极其优秀的大型标定软件，毫不夸张地说，市面上几乎所有的标注行业相关公司开发的所谓内部或者云平台标注工具，都是基于此原型进行二次设计和开（包）发（装）的。然而，对于绝大多数用户而言，面对这样一款“庞然大物”，会遇到几个问题：

因此，我们更多地是需要一款小巧方便，最好是能开箱即用，同时也支持高度定制化的标定工具；

功能的多样性

除了上述两点，我先前提到的最为关键的一点是，我们需要思考如何更高效、更快速地建立整个数据标定流程。我们有幸身处于这个人工智能大爆发的时代，当今涌现出了许多新技术，其中一些值得一提：

例如，Meta公司开源的SAM是一项令人振奋的技术，用户只需简单点击感兴趣的目标，即可快速、准确地获取精细的掩膜。另外，公司也为我们带来了等创新技术，除了可以用人类自然对话的方式来获得逼真拟人化的互动，还可以用于甚为复杂的工具，如自动摘要提取、文本创作、代码编写等。最后，还有发展迅猛的多模态技术，可以帮助人们完成诸如文生成图、图生成文、图文-语音交互以及以文本或图像驱动（-based）等创新应用。这些多模态技术的崛起不仅为各个领域的人工智能应用带来了更广泛的可能性，也推动了不同模态之间更深层次的融合。

为此，我们是不是可以考虑结合以上技术来构建更加强大、高效、快捷的标定流程呢？何乐而不为！以上便是笔者设计此款软件的初衷和动机，希望能与大家共勉。目前该工具已完全开源，遵循 GPL 协议，感兴趣的小伙伴可以通过下方链接访问，顺手点一个Star给予支持：

项目链接：//X-/tree/mainX-

总的来说，X-从设计和开发之初便有了明确的目标和动机，即要创建一个既能满足多样性需求，又具备易用性，同时包含多样功能且支持高度定制化的图像标注软件。值得一提的是，为了最大程度地减轻大家的使用成本，X- 目前在设计交互的时候会尽可能地与主流标注工具（如、、、以及CVAT等）保持对齐，最大限度提升用户的标注效率和使用体验。同时，目前该工具已基本涵盖了市面上所有主流工具的大部分功能，做到真正的 All in one!

下面简单介绍最新 v2.3.0 版本相较于 v2.0.0 版本引入的一些新特性：

亮点功能支持图像和视频导入功能

除了支持图像级的标注功能外，X-还引入了对视频的全面支持，实现了一键解析和自动标注。为了更好地满足用户对视频文件标注的需求，当前集成了经典的和最新的OC-Sort（CVPR 2023）等先进的跟踪算法。因此，无论是处理图像还是视频，X-致力于提供全面而高效的标注解决方案，以满足不同场景下的标注需求。

支持一键导入/导出功能

当前，X- 工具箱中还提供了一键导入/导出的便捷功能，支持多种主流数据标注格式，包括：

因此，无论您是与其它工具协同工作，还是应用到不同的深度学习框架中进行训练，X- 都旨在提供广泛的输出选项，确保用户能够灵活地集成标注结果到其工作流程中。

↔ YOLO ↔ mask

通过直接加载上述导出的标签，我们可以快速导入到 YOLO 框架进行训练：

GT vs. 支持多硬件环境和跨平台应用

X- 支持在不同硬件环境下运行。除了常规的 CPU 推理外，还引入了 GPU 加速推理支持，当前推理后端仅支持，后续会逐步考虑添加和等后端支持。此外，该工具具备多平台兼容性，能够在、Linux 和 MacOS 等不同操作系统环境下流畅运行。不仅如此，X- 还提供了一键编译脚本，赋予用户根据其具体需求自行编译系统的能力，使用户能够随时随地轻松地分发应用，为其提供更加灵活的定制和部署体验，进一步简化工具的安装过程。

支持单帧和批量预测

X- 中提供了灵活的标注方式，支持单帧预测和一键处理所有图像。用户可以选择逐帧标注，以更加精细地处理每一张图像，也可以通过一键处理所有图像来快速完成整个数据集的标注。

支持多种标注模式

为最大限度满足用户的各式需求，X- 中提供了多样化的图像标注功能，包括多边形、矩形、旋转框、圆形、线条、关键点等基本标注形状。此外，工具还支持文本检测和识别，使用户能够方便地标注图像中的文字信息。更进一步，X-还引入了 KIE（Key ）标注，帮助用户标注并提取关键信息，以满足更复杂场景下的标注需求。

Tip: 旋转框还支持实时显示旋转角哦！支持多种SOTA深度学习算法

更进一步地，X- 中内置了多种先进的深度学习算法，包括但不仅限于经典的目标检测算法如 YOLO 系列以及最热门的 SAM 系列等算法，目前仍在不断扩充中。

不仅如此，X- 还支持导入用户自定义的模型，这一特性使其真正成为一个具备广泛适用性和高度可定制性的标注工具，满足用户的不同需求。

提供详细的帮助文档和完善的社区支持

ai标注工具 AI标注神器 X-AnyLabeling-v2.3.0 发布！

为了确保用户能够充分利用 X- 的功能，提供了全面而详细的帮助文档。这些文档包含详细的使用说明、标注步骤、功能解释以及常见问题解答，旨在为用户提供清晰、易懂的指导，使其能够顺利地使用工具完成标注任务。

除此之外，仍积极维护和支持开发者社区，致力于建立一个互助互学的平台。在这个社区中，用户可以分享经验、提出问题、交流想法，得到来自开发人员的支持和解答（初步估计，目前X-的bug修复率以及功能支持率高达95%+，基本做到有问必答，有bug必解！）。通过建立积极的开发者社区，小编一直希望能为用户提供更加全面、实时的支持，以确保大家在使用 X- 时能够获得最佳的体验和帮助，同时也欢迎大家积极提PR。

SOTA 算法库

详情可参考[模型列表] (//X-/blob/main/docs/zh_cn/.md)，其中所有模型权重文件均提供百度网盘和链接两种方式。

– LLM

作为 v2.0.0 版本的主打功能，X- 正式实现了从闭集到开集的重大突破。首次推出的功能基于 -DINO、-SAM 等模型。其中，-DINO 是 IDEA 最新开源的零样本目标检测模型，通过任意文本驱动，能够根据用户提供的文字描述来检测图像中指定的目标。

以检测大熊猫为例，检测结果显示模型几乎完美地定位了图像中的每个目标（panda），当然，结果也受到用户给定的文本提示词（）的影响，例如将提示词从更改为 panda 可能导致检测结果的变化。

为了实现真正的全自动标注，推荐大家体验最新部署的 -SAM。通过结合 X- 工具中独家提供的一键运行组件和导出功能设置，用户可以高效地进行零样本检测和分割，轻松获取适用于各大主流训练框架的标签文件。

此外，尽管对于一些非通用目标定义仍然存在一些局限性，但通过亲自上手体验，可以更好地理解和掌握系统的运作方式。X- 的持续优化和创新为用户提供了更广泛、更灵活的标注解决方案。

Image

图像字幕生成是一项融合了计算机视觉（CV）和自然语言处理（NLP）的复杂任务，其目标是使计算机能够以自然语言自动生成对图像内容的详尽描述。具体而言，系统接收一张图像作为输入，通过 RAM 模型的强势植入，实现了自动生成生动而详实的文本描述。该描述旨在生动展现图像中的主要场景、对象及它们之间的关系，从而帮助人们更深入理解图像。

, RAM 是专用于图像标记的识别一切模型，与 SAM 类似，作为基础模型，它具备卓越的识别能力，在准确性和识别种类方面均超越了 BLIP 等当前领先的模型。最新版本的 X- 引入了 RAM 模型，并成功集成了该项图像字幕生成功能。

除了图像级别的描述之外，X- 还引入了-level的图像描述功能，从而大幅丰富了系统的功能。这意味着系统不仅能够在整体上描述图像，还能够深入到图像中的各个对象层面，为用户提供更为细致和全面的信息。

Image

当前最新版本支持、-cls、-cls以及最新的模型。

Multi-Label

为满足广大粉丝的需求，X- v2 版本引入了全新的多标签属性标注功能。首次推出的功能包括基于百度飞浆开源的 PULC 中的车辆属性（）和行人属性（）模型。整体的用户界面（UI）设计以及标注范式遵循 CVAT 开源工具箱的标准，为用户提供更加一致和友好的体验。现在，您可以尽情体验这一全新的标注功能！

X- 目前提供基于 Box，HBB即水平目标框（如////yolox////等YOLO全系列产品）以及基于 Box，OBB即有向目标框（如.0/1.5/2.0以及数据集训练的和）的检测模型。

当然，你也可以替换为自定义模型。此外，为了提升小目标检出能力，X- 中还集成了 SAHI 工具，支持切片推理，一键提升小目标检测性能：

不仅如此，-by- 同样也提供，支持对检测后的结果进行二次分类，提供更细粒度的识别结果！例如这里可以将原本是 bird 的类别进一步更正为，即山雀：

Multi–

目前，X- 已经内置了两种先进的多目标跟踪（MOT）算法，分别是经典的和最新的 OC-Sort（CVPR 2023）。默认情况下，检测器使用，当然，用户也可以根据个人偏好将其设置为其他先进的检测和跟踪模型。

关键点检测部分主要包括人脸关键点回归（）和全身人体姿态估计（Pose ）两个关键领域。在这方面，FLD 的一期规划已经植入了美团的 -face 模型。

此外，姿态估计方面当前适配了面向产业界应用的 -Pose 模型和高精度的 DW-Pose 两阶段检测模型：

Lane

ai标注工具 AI标注神器 X-AnyLabeling-v2.3.0 发布！

基于Line模式，X- 中集成了 – (CVPR 2022) 模型供大家快速体验:

OCR（光学字符识别）是一种通过使用机器学习和模式识别等方法自动识别图像中的文字并提取为可编辑的文本，方便后续处理、搜索和编辑。文本标签是许多标注项目中的一项常见任务，但遗憾的是在和等工具中仍然没有得到很好的支持，X- 中完美支持了这一项新功能。考虑到效率问题，目前工具内提供了基于最新开源的 PP-OCRv4 轻量化模型，支持中英文、多语种文本：

图像文本标签：用户可以切换到编辑模式并更新图像的文本——可以是图像名称或图像描述。文本检测标签：当用户创建新对象并切换到编辑模式时，可以更新对象的文本。文本分组：想象一下，当使用 KIE（键信息提取）时，需要将文本分组到不同的字段中，包含标题和值。在这种情况下，你可以使用文本分组功能。当创建一个新对象时，我们同样可以通过选择它们并按G将其与其他对象组合在一起。分组的对象将用相同的颜色标记。当然，也可以按快捷键U取消组合。

注：标注的文本和分组信息将与其他标注保存在同一个 JSON 文件中。文本将保存在text对象的字段中，组信息将保存在字段中。

目前 X- 工具中提供的实例分割模型主要有两种范式，一种是常规的分割模型，如-seg和-seg：

另外一种是基于-范式，如SAM//-SAM/HQ-SAM/-SAM等：

更进一步地，针对医学图像场景，X-中同样提供了多种基于 SAM 微调的高精度模型，包括:

最后，工具内还内置了 -SAM 及 – 模型，可以为原始的分割模型提供更加精细化的分割结果！

推理架构

X- 中的模型推理架构如下图所示：

其中，是推理 SAM 系列模型推理功能所需的核心部件。绘图区域是由类处理，而则作为自动标记功能和的主要部件用于管理和运行 AI 模型。

优化点：因为的计算是需要时间的，所以我们可以把结果缓存起来，也可以对在以后的图片上做预计算。这将减少用户等待编码器运行的时间。对于缓存，添加了一个 LRU 缓存来保存编码器的结果。图像保存在缓存中，键是标签路径。当缓存中存在图像嵌入时，不会再次运行编码器，这样可以节省很多时间。缓存大小默认为 10 张图像。对于预计算，创建一个线程来为下一个图像运行编码器。当加载新图像时，它将和下一张图像一起发送到工作线程进行编码器计算。之后，image 会缓存到上面的LRU缓存中。如果图像已经在缓存中，工作线程将跳过它。SAM 模型使用步骤选择左侧的Brain按钮以激活自动标记。从下拉菜单Model中选择类型的模型。模型精度和速度因模型而异。其中， Model (ViT-B)是最快的但精度不高。 Model (ViT-H)是最慢和最准确的。Quant表示量化过的模型。使用自动分割标记工具标记对象。

注意事项:

集成方式

Model 分为两部分：一个很heavy的编码器和一个解码器。编码器从输入图像中提取图像嵌入。基于嵌入和输入提示（点、框、掩码），解码器生成输出掩码。解码器可以在单掩码或多掩码模式下运行。

在演示中，Meta 在服务器中运行编码器，而解码器可以在用户的浏览器中实时运行，如此一来用户便可以在其中输入点和框并立即接收输出。在本项目中，我们还为每个图像只运行一次编码器。之后，根据用户提示的变化（点、框），运行解码器以生成输出掩码。项目添加了后处理步骤来查找轮廓并生成用于标记的形状（多边形、矩形等）。

使用手册如何快速开始？

X- 目前提供两种方式供大家运行。第一种是偏向小白用户，大家可以直接再或者直接通过百度网盘链接下载编译好的 GUI 版本，打开即用，具体可参考以下链接：

//X-/blob/main/docs/zh_cn/.md

第二种方式是通过下载源码运行，也是笔者比较建议的构建方式。具体的可以根据自己的机器和个人需求直接 pip 安装相关的依赖库即可。如果遇到某个包如(lap库)安装失败，可以自行上网搜索下解决方案。此外，如果是想体验GPU加速功能，需要安装对应的 *-gpu.txt 文件，同时修改文件中的 -gpu 版本号，要与 CUDA 匹配，具体适配对照表可参考官方文档 [.ai/docs/-/CUDA-.html]。

如何修改自定义快捷键？

X- 中同样提供了丰富的快捷键，极大提升标注效率。大家可根据自己的习惯通过修改当前设备的用户根目录下的 . 文件进行修改：

#Linux
cd ~/.anylabelingrc
#Windows
cd C:\Users\xxx\.anylabelingrc

默认的快捷键设置可以参考主页示意图。如何支持自定义模型？//X-/blob/main/docs/zh_cn/.md如何导入/导出自定义标签？//X-/blob/main/docs/zh_cn/.md如何编译打包成可执行文件？

可参考以下打包指令：

#Windows-CPU
bash scripts/build_executable.sh win-cpu
#Windows-GPU
bash scripts/build_executable.sh win-gpu
#Linux-CPU
bash scripts/build_executable.sh linux-cpu
#Linux-GPU
bash scripts/build_executable.sh linux-gpu

注意事项：编译前请针对相应的 GPU/CPU 版本修改 /.py 文件中的参数，同时根据对应参数激活对应的 GPU/CPU 虚拟环境；

如果需要编译GPU版本，请通过pip -r -gpu-dev.txt安装对应的环境；特别的，对于 GPU 版本的编译，请自行修改 -win-gpu.spec 的 datas 列表参数，将您本地的-gpu的相关动态库*.dll or *.so 添加进列表中；此外，下载 -gpu 包是需要根据 CUDA 版本进行适配，具体匹配表可参考官方文档说明。

对于 macos 版本可自行参考 -win-*.spec 脚本进行修改。写在最后

本文详细为大家介绍了 X- 的设计初衷及完整的功能特性介绍。作为一款支持高度定制化的开源工具，其实大家完全可以基于该项目进行二次开发；例如我们可以联合目标追踪、检测及OCR识别等做视频人物和字幕的解析；可以编写后端完成更高效的推理；还可以引入AI Agent构建更高效和强大的数据标定流程；

开源不易，希各位小伙伴给个 Star 鼓励支持下吧！最后，如果你有新的想法想要探讨或者碰到难以解决的问题，欢迎添加小编vx：，备注X-，加入X-技术交流群一同探讨和交流。