今天给大家介绍一下文本标注工具,前一篇文章聊到了今年的AI语音发展的不错,但语音想要在场景中发挥更大的主要终究是孤掌难鸣,毕竟声音只是传递信息的一种媒介,我们需要的不是听到声音,而且想要通过声音传递或者接收他人的信息,那么音频识别出来的文本标注、分析得到预期的结果就是必不可少的一件事儿。文本标注的场景不局限于此,例如对搜索引擎搜索的POI标注、对留言信息的标注分析、司法文件的标注等等场景应用广泛。
由于文本的标注类型相对更多一些(这部分会单独拿出跟大家分享一下)今天跟大家分享的线下工具主要标注的内容是实体标注以及关系标注。有一点需要在开始标注前一下,数据一定要是UTF-8的编码格式,否则导入软件时会乱码。本篇文章从两个方面给大家介绍一下。
一.数据准备
在准备阶段主要有两件事要做:
1.数据的准备(一般是通过爬虫进行获取,如果是自家的数据就可以直接从数据库里调取)
2.需求文档准备,需求文档这部针对本文要介绍的工具要准备两部分内容
定义需要的实体名称,定义实体之间的关系。
例如:定义需要的实体名称(、、date、等等)
实体关系:
二.数据标注
1.导入TXT文件(点击【File】-【OPEN】)
注:可以对文件内容进行修改【Edit】-【Edit Text】
2.实体标注
注:支持自定义实体名称【Other Type】
3.标注关系
4.保存生成结果
文本标注涉及的内容比较多,后面也会单独写文章出来和大家分享一下,之前做的某团一个文本项目,最后的测评结果是某团的推荐准确率提升了30%的一个案例。
NLP的发展之路还很漫长,所以文本标注分析也会是一个持久战,也希望大家可以做好准备在这个领域能有所收获。欢迎大家留言交流。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...