藏文古籍字丁数据集半自动标注方法

(整期优先)网络出版时间:2023-01-07
/ 2

藏文古籍字丁数据集半自动标注方法

曹宇豪 ,邢鹏辉, 叶欢

西南民族大学   四川 成都 610225;

摘 要:藏文古籍字丁数据集是用机器学习技术进行藏文古籍字符识别的数据基础。传统的藏文古籍字丁数据集采用人工标注方式构建,其中画标注框任务与输入类别名任务因串行进行而耗时较长,并且输入的类别名为藏文字丁,这导致人工标注的方法存在标注时间长和标注门槛高的问题。对此,本文提出了一种半自动标注方法:将画标注框和输入类别名两项串行任务并行化,其中由具备藏文输入能力的标注者完成输入类别名任务,其余标注者完成画标注框任务;通过标注框的中心点坐标信息对标注框进行行间排序和行内排序,分割、整合倾斜古籍图像对标注框进行行纠正,排序好的标注框赋予对应的目标类别名,从而整合得到完整的目标标注信息。该方法不仅可为藏文古籍字丁数据集标注缩短时间和降低门槛,而且可为其他文种的古籍文字数据集标注提供有益参考。

关键词:图像标注;深度学习;藏文字丁;藏文古籍

引言

数据标注[1]是对未经过处理的初级数据进行加工处理,并转换为机器可以识别的过程。根据标注数据类型的不同可分为文本标注、语音标注、图像标注和视频标注。图像标注作为其中的一个重要部分,是图像分类、语义分割、目标检测、字符识别等相关高级任务的基础。由于这些相关任务大部分需要成千上万的标注图像,并且传统人工标注存在着成本高、效率低的问题,因此半自动标注逐渐成为许多学者的研究热点,如:郭乔进等[2]提出了基于目标跟踪算法的半自动图像标注框架;;文献[3]提出了一种融合检测和跟踪算法的视频目标半自动标注框架。

区别于常见的自然图像数据集,如ImageNet数据集、COCO数据集等,藏文古籍字丁数据集由于标注目标为藏文字丁[4],故在标注过程中需要输入的类别名为藏文字丁,而藏文字丁相较于汉字和英文更加小众。这不仅导致了人工标注方式构建藏文古籍字丁数据集有着自然图像数据集标注时普遍存在的耗时问题,而且使得人工标注的门槛提升为所有标注者需懂得输入藏文字丁。这无疑在一定程度上加大了藏文古籍字丁数据集的构建难度。

为了解决人工标注藏文古籍字丁数据集所存在的问题,本文提出了一种基于并行思想的半自动标注方法,该方法可以有效处理标注过程中出现的耗时问题和门槛问题。

1半自动标注方法思想

传统的人工标注方式构建藏文古籍字丁数据集时由于每画一个目标框就得立即输入一个对应的目标类别名,这种串行任务之间的衔接大幅度增加了人工标注的时长,且因为目标类别名为藏文字丁,这就导致人工标注的门槛上升为全体标注者都应具备藏文输入能力。

针对人工标注方式的耗时长和门槛高问题,半自动标注方法提出将数据集的标注过程分为人工标注和文件整合两个阶段。其流程为:在人工标注阶段,区别于传统标注方式中的标注者在图像标注软件中先画标注框、再输入目标类别名,半自动标注方法将画标注框和输入目标类别名作为两个并行的工作完全分开进行:画标注框的工作可由一部分不懂藏文的标注者来完成,类别名可设置为一个默认值,最后生成一系列的XML格式标注文件,此部分的XML标注文件除了目标类别名为默认值之外,标注框的位置信息完整;输入目标类别名的工作由懂藏文者完成,其只需将藏文古籍图像中的文本信息,即藏文字丁,按从上到下、从左到右的顺序输入并生成一系列对应的TXT格式文件。在文件整合阶段,通过程序将TXT格式文件中存储的目标类别名正确地替换掉XML文件中的默认目标类别名,生成完整的XML标注文件。

2藏文古籍图像标注乱序问题

由于藏文古籍图像中需标注的目标数量较多,并且图像标注软件存储目标标注信息的顺序只和标注者画框时间先后相关,所以画框过程中极有可能出现目标框乱序问题。这将导致XML文件中目标框信息的位置出现乱序,进而影响半自动标注中的文件整合阶段,从而使得XML文件中目标类别名错误。

为了解决上述乱序问题,本文研发了半自动标注排序程序,其排序流程如图1所示,首先从目标类别名为默认值的XML格式文件中读取字丁框坐标数据,然后根据字丁框中心点纵坐标对字丁框进行行分组和行间排序,再根据字丁框中心点横坐标对字丁框进行行内排序,最后输出排序好的字丁框信息。

3藏文古籍图像倾斜问题

藏文古籍图像由于多为木刻版或手写版,没有印刷版规范和标准,存在图像几何形变,这使得图像各行中的行首字丁和行尾字丁在竖直方向上可能存在较大距离,甚至出现第一行行首和第二行行尾处于同一水平线的情况,然而,上述半自动标注排序程序是根据各字丁框中心点纵坐标的差异对字丁分行,再进行后续的行间排序。因此,上述半自动标注排序程序无法适用于几何形变较大的图像。

针对上面问题,本文采用将整张藏文古籍图像分割成多张子图像的思路,研发了半自动标注纠正程序,其包括分割子程序和整合子程序两部分。

半自动标注纠正之分割子程序原理为:该子程序将整张图像在横向上分为n个子图像,根据每个字丁框的中心点横坐标所处范围将其划分到相应的子图像中,在各个子图像内部进行行间分组、行内排序等操作,使各个子图像中字丁框信息排序正确。

半自动标注纠正之整合子程序旨在将上述处理好的各子图整合在一起,形成一个完整的XML标注文件。该子程序核心思想是:判断子图像中每一行行首字丁框的中心点纵坐标处于上一块子图像哪一行字丁框的中心点纵坐标范围内,将该行尾插到上一块子图像的该行中;若某行行首字丁框的中心点纵坐标小于上一块子图像任何一行字丁框的中心点纵坐标,则将该行设为新的第一行。

4半自动标注数据集展示

为了验证半自动标注方法生成的藏文古籍字丁数据集的可靠性,本文编写了一个验证程序。该程序根据生成数据集中的图像和图像所对应的标注文件生成带检测框的验证图像,如图2所示。

2数据集验证

图3为验证图像细节图,清晰地展示了每个目标的检测信息。其中,蓝色框为目标框、红色字为类别名,通过蓝色框位置是否合适和红色类别名是否与蓝色目标框中字丁图像对应,可对生成的数据集进行验证。

3 数据集验证细节

5总结

针对人工标注藏文古籍字丁数据集存在耗时久、门槛高的问题,本文首先提出了一种基于并行化思想的半自动标注方法,将图像标注过程中的画框和输入类别名两项串行任务并行化,去除了串行任务之间的衔接耗时,取消了画框任务标注者需懂藏文输入的门槛,然后通过中心点坐标排序和图像的分割及整合,解决了半自动标注过程中的目标框乱序问题和藏文古籍图像倾斜问题,最后验证了生成的藏文古籍字丁数据集的可靠性。半自动标注方法不仅能缩短藏文古籍字丁数据集的构建时长,而且可以降低数据集的构建门槛。

参考文献

[1]Zhu J,Kaplan R,Johnson J, et al. HiDDeN: Hiding data with deep networks. In: Proc. of the European Conf. on Computer Vision.2018. 682−697.

[2]郭乔进,周鹏飞,胡杰,梁中岩.基于目标跟踪的半自动图像标注样本生成方法[J].信息化研究,2015,41(05):23-27.

[3]陈哲,黄巍,陈昭.基于Web应用的医学图像半自动标注系统[J].计算机应用与软件,2019,36(10):1-5.

[4]王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(02):27-31.

[基金项目:中央高校基本科研业务费专项资金优秀学生培养工程项目“基于图像检测的藏文字丁检索”(项目编号:2021NYYXS48)]