东北空管局 辽宁 沈阳 110000
摘 要:针对在管制人员录入流控信息过程中,接收系统无法直接将其变为流控管理系统可识别的信息,导致另需其他工作人员人工识别流控信息问题,提出一种新型识别算法。采用关键字拆分步骤初步分割流控信息;通过排列整理步骤生成关键字集合;最后通过对比已有模板步骤找出所需数据项。实验结果表明该算法可以有效处理流控信息。
关键词:流控识别 字符串分割 模板分类
1引言
流控信息的自动识别是实现智能管制系统的热门研究之一。目前,管制录入流控管理系统的流控是符合自然语言形式、符合管制录入习惯的一个字符串。所有的流控是由专门人员进行人工录入,再由专门人员进行翻译转换,转录到协同决策管理系统中。因此实现流控信息的自动识别可以大量减少管制的工作量。
目前主要使用的协同决策系统是深圳CDM系统和华东飞行计划处理系统。在主流协同决策系统中,流控发布功能需要提供直观和快捷的操作界面,来辅助管制员进行人工操作[1]。
针对上述问题,本文提出了一种可以最大限度从流控中提取有用信息的算法,以此减轻人工负担。通过自定义模板与关键字,结合字符串拆分重组和分析,解决了从流控语句无法自动识别问题。本算法的思想来源于自然语言处理中的关键词提取算法[2-3]。
2相关知识
2.1流控
流控是指由在地面的空中交通管制员协调和指导空域或机场内不同航空器的航行路线和飞航模式以防止飞航器在地面或者空中发生意外和确保他们均可以运作畅顺,达至最大效率[4]。
2.2流控信息数据格式
流控信息由地点、行为、数字、量词、时间、原因六个基本类别项所构成,其组成结构如下图所示。
地点 | 行为 | 数字 | 量词 | 时间 | 原因 |
图1:流控信息数据格式
在上述格式中,地点或量词可以是一个或多个地点或量词的集合。
2.3关键词数据格式
关键词是识别流控信息的最小单位。关键词由关键词和关键词属性两部分构成,关键词的属性的分类与流控信息数据格式有关,但是其属性划分却不完全依照流控信息数据格式,而是依照具体的语言环境,其具体例子如下表所示。
表1:关键词数据格式例子
关键字名称 | 关键字类别 | 所属基本类别项 |
保定 | A | 地点 |
广州 | A | 地点 |
深圳 | A | 地点 |
落地 | B | 行为 |
起飞 | C | 行为 |
0 | D | 数字 |
1 | D | 数字 |
2 | D | 数字 |
公里 | E | 量词 |
0800---2000 | F | 时间 |
结构/ | G | 原因 |
3自动识别算法
本算法包含四个步骤:拆分关键字步骤,排列关键字生成类别集合步骤,在集合中整理、去除多余项步骤,同已有模板进行对比并提取有用信息步骤。须自定义关键词库和模板库。
步骤间联系如下图。
图2:步骤关联图
3.1拆分关键字
遍历关键词库,取出一个关键词,然后遍历测试流控,目的是查找这个关键词是否在句子中存在;如果存在,记录其所对应的相关信息,比如它所属类别,在流控中的位置等信息。示意图如下:
图3:拆分关键字步骤示意图
3.2 排列关键字生成类别集合步骤
按照关键词的顺序对测试语句进行检索,并不能找出该测试语句对应的词语类别集合。而本步骤使用遍历拆分关键字模块所记录数据的相关信息,即通过这些关键字所在的位置,将其串联起来,从而形成一个符合该句子情况的关键字类别集合。用 测试语句“广州深圳落地30公里”举例如下:
图4:排列关键字生成类别集合步骤举例
3.3 整理、去除集合中多余项步骤
多余的项是指上述步骤生成的关键字类别集合中,类别相同且连续重复的关键字类别。
在关键字类别集合中去除相同类别的重复项,很重要的一类用处是整理数字集,比如测试语句中有一个数字30,0到9等数字类别属性为D。前两步执行后,生成的集合中会是DD形式,通过这个步骤,集合中会只剩一个D,以此证明30是个数字。
图5:整理、去除集合中多余项步骤举例
3.4同模板进行对比并查找出所需数据项步骤
模板库是根据管制录入习惯而制定的模板集合。模板规定了关键字的类型和位置,以及哪个类型的关键字为分析该流控含义的必需数据项。
本步骤目的是在模板库中找出测试语句所对应的模板,并且对应地找出该测试语句中所需要的数据项。用测试语句“广州深圳落地30公里”举例,其中广州深圳和30为所需提取出来的数据项。示意图如下:
图6:同模板进行对比并查找出所需数据项步骤示意图
4实验展示
根据第二三节提出的算法,现将该算法进行模拟仿真,实验环境及结果如下:
实验环境:JDK1.7.0(JDK版本号),Java SE Development Kit 8u121(eclipse版本号),windows10(操作系统),i5-9300H(处理器版本号)。
图7:实验结果展示图
上图展示了每个步骤完成后,主要数据的变化情况。测试语句为:广州深圳落地30公里,其中需要提取的信息为:深圳广州、30。测试结果成功,可以成功分离数据项。
5结束语
该算法在最大程度上利用流控语句所含的信息量,可以尽可能的减少管制员在流控录入中所花费的精力。
未来的研究路线:针对目前的发展趋势,传统单一的数据分析技术已经无法满足现实应用精准需求,需集多种策略优势为一体的模型,综合处理数据信息,以实现流控语句的全方面综合分析处理。
参考文献
[1]杜文斌. 机场协同决策系统中区域管制子系统的设计与实现[D].东华大学,2014.
[2]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J]. 计算机工程. 2012(01)
[3]Yang Wen-Feng.Chinese keyword extraction based on max-duplicated string of the documents. Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 2002
[4] Airport CDM Operational Concept Document, Edition 3.0. EUROCONTROL-DAP/AOE/CDM/ 05/04/05-1 . 2006