1308198112097919
摘要:电力系统通信网络承载了继电保护、电力调度自动化等多种业务,随着智能电网建设步伐的加快,电力通信网络上承载了越来越多的重要业务,如何提高通信网络的运行水平,成为通信专业人员亟需解决的问题。本文通过对电力系统通信网络运行现状进行分析,引入多点互联模型、分布式机制和负载均衡策略,设计了一种高效稳定的监控模型,并以电网应用为实例对模型的可靠性进行分析。
关键字:通信监控;监控模型;分布式
引言
“十二五”期间,电网公司加快建设坚强智能电网和“三集五大”管理体系,深入推进“两个转变”,全面实现“一强三优”现代公司战略目标。通信系统作为实现公司战略发展目标的重要保障,作用日益突出。
电网公司通信系统规模巨大,通信站点达数万座,66/110kV及以上变电站全面实现光纤覆盖,主要承载电网继电保护、安控装置、调度自动化、调度电话和综合数据网等重要业务,通信网络关系着电网安全稳定运行。
为确保通信系统安全稳定运行,保障电网安全生产和公司生产经营活动有序开展,2012年,电网公司在以往开展的智能电网通信管理系统建设前期工作基础上,加快步伐,统一组织开展了通信管理系统(以下简称TMS)建设。当年建成了省级及以上通信管理系统,管理了一、二、三级和部分四级骨干传输网,初步具备了通信网全网集中监控、故障定位、资源调配、业务管控能力。2013年启动TMS二期项目,开展建成系统的完善提升、地市公司推广应用、业务网和支撑网管理以及接入网管理等工作。2014年,国网公司组织开展了系统稳定性提升、功能消缺及智能化提升、数据治理,深化完善了系统功能,提升了数据质量,夯实了系统深化应用的基础,同时通过明确系统应用规范,有效推进了各单位的系统应用,TMS目前已成为国网信通公司、各分部、各省公司的通信运维核心技术支持系统。
为落实公司通信运维整体工作目标,加强通信网络运行保障,促进TMS系统的深化应用,更好的开展该系统的推广建设工作,实现通信管理的“监控自动化、服务流程化、展示互动化”,全面反映公司通信运行和管理水平,在总结现有通信运维工作基础上,提出研究高效、稳定的监控模型,补充和辅助TMS系统实现通信专业的生产工作全覆盖。
1设计目标
通信系统主要有通信线缆和设备组成,为保障通信系统能够连续可靠、无故障的运行并发挥应用的效能,就必须实施监测通信系统的运行状态并对其实施有效的控制。系统监控的关键在于如何有效的手机、处理、存储被监控系统中各种设备和应用的工作状态,同时监视系统运行的工作环境,从而可以针对影响系统发挥效能的情况,采取对应的措施来重新组织管理和控制系统,保障被监控系统各项功能正常发挥。
1.1集中式监控
无人值守通信站或机房等远程被监控系统内部通常规模较小,而且大多数设备互相管理密切,形成一个范围受限的网络,此种场景非常适合采用集中式系统进行集中监管。通常,在被监控环境内添加一台监控采集设备,便于监控设备,集中式管理模型非常适合远程监管中心向监控系统下发指令,系统结构简单,易于实施。
1.2集中式管理缺陷
监控系统的稳定性是系统需首要解决的问题,集中式管理则是系统性能和稳定性的瓶颈,集中式管理系统中管理者中采集不是系统稳定性的核心问题,因为系统只存在一个管理者,当此管理者故障时,整个系统都将进入不可用状态,为了能够在监控系统故障时最大程度保障系统稳定运行,监控功能不受影响,对集中式监控系统进行功能拆分,形成分布式管理机制。
1.3冗余策略
从集中式监控模型向分布式监控模型升级,必然带来结构上的大调整。为了降低升级影响,分布式监控模型需保持被监控对象运行方式不发生变化,通过在被监控对象前添置转换设备,转换设备实现监控管理中心与被监控对象之间链路的高可用以及负载均衡,当某一通路故障时自动切换至其它通路,以此提高系统稳定性。
2模型设计
监控系统中,被监控设备数据采集是系统要解决的关键问题,根据是否能够安装Agent将监控对象分为如下两类:
可安装Agent对象——可安装自定义分布式代理的设备,如各种用途的计算机;
不可安装Agent对象——无法安装自定义分布式代理的设备,如交换机等。
监控模型结构如图1所示。
图1可靠监控模型
模型的核心思想是将原集中式监控模式的单链路进行改造,提供多链路模式,采集数据时从多链路中有限选取稳定性高的链路,当链路故障时能够自动切换至其它链路,保障数据通路是稳定的。
为保障链路的故障检测以及故障规避,在管理中心与监控对象(设备)之间放置前置设备,前置设备通过与设备建立连接检测被监控设备的运行状态,依据状态规避故障风险。
其中,可安装Agent设备中的Agent程序主要起到互联互通作用,该Agent程序与管理中心通信,负责采集被监控对象的指标数据,Agent提供心跳功能,该Agent程序与前置设备保持心跳,当心跳中断时自动切换其它链路。
不可安装Agent设备由管理中心通过SNMP连接设备采集数据,前置设备通过定时向被监控设备发送SNMP请求,从而确定被监控对象或通路是否存活。
分布式监控要解决的核心问题是确定哪条通路为可用的,通路可用性判断是由前置设备的管理者确定的,前置设备为每条通路分配一个权重,通路故障时按照计算公式减少其权重,前置设备通过权重大小作为选择通路的依据,通路的权重越大说明该通路稳定性上越高,获得监控数据采集的机会也越多。反之,通路权重越低其获得数据采集的机会也越少,通过前置设备选取高可用的通路,从而替代或部分替代原集中式监控管理者单链路工作模式,最大程度保证监控系统控功能的高可用。
3结论
对于小规模的被监控系统来说,集中式监控模型具有简单高效的特点,而对于像电网公司通信网络这样复杂的系统来说,集中式监控模型无法发挥应有的作用。为此,本文通过引入多链路模型和分布式机制,提出高可靠的监控模型,该模型一方面可以通过多链路故障检测方法提高监控系统故障定位的准确性,另一方面使原来的串联系统可靠性模型变为并联系统可靠性模型,从而大幅度提高监控系统本身的可靠性。
参考文献:
[1]彭胡.浅谈信息通信“大融合”[J].中国新技术新产品,2012(19):47–48.
[2]常英贤.基于信息通信融合的一体化管理体系研究[J].电力信息化,2013,4(11):36.
[3]魏小庆.电力企业信息化建设系统选型探讨[J].电力信息化,2013,8(3):22-24
[4]李文,林芳.计算机监控系统概述[J].河池师专学报,2002(02):32-34
[5]许黎明,董国光,徐俊杰,王克玉.一种分布式网络监控系统的设计[J].机械与电子,2003(06):11-13
作者简介黄兴(1984-),男,辽宁阜新人,高级工程师,从事电力信息与通信建设工作。
王先德(1964–),男,辽宁沈阳人,高级工程师,从事电力信息与通信管理工作。
李曦(1989-),男,辽宁铁岭人,工程师,从事电力信息与通信建设工作。