(广东电网有限责任公司惠州供电局)
摘要:分布式的部署环境、异构的品牌要求、多种类型的网络/安全设备、各种各样基于设备的KPI指标,把基础网络运维构建得纷乱繁杂,使得网络运维往往费时、费力、费心。
关键词:IT;运维技术;智能创新
引言
网络运维中会遇到各种不同的数据,常见的有网络设备日志、网络设备配置、网络设备性能、设备响应时延、设备端口状态、设备端口用量、广域网链路时延、防火墙并发连接数等。这些数据都来自不同的数据源,有些通过设备主动发送,有些需要管理平台主动获取,又或者需要运维人员直接登录设备获取信息等等。
一、对传统运维业务的技术分析
1.1现状及存在问题
配网传统巡视工作点多面广,受制于人员到位率、缺陷发现及处理的滞后时有发生,现场运维质量参差不齐,评价周期难以保证,不良工况甚至发展到危及配网安全、稳定、健康运行。目前主要存在的现场问题有:①巡检监督与检查设备到位率之间的矛盾;②配网运营成本控制与缺陷(异常、隐患)监管不确定性(或盲点)之间的矛盾;③配网设备分布广与状态巡检目的性不强之间的矛盾。
1.2现场智能运维需求
建立配电系统常用组件模型,每一模型将会被独立仿真,可以方便它与其他新的模块(例如95598远程工作站工单、保电工作信息、配调故障信息、配网图资信息、PMIS信息等)和第三方工具集成。
二、IT运维发展的新时机
随着信息化的发展,企业面临多种多样的IT业务,与之相对应的IT运维工作也越来越复杂。单纯依靠人力的运维模式,在这种复杂的IT环境下,显得力不从心,浪费大量的人力物力,甚至会造成疏忽与失误。
在这种情况下,传统运维已经无法满足企业的实际需求,实现人工智能运维成为IT运维发展的必然趋势,那么,智能运维包含哪些内容,又有什么优势呢?一起来探讨一下。
2.1自动化运维
自动化运维将日常运维工作通过系统实现,在数据的基础上,无论是运维工程师还是客户经理都可以迅速掌握系统运行状况。通过自动巡检报告,能够大幅度提高工程师的工作效率,尤其是针对客户领导所需要的一些特殊定制报告,可以迅速的在汇总的数据集中进行有效的展现和生成。大幅度提高工程师的日常基础运维工作效率。
2.2关联数据展现
在已经定义好的管理关系的基础上,完成关联数据展现,为一般问题的分析和诊断提供有力的支持。人工定义,”Web响应时间“与“用户请求”有正相关因果关系,随着用户负载增加而变慢。假如良好的历史关系被破坏,比如说由于內存泄漏,异常信号随之立即发出。将相关关联数据库集中展现,任一指标发生变化后更容易分析导致该结果的原因。
2.3人工智能分析
通过离散数据关联关系的分析将运维数据进行人工智能分析,实现系统性能的智能展现、系统智能预警分析、故障的智能分析。将工程师的经验和分析思路转换为系统人工智能的分析过程,将以往知识库内的信息转化为人工智能网络,成为系统的分析能力。从而达到智能、动态知识库体系。
三、IT运维风险管理
随着信息与科技的飞速发展,it技术已经在各行业得到充分应用,并发挥重要作用。it运维是it管理中最核心的部分了,做好it运维风险管理也是很有必要的。对于it运维风险管理,要注意哪些呢?
1.完善基础设施建设
网络、应用系统的软件和硬件的建设、电子信息的维护,能够有效的保证it数据的完整性,因为数据的完整才是解决一切it行业发展的前提,对内部管理人员的要求也是很大的,要进行培训,确保这些人员能够有效的认知数据库,有助于it运维企业的发展。
2.建立有效管理制度
对内部员工按照it运维管理的相关制度进行分工,这样可以很有效的对it运维进行分层次的管理,有助于企业对于运维执行方面很有条理的进行。
3.规范审计业务
内部的审计部门对it运维整个的组织管理方面能够有效的进行风险的预测和处理,要运用规范化的审计查找整个it运维企业的风险、管理以及控制,并且可以提出解决这些问题的建议,最终达到it运维管理的工作。
四、运维技术浅谈
运维是一件对自动化要求很高的工作,随着IT技术的不断发展,越来越多的方便运维的技术应运而生。
从互联网时代开始,业务系统的交付和迭代也变得越来越频繁,从每月的迭代一次,甚至到了每天迭代多次的场景。
如果没有自动化的手段快速响应与处理,对用户的影响可想而知。自动化的主要目的个人认为主要是以下六个:
4.1效率提升
初期自动化主要解决的是和日常运维例行工作相关的操作。
比如各种平台的资源分配&回收、统一配置管理、CI&CD(持续集成&发布)、操作系统的部署、系统空间的扩容与缩容、简单应用部署、文件分发等等,这些都是运维最基础的工作,也是自动化最容易实现和集中的领域。
个人觉得凡是那些偏日常和重复的工作都应该自动化,解放运维的生产力,提升运维效率,降低人为失误,让运维的同事可以有更多的精力去学习更多的技能。
做更有价值的事情,无论互联网时代还是大数据时代,人才毕竟是最贵的。
目前自动化的解决方案都相对完善了很多,所以可以放心的去实践和应用。对于重要的领域和操作,一定要经过严谨的测试才能应用,否则自动化带来的灾难也是不可估量的。
4.2可靠可控
可控对于运维人员来说是再重要不过的了,自身经验是,如果运维一套不可控的系统,无疑是攥着一颗不知道什么时候会爆炸的定时炸弹,时刻担心它会产生不可预知的后果。
可控要细说我觉得大致可以分为稳定性可控、性能可控和安全可控。
4.3稳定性可控
作为企业级的运维人员,我们要运维的系统不但数量多,而且网络架构复杂。
包括的硬件更是多样,除了熟知的服务器、存储、网络设备、负载均衡设备等,可能还有很多是运维人员没有接触过的新玩意。
而这些硬件又承载了各种应用,组成了各类不同的系统供用户访问,复杂程度不言而喻。
4.4性能可控
合理的分配系统资源产生合理的性能对系统的稳定性起到了至关重要的作用。
一个系统慢与快并不是运维人员最担心的,而是时快时慢是最可怕的,因为那种状态是最不可控的状态,这样的系统是不可能承载企业核心或者重要的业务的。
最典型的应用场景就是云计算平台的资源分配。一旦平台资源被错误的分配,对业务的影响是不可估量的,排错过程也是运维人员最头疼的。
4.5安全可控
现在运维圈子流行的模块化管理、运维自动化、可视化甚至是基于大数据决策的运维,本质上都是希望达到运维可控的目标。安全是唯一一个贯穿运维全部过程的模块。
所以运维人员每日都会花费特别多的精力在系统的安全建设和防御上,比如防止哪些未授权行为,所有的操作必须通过堡垒机,关键操作必须通过审计等等。
IT运维安全方面的内容还是相当复杂的,比如应用交付可控,各种变更可控以及效率可控都是值得特别关注的。
为什么我们熟悉的工作往往是最容易出问题的工作。简单分析一下就是因为我们平常一直在周而复始的做一件事,产生了麻痹。
同理,IT运维大部分都是一些重复性的操作与工作,但是又是必须的。合理的通过自动化代替人工操作,可以非常有效的避免低级错误的发生。
这对于企业级的复杂系统是至关重要的,可以明显提高可靠性,减轻运维人员繁琐的人工任务。
4.6降低人员依赖
运维工作是个很有意思的工作,他不是靠人多堆出来的工种。运维工作对人员的技能要求还是比较高的,可谓是要精不要多,多培养精兵强将。
任何问题的处理都要避免靠堆人来解决,这种方式不一定会解决问题,但是一定会增加运维的成本。
运维是一件对精细化要求很高的工作,那么什么是精细化管理呢?
官方给出的解释是:“精细化管理是源于发达国家的一种企业管理理念,它是社会分工的精细化,以及服务质量的精细化对现代管理的必然要求,是建立在常规管理的基础上,并将常规管理引向深入的基本思想和管理模式,是一种以最大限度地减少管理所占用的资源和降低管理成本为主要目标的管理方式”。
现在的IT运维已经进入了精细化管理的时代,而不是以前的大锅饭年代了。分工明确,注重细节、注重过程、注重质量。
通过技术手段对全部的信息进行收集,管理员可以随时知道目前系统的运行状态。从而提高运维管理的整体水平和效果,实现了灵活的弹性扩容能力。
结束语
随着企业IT结构及业务的不断迭代更新,人工智能运维将成为未来IT运维发展的必然趋势!
参考文献:
[1]人工智能驱动运维创新,IT运维迎来发展新时机.云烁IT服务,2018
[2]做好it运维风险管理,让it运维工作效果加倍.云烁IT服务,2018
[3]蓝乐琴.浅析IT服务管理[J].价值工程,2011
[4]成航宇.如何提高IT运维管理[J].科技工程,2010