1.1. 监控系统的基本要求
对通信电源、机房空调实施集中监控管理,是对分布的各个独立的电源系统和系统内的各个设备进行遥测、遥信、遥控,实时监视系统和设备的运行状态,记录和处理相关数据,及时侦测故障,通知人员处理,从而实现通信局(站)的少人或无人值守,以及电源、空调的集中监控维护管理,提高供电系统的可靠性和通信设备的安全性。
监控系统是采用数据采集技术、计算机技术和网络技术以有效提高通信电源、机房空调维护质量的先进手段。
监控系统所监控设备的遥信、遥控、遥测项目参照信息产业部下发的《通信电源、机房空调集中监控管理系统暂行规定》。
1.2. 监控系统安全管理
(以下内容摘自相关规定)
1.2.1. 安全机制
1.系统应从主机配置或网络配置上得到双机热备份或各主机之间互为备份的功能,使监控中心系统运行安全。
2.监控系统应有自诊断功能,随时了解系统内各部分的运行情况,做到对故障的及时反应。
3.非专线方式,通过拨号进入监控主机用的号码资源不对外公开。
1.2.2. 用户权限
1.为保证监控系统的正常运行,在监控中心和监控站分别对维护人员按照对监控系统拥有的权限分为一般用户、系统操作员和系统管理员。
2.一般用户指完成正常例行业务的用户,能够登录系统,实现一般的查询和检索功能,定时的打印所需报表,响应和处理一放告警;系统操作员除具有一般用户的权限以外,还能够通过自己的帐号与口令登录系统,实现对具体设备的遥控功能;系统管理员除拥具有系统操作员的权利外,还具有配置系统参数,用户管理的职能。系统参数是保障系统正常运行的关键数据,必须由专人设置和管理;用户管理实现对一般用户和系统操作员的帐号、口令和权限的分配与管理。
3.所有登录口令均作机密处理,维护人员之间不需相互打听;系统管理员有必要时可以更改某帐号的口令。
4.不同的操作人员应有不同的口令,所有系统登录和遥控操作数据必须保存在不可修改的数据库内,定期打印,作为安全记录。
5.对于设备的遥控权,下级监控单位具有获得遥控的优先权。对关键设备进行遥控时,应该确认现场无人维修或调试设备;有人员在现场操作设备时,应该通知上级监控单位在监控主机上设置禁止远端遥控的功能,在人员撤离时,通知恢复。
6.系统所有技术手册、安装手册、软件等资料作机密保管。
2.1. 监控系统运行现状描述
为了保证本地区监控端局数据的实时性、准确性,监控系统中,各单元的运行与维护检查工作,一直属于重要工作内容。通过不懈的努力,对当前监控系统的各子系统进行重点设备的定期优化与日常维护相结合的办法,使得监控中心各单元系统没有发生过重大监控事故,有力的支撑了监控系统的正常运转,提高了监控基站环境数据的可靠性。
然而,由于站点基数过大、分布过广、设备使用环境恶劣、局方网络优化较快(割接、拆迁)等因素存在,部分监控基站仍有故障发生,截至目前,包括郊县、市区在内,仍有多起故障需现场处理解决;加上日常的监控中心的各项日常工作,维护工作的任务仍然十分紧张与繁重。
2.2. 监控系统维护现状分析
l 系统化、条理化是维护工作的核心内容。
通过整理监控维护经验,当前成都地区的维护工作主要包括了监控数据的日常分析、设备的例行检查、数据优化、故障告警处理等几大部分。根据维护内容,进行维护工作的开展,在完成每日例行检查的基础上,对属于数据的问题,原则上都能在第一时间内得到处理,与今年前半年相比,系统稳定性大大增强。
l 日常巡检与定期系统检修相结合,将减少监控故障的产生。
本年度九月下旬,经过网管值班人员统计的一份监控基站资料显示,郊县监控故障基站占到了整个郊县监控基站总数的5.8%,而市区监控故障基站则达到了6.6%,监控故障基站的比例非常高。通过十月份未开始的一次大规模的巡检后,共处理了40起监控故障基站,大大减少了监控故障基站数量。以上情况充分说明了,开展定期巡检工作的作用,不言而喻。而日常的巡检工作,将保证故障问题在较短的时间内得到处理。为系统的高效运行,提供保障。
l监控网管中心值班值班工作十分重要,直接关系到系统运行的效率问题。
通过最近两个月,网管人员对的数据的核查与基站数据的整合工作,清理出近200起监控故障是由于局方的数据问题、传输故障、拆迁、BTS无插口引起的,数目十分惊人,占到了监控基站总数的14.2%。这从侧面也反映出了,监控中心工作人员的重要性,防止了因其它原因,造成了监控故障的产生与对故障的定位不准等问题。
根据以往维护经验,维护工作的前期主要工作量都集中在监控网管中心,如:分析告警、判断故障、优化数据等。为了提高维护效率,针对网管中心进行的日常维护梳理工作将十分必要。
以下的内容,将通过日常的维护工作,重点从值班人员日常工作任务的规划、数据备份与升级、故障告警的发现与处理、网管资料的整理与维护及备件管理与返修流程等几个方面,重点阐述网管中心的维护流程与具体内容。
3. 值班工作任务
3.1. 系统维护相关规定
Ø监控系统设备包括:各级监控中心主机和配套设备、计算机监控网络、监控模块及前端采集设备。
Ø监控中心主机和配套设备应安装在干燥、通风良好、无腐蚀性气体的房间,室内应有防静电措施及空调。
Ø监控中心主机和配套设备应由不间断电源供电,交流电压的变化范围应在额定值的-15%--+20%内;直流电压的变化范围应在额定值的-15%----十20%内。
Ø 监控中心主机和配套设备应有良好的接地。
Ø 保持监控中心主机和配套设备的整齐和清洁。
Ø监控系统作为通信电源的高级维护手段,其自身应有例行的常规巡检、维护操作和定期的对系统功能与性能指标的测试。
Ø分析每天的各种告警数据报表、历史数据报表和参数曲线,结合月、季的阶段汇总报表,了解设备运行情况,制定相应的设备维护计划。
Ø日常值班人员应对系统终端发出的各种声光告警,立即作出反映。对于一般告警,可以记录下来,进一步观察;对于紧急告警,应通知维护人员去处理,如涉及设备停止运行或出现严重故障,影响电信网的正常运行,应立即通知维护人员抢修,并通知主管领导。
3.2.ZXM10系统使用和日常维护注意事项
机房的正常温湿度,保持环境清洁干净,防尘防潮,防止鼠虫进入机房。
系统一次电源的稳定可靠,定期检查系统接地和防雷地的情况。尤其是在雷雨季节来临前和雷雨后,应检查防雷系统,确保设施完好。
建立完善的机房维护制度,对值班和维护人员的日常工作进行规范。应有详细的值班日志,对系统的日常运行情况、版本情况、数据变更情况、升级情况和问题处理情况等做好详细的记录,便于问题的分析和处理。应有接班记录,做到责任分明。
严禁在计算机终端上玩游戏、上网等,禁止在计算机终端安装、运行和拷贝其它任何与系统无关的软件,禁止将计算机终端挪作它用,不得随意更改计算机的IP地址,不得使用完全共享功能共享任何目录,不允许共享整个逻辑磁盘,仅在需要的时候以只读方式共享某个目录,并在使用结束后立刻去掉共享设置。操作系统中必须安装防病毒软件并及时升级。
网管口令应该按级设置,严格管理,并只能向系统相关值班和维护人员开放。
值班和维护人员应该进行上岗前的培训,了解一定的设备和相关网络知识,维护操作时要按照ZXM10相关手册的说明来进行,接触设备硬件前应佩带防静电手环,避免因人为因素而造成事故。值班和维护人员应该有严谨的工作态度和较高的使用和维护水平,并通过不断学习提高使用和维护技能。
不要盲目对设备复位、加载或改动数据,尤其不能随意改动网管数据库数据。
数据前要做数据备份,改动数据时要及时作好记录。
应配备常用的工具和仪表,如螺丝刀(一字、十字)、网线钳、万用表等。应定期对仪表进行检测,确保仪表的准确性。
经常检查备品备件,要保证常用备品备件的库存和完好性,防止受潮、霉变等情况的发生。备品备件与维护过程中更换下来的坏品坏件应分开保存,并做好标记进行区别,常用的备品备件在用完时要及时补充。
维护过程中可能用到的软件和资料应该指定位置就近存放,在需要使用时能及时获得。
机房照明应达到维护的要求,平时灯具损坏应及时修复,不要有照明死角,防止给使用和维护带来不便。
发现故障应及时处理,无法处理的问题应及时与中兴通讯监控当地维护人员联系,或拨打中兴通讯客服热线电话800-810-1118。
将中兴通讯监控维护人员的姓名和联络方法放在醒目的地方,以便在需要支持时能及时联络。注意及时更新联络方法。
3.3. 值班人员工作规程
值班期间,经常查看ZXM10系统告警情况,对于告警不要轻易确认,只有在发出派工单后或者明确知道不需发派工单时(比如在门磁告警时,确认有工作人员下站维护)才能确认该告警。一定要慎用批量告警确认功能。一定要杜绝因为告警确认后又没有及时处理而造成生产上的安全事故。(这需要在日常工作中注意积累经验)
业务台平时可以切换到局站停电实时监测页面,当市电停电后,利用报表台的功能来查看该局站前5天的停电情况,并根据直流系统电压曲线来分析和估算该局站蓄电池组能支撑的时间,对蓄电池组支撑时间短的局站要重点监控,根据局站的重要级别和话务量多少来调派油机发电。(这需要在日常工作中注意积累经验)
当ZXM10系统发生故障时,要根据附图1、2所示流程图进行处理,如不能自行解决而需要技术支持的,要做好协调和配合工作。
ZXM10系统的声光告警功能要用上,平时相关声光告警设备不能关闭,可以把一般告警设置成静音,而把重要监控量的告警级别提高,以减少声光告警给值班工作带来的干扰,同时又可以及时发现系统的告警,保证监控功能的正常使用。
做好交接班记录,特别是当班时的运行情况,对于停电后需要重点监控的局站要标出,以便接班人员能尽快投入工作,实现交接班的无缝衔接。
要充分发挥ZXM10系统的监控功效,值班人员自身对相关设备的了解也十分重要,值班人员要多学习动力环境设备的相关知识,为本职工作和提高自身技术技能打下坚实的理论基础,更好地完成监控值班工作,保证系统安装稳定运行。
3.4. 作好定期巡检记录
ZXM10系统巡检要点:
监控中心内设备,服务器、业务台、打印机、音箱和大型显示设备等运行是否正常;查看系统操作记录、操作系统和数据库日志,是否有违章操作和错误发生。
前端采集设备的数据采集、处理以及上报数据是否正常。
监控中心局域网和整个传输网络工作是否稳定和正常。
对于所有监控中心机房设备应当定期进行巡检,巡检时,应当检查各模块的工作情况,打扫模块和计算机内的灰尘(可购置皮老虎用来吹掉设备内部的灰尘),对于计算机中地散热风扇,应当清洁掉上面的灰尘并在轴承中加润滑油,以利风扇的转动,避免计算机损坏和性能下降。
监控系统的功能和性能指标每季抽查一次,每半年检测一次,抽查检测过程以不影响供电系统的正常工作为原则。
巡检过程中严格填写基站设备系统性能测试表,附2、3、4表:系统性能测试表,这些表只是提供了模板,具体测试项目要根据当地的实际配置情况进行增减。
3.5. 数据的管理与维护
ZXM10系统数据管理和维护:
为确保系统安全,此操作非系统管理员不允许操作,详细操作流程见相关章节的网管系统的数据库维护管理。
每月备份上个月的历史数据,每半年(一年)删除过期数据。
系统配置参数发生改变时,自身配置数据要备份,在出现意外时,用来恢复系统。
系统操作记录数据,每季备份一次,以作备查。
监控中心和监控站中主机的系统软件有正规授权,应用软件有自主版权,系统软件应有安装盘,在系统出现意外情况下,重新安装恢复。具备完善的安装手册、用户手册与技术手册,整套软件和文档由专人保管。
数据库内保存的历史数据在定期倒入外存后,作上标签妥善保管。
每日、每月、每季和每年打印出的报表,装订成册,妥善保管。
(报表格式参见附表8、9、10)
3.6. 每日维护任务
为保证系统运行的稳定性,工作的可靠性,发现问题能得到及时处理。监控中心值班人员应该严格作到以下几方面工作内容。
1.运行设备的检查工作:
Ø工控机运行状态检查。重点检查工控机的数据采集工作,是否正常工作,操作系统有无异常现象等情况发生。
Ø业务台运行状态检查。重点检查业务台与前置机上报数据的一致性,及告警信息是否完整准确等,并要确保报表台工作的可靠性。
Ø门禁业务台运行检查。重点应该检查当前信息收集的准确性,与工作的稳定性。并应能对使用情况进行统计。
Ø前置机端口运行状态检查。此项工作,应该重点保证各前置机上PC2M(8M)卡工作状态的稳定性,并作好各前置机网卡工作的检查工作。发现问题,在第一时间内进行处理。
Ø 节点通讯机运行检查。
Ø 数据库及存储程序状态检查。
Ø机房图像系统的检查。主要检查图像系统的工作状态,是否有乱码,有无重要可疑信息需要上报;图像传输设备是否工作正常。
2.杀毒系统的检查与维护。主要检查整个系统的防毒情况,通过定时查杀病毒,可通过Symantec系统服务中心的日志程序,查看有无病毒入侵。
3.省网管终端(B接口)的检查工作。保证系统运行的稳定性,检查数据上报的准确性。
4.告警的检查与处理。通过系统上报的告警信息,记录并判断需如何处理该告警。
3.7. 每周维护任务
每周的检查工作,具体应安排在每周的星期六,在完成日常维护检查工作的同时,作好以下几点工作内容。
1.路由器的检查工作。检查运行状态、数据日志等。
2. 图像采集设备的检查工作。检查编码器、
3. 机柜、DDF架的接插件检查工作。
4. 网管设备及机柜清洁。
5.数据的维护。检查本地库是否运行正常;版本是否一致;是否根据最新文件进行了升级;对错误数据进行更正。如果涉及到OMC数据问题,参照后面章节的所有内容进行更正。
6. 网络杀毒软件的升级病毒库工作。
7. 操作系统的补丁程序检查与升级工作。
3.8. 每月维护任务
每月的最后一个工作日,值班人员应该作好以下具体的值班工作:
1.备份数据库。备份Sybase数据库及前置机、业务台的本地Access数据库的运行资料。并通过压缩存放,方便日后的数据调用查询。
2.全网系统时钟校验。校对监控系统时间的一致性,保证上报数据的实时、可用性。
3.统计报表(停电统计报表、监控故障报表、监控日常维护表、备件使用登记表、备件库存表)
4.清理垃圾数据。主要针对Sybase数据库的垃圾数据进行处理,及业务台系统的一些垃圾数据。
3.9. 数据备份与软件升级
数据备份
日常的数据维护工作中,工作量主要集中在对数据库的操作上,如前置机、业务台的本地Access数据库及监控系统Sybase数据库。为了防止误操作的产生,保证数据的安全可靠,数据库的备份工作十分重要,具体应该遵循以下处理方法和原则要求:
1.在对数据库操作前,应征得值班人员或系统工作师的同意,防止因操作不当,造成的监控中断等重大事故的发生。
2.备份数据库的文件,不能使文件存放在和安装文件相同的分区中。
3.备份文件的命名应当遵循:前置机号+备份日期、业务台号+备份日期等格式,方便其它人员在以后的数据查阅。
软件升级
监控系统中涉及到需要升级的程序包括前置机运行程序、MISU的下载程序、业务台、节点通讯机、存储程序、系统软件等,软件的升级要严格按照操作说明的顺序与注意事项来进行操作,不能因个人原因产生遗漏,并且在操作之前,要在有条件的情况下,作好原有软件数据的备份工作,防止因为软件的升级,造成系统运行更大的不确定,具体应以下列内容为基准:
1.软件升级工作在升级完成的一段时间内,需要进行测试观察,保证升级的成功与彻底。
2.升级工作不能对监控系统的日常监控产生重要影响,在无法确定结果的情况下,不能在重要系统上直接进行升级工作。
3.升级工作需要严格按照操作说明进行操作。
(具体请参阅本手册相关章节中的相关介绍)
3.10. 故障与告警的处理
故障的发现与上报
日常的值班工作,最重要的内容就是对监控系统进行实时监控,出现问题,及时上报、处理。值班人员在第一时间发现问题后,填写故障记录单后,判断是否属于重大动力故障事故,如果是重大事故,需在第一时间报网管监控中心备案后,根据故障处理流程进行处理,在最短的时间内处理完毕,故障恢复后,应以书面的形式报告省网络部或相关部门备案。对于一般性的故障,在记录故障后,以派单的形式,交绐代维公司人员现场处理。故障恢复后,在网管监控中心备案即可。具体的上报操作流程如下图所示:
动力监控故障上报流程 |
值班人员发现故障问题,填写故障记录单,并作详细记录与备案。 |
判断是否属于重大动力故障事故,并说明故障的详细情况,供分析备案 |
重大动力故障告警信息。报网管监控中心备案,配合其作好故障的分析与在第一时间现场派员处理工作。 |
一般性故障。报网管监控中心备案后,派代维人员现场处理,配合其作好故障的恢复工作。 |
属于重大动力故障事故,书面上报主管部门。 |
重大动力故障处理完毕后,以书面形式向省网络部汇报情况。并按相关规定进行处理。 |
故障恢复后,报网管监控中心备案。 |
销报 |
故障的处理
针对具体的监控故障进行处理时,原则上只能处理监控相关的设备,对不属于中兴监控的产品,必须要有用户在场,或电话授权的情况下才可以操作,如对电源机柜的操作等,防止因不当操作,造成用户系统的中断和损失。
故障处理完毕后,需填写故障处理单(应该详细说明现场故障情况,分析故障过程,故障的解决过程,及遗留问题的说明等),报监控中心值班人员备案,在值班人员确认故障恢复正常无误后,方可结束(如是现场维护人员,则需在故障恢复确认后,方可离开现场)。
故障的处理,应该作到以下几点:
1.处理问题要彻底,不能有遗留故障隐患。
2.故障处理单,要有故障处理的记录详细,分析问题要有深度。
3.现场处理,要和网管监控中心人员及时沟通,保证监控数据的准确性。
4.严禁私自更改其它厂家设备运行状态与参数。需要操作其它厂家设备时,需和用户、第三方厂家进行沟通,确认后方可进行。
3.11. 资料整理工作
资料的整理与维护是一项长期的工作,涉及到日常监控中前置机数据库、基站监控数据、及日常维护的记录等,重点以监控基站的实时运行数据为重点,保证保存数据的准确性与完整性,方便维护人员的查阅。具体应以备份资料PC机作为资料备份用电脑,分类建立目录,如:数据库备份、办公资料、维护记录、下载程序、工程资料及人员个人的相关资料等都可存入电脑中,工作目录划分如下“工作目录划分示意图”所示。
工作目录 |
数据库备份 |
Sybase数据库相关 |
软件目录 |
办公资料 |
技术资料 |
下载程序 |
个人目录 |
工程资料 |
维护记录 |
日常维护过程中,必须将各地区最新的数据库、维护记录资料及下载程序等,保持一份拷贝在库房PC机中的相关目录中,方便日后的资料查阅。本着谁处理,谁保存,此项要求,需要严格长期执行。数据的记录与保存,将直接影响到后期维护工作的效率。而且在资料的维护过程中,对相同文件进行更新后,原则上要删除原有文件,防止出现多个相同文件同时出现,无法准确核对数据的问题。
3.12. 备件管理与返修流程
监控维护工作中,较多的涉及到备件的使用与返修问题,备件管理与返修的效率好坏,直接影响维护工作的实施进度,在具体的管理中,应当对备件的使用去向、好坏等进行分类管理,记录出入库的流水账。有条件的情况下可通过专门的库管软件进行管理。备件的管理与返修具体应有以下几部分。
Ø备件的分类存放。针对MISU内部板件(如P板、E板、S板)、BMU产品、传感器等产品,分类后放入有标签标明的纸箱中,方便日后的盘库等操作。
Ø库房出入库管理的书面化。出库、入库、借出与还入等具体的操作,应该认真作好记录,谁领用,谁签字。保证有历史资料可查阅,针对代维公司领取备件的数量等,要有较完备的记录资料。
Ø定期清理备件数量。为了作到对故障处理的及时,防止因备件环节,造成故障处理的延误,需要定期对备件数量进行清理。
Ø坏备件需帖故障定位牌(标)。现场人员在处理完故障后,需将坏备件标明故障原因。方便值班人员返回厂家进行处理。
Ø坏件定期返修。经过一段时间的故障处理,在备板、备件的损坏数量达到了一定的警戒水平时,需要进行备件的厂家返修处理。具体可通过联系本地区的维护经理,或直接和地区返修中心取得联系,通过货运渠道进行备件的返修。
Ø备件使用性能分析。通过对备件使用情况的统计,可以分析出哪些地区的基站环境较恶劣等统计信息。并可进行针对性的重点处理。