图片 5

商家IT运营管理选型提议,哪类监察和控制工具才是运行人的最爱

By admin in 澳门新葡亰娱乐官网 on 2019年7月9日

企业在选择运维和管理工具时,首先要考虑当前企业的IT系统处于何种水平,在IT系统建设初期,设备数量少,问题也少,这时简单的用几个人就可以解决。随着IT系统的增多,各种关联的系统,复杂度成几何量级增长时,就需要陆续引入管理系统以保障IT系统能够正常的提供业务。应该从以下几个角度考虑如何选择和建设运维管理系统:

哪种监控工具才是运维人的最爱?

作为世界上华丽的舞蹈–华尔兹享有”舞中之后”的美称。华尔兹速度虽慢,但技艺难度却很大,不仅要先练好基本步,更要在此基础上学习各种变化步、花样步以及组合和套路。

首先应该考虑集中的监控功能,快速发现问题,并且进行跟踪处理,保障每个故障都获得根本解决,以减轻IT系统故障对企业业务的影响;

 

BSMBusiness Service
Management,即业务服务管理)的理念是从企业业务角度出发,来重新认识IT对业务的整合,是IT创新管理的风向标。BSM可以称为IT运维管理领域中的”华尔兹”,与华尔兹一样,因为它同样也具有了看似质朴简单却又高贵深奥的特质,所以广受一线IT运维人士的认同。它是打造一流的运维管理体制,是实现从优秀到卓越的关键,但BSM不是一蹴而就的。因此,企业在落实BSM前要形成一定的基础条件,也就是要先掌握最基本的舞步,然后才能倾听业务部门的节拍,将BSM充满活力地舞动。

其次应该是快速的诊断和排障功能,在发现问题的基础上,快速找到问题根源,并且及时将问题解决;

那些指标需要监控?我能监控到什么?能监控到何种程度?或许这些问题连你自己都难说清楚。先看看运维兄弟们的现状。

笨拙的舞步会踩踏业务主管的脚面

然后就应该IT考虑长期的优化和建设的规划,持续降低IT系统的故障率,提高IT系统的使用率。

 

作为国内领先的IT运维管理专家,北塔软件在协助电力、政府、金融、电信等4000家用户进行IT运维管理最佳实践中发现,绝大多数的企业深知BSM可以帮助他们改变在公司中的地位,但由于IT基础设施没有实现牢固的监控架构,IT部门的舌尖上也就无法品尝到BSM的美味了。因为主动运维的模式未能落实,假若销售业绩出现问题时,业务部门还会以系统故障,或是网络缓慢为由”起诉”IT经理。但若反过来想,这些投诉是有理由的,又有谁在一场舞会上被舞伴踩了N次脚面之后,不会埋怨几句呢?

网络运维管理见仁见智,各家关注点各有不同。但是必须注重以下三点:

1.运维现状

尽管IT运维管理技术在不断进步,但实际上,很多IT运维工程师并没有真正解脱出来,我们可以将传统的IT运维管理简单概括成四个字叫:”人拉肩扛”。因此,在BSM实施之前,企业要做的第一件大事就是解决设备层面的监控和预警难题。因为当涉及到今后的业务管理时,底层监控数据的分析结果,是对业务系统的运行状况最有说服力的。要改善这一状况,国内IT运维管理专家”北塔软件”举例说:IT部门需要把网络、路由器、交换机、服务器等纳入到北塔BTIMBetasoft
Integrated
Management,IT综合管理软件)平台上进行管理,保证其运行不出问题。通过IT基础设施管理服务的建设,IT部门有能力提供7X24小时全天候对服务器、网络和数据库进行监控。IT运维工程师会习惯使用监控工具,而不是手工打理,他们每天都会遵照和运用基础设施运维管理工具发现问题、解决问题、优化系统,并依靠ITIL方法论逐步对应出合理化的流程。

快:发现设备速度快,打开速度快,故障定位速度快。

传统企业的计算机运维是在用户使用计算机过程中发现故障之后,通知运维人员,再由运维人员采取相应的补救措施。运维人员日常大部分时间和精力都花在处理简单且重复的问题上,而且由于故障预警机制不完善,往往是故障发生后才会进行处理,这种情况使运维人员的工作经常处于被动“救火”状态,这种被动的运维模式让IT部门疲惫不堪。运维质量如何提高?生产部门能对运维部有满意的评价吗?

业务视图为IT与业务融合搭好舞台

准:在客户的复杂网络环境中拓扑发现准确,告警上报准确。

目前我们在运维管理过程中缺少明确的角色定义和责任划分,以及自动化的集成运维管理平台,以至于问题出现后很难快速、准确地找到原因,而且在处理故障之后也缺乏必要的跟踪与记录。

没有舞伴而空有一身舞技,就像藏在黑暗里的宝石般令人遣憾。BSM就好比双人舞,舞伴之间的默契配合就非常重要。某企业的一名IT部门主管曾经冥想:”业务部门的人70%懂自己的业务,30%懂IT,这样他们就清楚先进的IT技术如何帮助业务提高效率、创造价值、或改进业务流程;IT部门的人70%懂IT,30%懂业务,这样他们就明白业务部门的困境、苦恼、竞争压力,从而提出好的解决方案,这样就可以进入一个良性循环。”不过这是一种非常理想的状态,通常这也只能算是乌托邦而已。那么,IT运维管理就真的无法实现与业务部门的融合了吗?

稳:系统长时间稳定运行。

2.隐藏在流量背后的秘密

针对这个问题,北塔软件副总经理孙永杰先生认为:”按照一般公司的部门分工,业务部门主要负责业务软件部分的故障,当出现非软件问题时,均有IT部门进行排查,而传统上IT部门会根据网络、服务器、基础软件各个传统分类进行问题的排查,越是分工明确的公司,每个独立的设备都会有专人维护,那么在这个故障排查的过程所花的时间就会越长。而引入BSM后,IT部门以业务为视角,将业务所关联的网络、服务器、基础软件的端口等一目了然的规划在一张图形上,快速定位故障点,这样就能实现及时处理投诉,提高业务部门的满意度。”

如果管理软件不能达到以上基本要求,它的其他管理就缺乏坚实的根基,难以实际应用。

网络接口的通端,流量的大小,已满足不了目前运维故障排除的需要。我们需要将流量分析的更深入,更细致。

此前,由于企业已经可以从IT基础设施综合管理平台,以一致的方式来展示每个子系统的事件信息,并能够与配置管理平台CMDB)紧密融合。所以,现在可以围绕企业的关键业务,借助动态的业务与系统之间的映射视图来引入服务水平协议SLA)机制。在此阶段,可以利用BTIM中的构建业务视图,非常清晰地看到业务架构、业务运行、业务使用、事件原因分析、业务统计与分析。这种整合后结果,可以顾及业务系统全面的工作状态、运行效果以及与之直接或间接相关的各个方面,如:业务系统整体机构的吞吐量、机房环境影响等等。

在选择运维管理工具时,除了要看运维管理工具是否可以对企业内使用的IT资源进行全面的监控管理,同时还要关注是否基于业务视角的管理,IT服务于业务,避免管理层面与业务相脱离。另外由于大中型企业的IT规模较大,甚至有可能是跨地域范围的,所以在选型时,也要关注一下运维管理工具的架构和性能是否可以监控大规模网络节点,能否满足企业中分级、分权限管理的需求等等。

图片 1

舞者最高的境界是懂得音乐所描述的内涵,而我们的IT运维管理,最重要的就是要听得懂业务部门的心声。BSM让业务部门和IT部门能够拥有统一的管理语言、管理视角。结合企业战略和目前业务运营情况,辨识企业业务服务需求,特别是关键业务应用。扎实的舞步基础,再加上与舞伴的心灵沟通,我们最终会实现实施BSM的预期目标。
 

还是要根据自身的实际情况来选择,一般来说,运维工具可以分为运维监控工具、运维流程管理工具、厂商专业工具等几类。

图1 传统流量监控工具看表象

当企业的IT运维工程师不是很多时(6-7人以下),可以无需引入运维流程管理工具,而用OA、邮件等辅助工具可以达到类似的效果。目前市面上没有很好的开源的运维流程管理工具,当必须要引入运维流程管理工具时,使用国产化的商业工具几乎是必然的选择。

很多漏洞利用攻击、ShellCode攻击都混杂着正常流量进入企业网层层防护关卡。要想知道每个数据包中携带了什么内容,普通的摄像头已经失效,需要更强大的X透视相机-进行协议分析,只有准确理解事物的本质,才能对症下药,Shellcode攻击(下图是shellcode和botnet的实例)和各种蠕虫也是如此。

运维监控工具几乎是每个企业都必须的,它可以在达到较高运维质量的同时基本不增加运维的人力成本。开源的运维监控工具如Nagios等更适用于精通Linux、很专业的运维工程师。选择商业工具时,可以根据企业的具体情况和产品的特色来决定。比如如果需要监控一些比较新的开源软件,蚁巡运维平台几乎是唯一的选择。

图片 2

值得注意的是,由于目前市面上的免费的开源运维工具完善程度都不是很高,所以在人员技术能力一般的情况下采用开源运维工具并不能节约成本,反而可能会因实施复杂和无法得到技术支持而给企业的运维带来困扰。

图片 3

企业选择网络运维与管理来说,一般100台交换机企业来说,若是产品比较单一,建议选择厂商专属工具,一般200台到300台交换机的企业来说,建议选择第三方平台管理产品。

 

 

3.大数据时代下安全运维的新挑战

 

运维工程师们在大数据时代,下面对大量网络安全事件,若没有有效工具是无法完成分析工作,他们往往面对如下挑战:

1)  每天出现巨大数量的安全报警,管理员很难对这些报警做出响应。

2)  误报严重,管理员无法准确判断故障。

3) 
大量重复、零散而没有规律的报警,黑客的一次攻击行动,会在不同阶段触发不同安全设备的告警,这样导致报警数据之间在时间和空间上存在大量重复数据,如果不实现安全事件的关联处理,就无法有效的提高告警质量。

当出现这些问题的部分原因是企业缺乏事件监控和诊断等运维工具,因为如果没有高效的管理工具支持,就很难让故障事件得到主动、快速处理。市面上有很多运维监控工具,例如商业版的Cisco
Works
2000、Solarwinds、ManageEngine以及专注故障监控的WhatsUp,在开源领域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia等。由于它们彼此之间没有联系,即便是你部署了这些工具,很多运维人员并没有从中真正解脱出来,原因在于目前的技术虽然能够获取计算机设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起,让人根本没办法判断问题的根源在哪里,缺乏对信息进行筛选、数据挖掘的能力,其实我们并不缺少工具,商业的也好,开源的也吧,一抓一大把,为什么还是用不好?真正缺少的是分析数据的智能化。

另外我们的查看各种监控系统需要多次登录,查看繁多的界面,更新管理绝大多数工作都是手工操作,即使一个简单的系统变更或更新,往往需要运维人员逐一登录系统,当设备数量达到成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT
运维中往往每天都在进行,这无疑会占用大量的运维资源。因此,运维工作人员需要统一的集成安全管理平台已迫在眉睫。

过去仅靠几个“技术大拿”来包打天下已不能满足要求,企业需要一种安全的运维平台,满足专业化、标准化和流程化的需要来实现运维工作的自动化管理。因为通过集成监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,感知网络威胁,把故障消除在萌芽状态。这极大降低了运维人员的工作负担,最大限度地减少维修时间,提高服务质量。

 

4.人工整合开源工具

 

既然找不到合适的,我们就把常用的开源工具集成到一个Linux平台,这不是就实现统一管理平台了吗?

图片 4

人工整合开源监控系统的难点:

1.  软件和依赖依赖问题难以解决。

2.  各子系统界面重复验证和界面风格问题。

3.  各子系统数据无法共享。

4.  无法实现数据之间关联分析。

5.  无法生成统一格式的报表。

6.  缺乏统一的仪表板来展示重要监控信息。

7.  无法对网络风险进行检测。

8.  各子系统维护难度,增大了运维成本。

 

   
实践中发现,这种方案首先遇到了性能问题,一些脚本周期性消耗了较多的CPU和I/O资源,所以无法做到实时数据分析。试想有多少且能投入大量人力、时间去开发一个未知的监控平台?

 

5.集成安全运维平台的选择

一个好的安全运维平台需要将事件与IT
流程相关联,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。还需要能够筛选出运维人员完成日常的重复性工作,提高运维效率。要实现这些功能都是常规监控软件Cacti、Zabbix所无法实现。

同时,还要求能够预测网络蠕虫威胁,在故障发生前能够报警,让运维人员把故障消除在萌芽状态,将所产生损失减到最低。总的来说运维人需要能够在一个平台中实现资产管理、分布式部署、漏洞扫描、风险评估、策略管理、实时流量监控、异常流量分析、攻击检测报警、关联分析、风险计算、安全事件告警、事件聚合、日志收集与分析、知识库、时间线分析、统一报表输出、多用户权限管理的功能,这种集成开源工具到底有没有?它去哪儿啦?

目前市面上有两种产品可满足这样的要求,目前市面上的SIEM产品主要有HP
Arcsight(后台挂Oracle库)、IBM Security QRadar SIEM和Alienvault的OSSIM
USM,现在的问题是并不缺少商业SIEM解决方案,在开源软件中OSSIM到是最佳选择。

很多人只是肤浅的认为OSSIM只是将一些开源工具集成到一个平台,在OSSIM中颠覆性创新主要在易用(容易安装、部署,容易使用,几乎不用自己写脚本)、分布式监控系统、响应威胁(OTX)、关联分析引擎、可视化攻击展示等。

Alienvault分为开源OSSIM和商业版USM两种,通过这一集成监控工具实现对用户操作规范的约束和对计算机资源进行准实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。

图片 5

 

    
如果你即不想购买昂贵的商业软件,又不愿意投入大量精力进行开发,那么实现集成安全管理平台OSSIM就是唯一的选择,今天我刻苦钻研的OSSIM项目,很可能是你明天要做的事。

       好了,我们看看OSSIM能够为你带来怎样的体验?
进入

 

   
 看完后,有何感言?如果你想系统学习OSSIM,请关注我即将出版的第四本专著

《开源安全运维平台–OSSIM最佳实践》。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图
Copyright @ 2010-2019 澳门新葡亰官网app 版权所有