服务热线:010-8600-8600
新闻中心
当前位置: 北京PK10正规投注网站 > 服务项目 > 外设运维 >

联系我们

地址:深圳市南山区南山大道南海大厦
电话:010-86008600
24小时热线:010-8600-8600
邮箱:aicai555@isunit.com
客服:qq交谈(点击QQ咨询)

访谈:IT运维工程师如何规避可能发生的故障?

  虚拟化、容器、NoSQL、Hadoop、Spark......层出不穷,令人眼花缭乱,云计算、大数据、移动通信等互联网新技术不断演进,系统运维的技术含量越来越大,对系统运维人员的综合素质及能力要求也越来越高,系统运维也不再是部署系统、写管理脚本那么简单了。

  而且,随着业务应用越来越复杂,设备数量越来越多,管理难度越来越高,运维人员必须高屋建瓴,全面谋划,有能力提供一个全局性、高效健壮、标准规范、自动化的解决方案并加以实现。51CTO记者就系统运维的职业技能要求、工作中会遇到哪些难点和解决方案,以及运维人员的职业发展等问题,请教了韩晓光老师。如下内容是采访实录,希望大家能够有所收益。

  韩晓光,专业运维、兼职开发、干过商务,从事系统运维工作近10年。现就职于新华网(,带领运维开发团队,承担社交互动媒体几十套业务系统、技术平台运维。

  曾就职于中航信旗下航空结算公司,承担国内外几十家民航业务系统运维。

  具有“信息系统项目管理师”、“IBM CATE”、“ITIL Foundation”、“RHCE”专业资格认证。

  记得90年代末,中国互联网迎来了春天,搭上了世界IT行业的末班车。那个时候,电视、冰箱、洗衣机还是奢侈三大件。我们小伙伴们还在摇杆式游戏厅度过,至于电脑是什么鬼,我们都很少接触到。后来,有一次混进电脑室,面对窗明几净,齐刷刷的电脑,我小有震撼,但体验并不好,就是学敲五笔。记得电脑里还有超级玛丽,但我很疑惑:这么神秘的电脑房怎么还不如街头游戏厅好玩呢:)。

  再往后,我怀着一种憧憬选择了计算机专业。那个时候,IT互联网刚刚经历了2000年前后的阵痛。起初有了OICQ,新浪,Yahoo,邮箱,再后来有了Google,有了百度,再后来有了博客、校内、开心。再后来,我毕业了,阵痛和迷茫了,我要干什么呢?

  我曾经整过ERP ,做过Symbian,干过监理,弄过项目,也讲过课,可是都没找到感觉。后来我进入航空结算中心,开始接触到运维工作,当初次进入企业级机房时,我被各种大型机,小型机,X86,以及机房(的轰鸣声)又一次震撼了。

  **年,在宏观经济形势整体复苏回暖、信息通信 需求持续扩张的大势下,随着信息消费、宽带战略、4G等产业政策的全面落实,信息通信业有望继续保持平稳较快发展态势,预计整体增速仍将超过10%,其中 基础电信业增长8%左右,增值互联网领域增速超过30%,总体市场收入规模超过1.6万亿元,对国民经济发展的贡献将进一步增强。大数据技术及服务在 **年大幅增长30%,销售额超过140亿元。大数据分析服务供不应求,出现人才短缺情况。**年,大数据分析服务的开销超过45亿美元,比 **年增涨21%.

  原来IT幕后是这样的啊!我心里想,这貌似挺好玩的。从此,便走上了运维的“不归路”,直至现在还“无法自拔”。可能人生就是这样,在各种机缘巧合下,冥冥之中,你蓦然回首,发现自己竟然在这个人生道路上已走了那么远…….

  记得我的同事师傅喊我去机房进行设备上架布线。他带个手套,我很疑惑,他笑了笑,北京PK10正规投注网站>>北京赛车注册登陆>pk10投注站老平台>>:再然后,我的手被机架导轨划破流血了,他说他也是这么经历过的。术业有专攻,原来上架布线还有这么多学问,一个好的机房建设,其风火水电,人、事、物流程其中也都大有学问。

  图表 17 2013-2017年华南地区IT产业盈利能力对比图

  刚接触运维工作时,会突然冒出很多新鲜东西,有软件也有硬件的,有文档性也有技术性工作……这其中,有喜欢也有不喜欢的,有熟悉也有不熟悉的,但最终都是要面对的。

  BitComet(比特彗星)是一个完全免费的BitTorrent(BT)下载管理软件,也称BT下载客户端,同时也是一个集BT/HTTP/FTP为一体的下载管理器。

  对于从新手到经验者的转变过程,往往会有一个煎熬的过程,熬得住就算入行了,熬不住则就仍然在徘徊、浮游中度过。

  运维工作需要很多技能知识,有点像杂耍艺人的感觉,因此要有耐心,要虚心,多交流,一定要多实践,不要认为书本上学到的就靠谱。

  对于运维工作,不论新手还是老手,都可能经常遇到一系列痛处。比如以下几个场景。

  在杨辰看来,人工智能技术在运维大数据分析平台中的应用,很可能改变整个行业。辛苦的运维工作可以被机器代替,运维工程师将有更多的时间和精力去做更多保障企业业务运营和业务创新的事。而人的经验、智慧又会反馈回系统,逐渐替代人工处理更多的事。

  干运维工作需要有责任心,勇于担当,巧干实干,但不能无脑地干,否则后果可能很严重,或许一个命令下去,全系统over,这样案例在IT圈里还是很多的,后果是不堪设想的。

  二、在您近十年的工作经验里,有哪些让您印象深刻的故障发生?您是如何解决的?

  作为运维工作者,故障往往是必经之路。从到处救火的消防员到洞若观火的观察员职业发展道路上不断磨练。这也是凤凰涅槃,浴火重生,走向运维大神的必修课。

  在我这些年的运维工作中,可谓故障丛生,五花八门,有合同流程问题,也有SLA服务问题,当然更多的是具体运维故障。作为职业IT消防员,我们在面对故障问题时,请尽量保持冷静头脑,有条不絮处理问题,不可轻举妄动,避免导致次生故障。但同时也不能瞻前顾后太多,什么都不去尝试,导致故障持续时间大大延长。处理运维故障,胆大心细是关键。

  每次打开 Picasa 时,它都会自动查找所有图片(甚至是那些您已经遗忘的图片),并将它们按日期顺序放在可见的相册中,同时以您易于识别的名称命名文件夹。

  这种故障是比较危险的也比较难处理,原因在于导致该故障的原因较多,故障后果很严重。很多故障原因都可能导致该错误信息,比如网卡故障、HBA故障、存储故障、光纤线故障、交换机故障等等都可能导致该报错信息,难以快速定位故障点在哪里。该故障导致的后果很严重,不是断网就是断数据…..后果可想而知……

  DJ音乐盒2017,高音质mp3格式DJ舞曲在线播放的音乐盒。

  对于故障处理要有流程规范,不能没有章法。对上述故障,通常我的解决思路:

  1.首先考虑该故障影响等级、范围、都关联什么业务,人员。是否需要上报或者请求支持。

  QQ手机版,致力于更完美的移动社交、娱乐与生活体验――乐在沟通17年,聊天欢乐9亿人!!!

  2.查系统日志,寻找故障时间前后什么人登陆了,做了什么动作,发生了什么事情。

  3.这里经查是HBA故障,那就继续查看其关联的SAN交换机端口是否状态正常。

  4.这里经查SAN交换机端口不亮。那就继续查看是光纤线是否正常(有无光亮)。

  5.最后定位在SFP光纤模块故障。更换后,设备、线路、系统恢复正常。

  对于有些故障,其对技术的准确理解是解决技术难题的重要技能。既有的经验和网络上同行类似经验都是很好的解决思路。

  对于上述问题,既然无法同步,那么权限是否有问题呢?很快我们发现其mount的NFS无法读写,但df显示还有很多剩余空间。随后,我们又发现原来是inode用尽了。既然问题找到,那么就随之解决inode数量问题。最后,同步glustefs,解决了问题。

  有时候设备硬件会异常故障,对此意外,往往出现在不恰当的时间、地点。我曾经遇到过小型机CPU故障,直接导致宕机,后果当然很严重。我们不得不备份恢复业务,迁移系统。

  厂商配合我们解决问题,后来定位到CPU故障。其中有一个奇葩的现象和理由:同型号的产品对比国外,放到国内运行几年就很容易出问题,故障的设备往往都灰尘堆积,特别的脏。

  对上述故障,我们的反思总结:什么样的故障都可能发生,不是别人都没有发生过你就不能发生,因此做好应急备份,做好系统架构才是关键。后来我们的灾备体系,HA集群都逐渐加强与完善。

  故障总会发生,没有一个IT企业的运维会高枕无忧。但我们可以做到防微杜渐,大事化小,小事化了。在日常工作中,做好事前预测防范,事中解决应急,事后分析总结。

  要想提高运维水平,尽量规避风险故障,从根本上需要建立一个好的运维体系。运维体系是运维的基础和核心。通过运维体系的构建及完善,使我们的运维做到稳定可靠,准确完备,规范科学。

  从某种角度来看,系统运维体系可以用一个四面体来描述,包括四大方面:人、事、物、流程标准。

  从人、事、物、流程这四个方面便可以很好地将运维体系进行解构,它们彼此互相作用,共同构建了一个完整实用的运维体系。

  中国IT运维管理行业现状调研分析及发展趋势预测报告(2018版)

  如果上述任何一个维度失衡,那么整个运维体系就是短板,水桶效应。例如随着业务的发展,IT运维环境也要随之发展。需要做的事情多了,可以花钱招兵买马,购买新的软硬件设备。但流程标准是否能配套跟得上IT发展呢?如果流程标准跟不上,那么可能做起事情就会一团糟糕,遍地是坑,举步维艰。人力技能层次搭配不合理,职责混乱不清,资产设备管理混乱,不符合业务需要,此时可能就算招再多的人,购买再多的设备,只会使运维工作更加糟糕。

  生产物件需要有模型,建设楼房需要有框架,干运维工作同样需要构建体系。一个良好的框架体系是运维安全的最大保障。

  综上所述,这里列举一些具体的措施,以期尽量规避和减轻故障影响。

  搜狗浏览器是目前互联网上最快速最流畅的新型浏览器,拥有国内首款“真双核”引擎,采用多级加速机制,能大幅提高您的上网速度。

  2017-2022年全球及中国聚合物稳定剂行业发展研究分析与市场前景预测报告

  未来的发展总会有很多大家意料之外的事情,否则就不是未来的发展了。正如我们二十年前很难想到当今的移动互联网时代。

  但我觉得基于当前去畅想一下未来是很有意义的,因为今天的结果就是昨天的努力探索结果,而明天的结果也将是今天努力探索的结果。

  1.云计算迅猛发展,混合云广泛应用。正如我有私家车,但我也会使用公共交通工具;我有自己的房子住所,但我也会去住酒店宾馆。出于不同的业务发展需要,私有云、公有云、混合云的发展都将各有其应用场景。

  2.由于互联网+,物联网,大数据、云计算等各种理念技术的发展,这些都将对运维工作带来巨大的机遇与挑战。很多企业都处在传统IDC运维方式与云运维方式探索中。纵向行业大数据的海量运维服务正在广泛兴起。

  3.传统IT运维与互联网IT运维仍将长期并存。基于IOE架构的业务系统正在处于转型中,但基于开源互联网技术的成功经验也并非都能复制。

  不过,无论是哪个领域,笔者都建议去学习下linux。主要有以下几方面原因:

  4.运维开发是一种趋势,是一种最佳实践。对于广大运维工作者是技术转型的一种好的思路。

  5.运维部门由成本中心向利润中心的转变,运维工作由基建、救火角色向战略服务的转变。

  五、您认为运维工程师,日常需要经常充电吗?请您推荐些比较优秀的学习途径?

  总之是布线的时候要小心谨慎,不能损伤,划破,弯折,断裂。并在施工时就要检查好,否则后续维护相当不易。

  时代在不断发展,IT产业日新月异,今天的经验知识未必还适用于明天,因此我们需要持续充电学习。

  (2)所有楼层交换机之间互联:在交换机的线路互联线头端需要标明标识或者序号所接线头来源。(注意写上楼层及交换机标注,比如:1楼1号交换机,格式为1F-1 SW)

  以前可以做个百年老店,现在能撑住二三十年的就是模范,可见时代变换之快。如今各种线上线下学习、培训、交流日趋频繁,你有没有感觉到今年的各种交流会特别多呢?

  六、您新出了一本运维实战指南书籍《系统运维全面解析:技术、管理与实践》,从三个方面进行了介绍,其中您提到不仅仅是运维知识的叙述总结,同时更是对运维体系,运维之道探索的过程。那么,您认为的运维之道什么呢?

  首先,说说本书《系统运维全面解析:技术、管理与实践》,曾参与本书创作及运维开发的同事有:吕四海、彭燃、史影、童宁、高浩天、任勇斌、王天维。本书目前获得了很多读者的好评,算是达到了本书的初衷:希望带给大家的是思路和视野。给大家带来一束光亮,纵然不能照明所有模糊不清的地方,至少让大家看到一个路子,找到一个方向,减少大家摸索成长中的迷惑与歧路。

  所谓大道自然,运维工作理应立足实际,放眼未来。每个行业、每个企业,每个人独特之处,彼此的成功有可复制之处,也有不可复制之处。真正的大神是磨练出来的,纸上得来终觉浅,只有不断认知与实践,做到知行合一,方为至善,至运维之大道。

  大方无隅,大象无形,运维的大境界应该是大家都想不起来运维。唯有走出自己的运维大道,方能拨开云雾,放眼四海,剖解问题犹如随风入夜、润物无声,运维决策于千里之外。

  行文不易,最后感谢马艳锋(中国航空结算公司资深工程师,存储团队负责人)对本访谈提出的宝贵的建议与支持。

  Microsoft Security Essentials (开发代号Morro)是一款由微软(Microsoft)公司(收购一家反病毒软件厂商)开发的免费防病毒软件。


一键向上