技术运维作为站在研发团队背后的群体,一直在担任着举重若轻的角色,而这两年盛行的Devops、研效变革也直接影响到技术运维同学岗位职责的变化,本文来自腾讯云架平技术运维副总监 huashionxu 结合近十年运维领域的自我修养体会,与技术运维同学探讨运维人的定位,文化,价值观已经未来的成长,更为大家带来一些成长的启示。

我毕业后的第一份工作做业务运维,接触的产品也比较多如游戏、内部安全、云安全、P2SP机房、推荐与个性化等等,基本上PC和移动时代的业务都接触过。在16年的时候,因为机缘发展,加入腾讯,做云块存储类的产品运维,目前主要负责相关产品的运维管理工作。

第一个问题:世界上第一个运维是谁?这里所指运维还是偏业务运维或者SRE的范畴。

世界上第一个运维人名叫Margaret Hamilton,为什么说她是世界上第一个运维呢?其中是有一段故事的。

https://mmbiz.qpic.cn/mmbiz_png/wndUCAU5ml7oUibcicCmHMkiaBT8SPy9TXHpkaLGRkib2rTLiamzVOfdVVHcZ1GvKp62dWh41M2vdyZk8lGmbggOfwA/640?wx_fmt=png

Margaret是在NASA工作,一次她带着她的小女儿Lauren去工作的地方玩,期间Lauren误触了控制台,引发程序崩溃,Margaret思考在火箭飞行过程中也有可能发生这样的错误,于是她在火箭飞行手册中添加了一段文字,提醒宇航员不要误触发P01程序,并给出了恢复手段。Apollo 8执行飞行任务时,结果真的有人误触发了P01程序,幸好有Margaret之前给出的恢复手册,最终才化险为夷。

在今天来看,当时Margaret做的工作其实就是在做预案,这跟我们现在运维做的工作是如出一辙的,所以从这个意义上讲,她可以被认为是世界上第一个业务运维。

当时她还说了这样一段话,**“无论对一个软件系统运行原理掌握得多么透彻,也不能阻止人犯意外错误。”**这其实就是运维的思想,也是我们每天在干的事情。

一、运维到底是干什么的?

https://mmbiz.qpic.cn/mmbiz_png/wndUCAU5ml7oUibcicCmHMkiaBT8SPy9TXHiaXNftlYuJ6ylrDW7q6cPn2REJMWxap0EBDpTXbJRGjGd0w5VJBlPBQ/640?wx_fmt=png

很多人认为运维应该是在机房搬服务器,插拔网线,调试网络,或者修电脑的。但我们自己觉得运维应该是个比较“高雅”的职业,每天状态是在办公室,泡杯茶或咖啡,面对电脑处理着工作....但实际上呢,其实还是挺苦的,很多运维同事都是救火的状态,觉得特像消防员,每天都是在面对各种线上问题,半夜还要值告警,特别辛苦同时压力也会很大。

1、运维的工作分类

https://mmbiz.qpic.cn/mmbiz_png/wndUCAU5ml7oUibcicCmHMkiaBT8SPy9TXH0fc2iaOExngCQI4w2LKhkdb5pImcnNIVnzjO6Hby5la4SveKibDQG7jw/640?wx_fmt=png

运维这个职业有很多工种,比如说我自己是做业务运维,主要是面向业务的;还有系统运维,比如负责网络,操作系统的、底层IaaS的等等;还有一类是数据库DBA,是专门负责数据库;还有专门负责安全的安全运维;还有运维开发,Devops(AIOps)负责开发运维工具和平台;还有800的小伙伴,做IT运维。

因为现在大部分的基础设施都云化了,如果按照云的维度来看,又可以分为SaaS、PaaS和IaaS运维。

2、运维的工作职责

https://mmbiz.qpic.cn/mmbiz_png/wndUCAU5ml7oUibcicCmHMkiaBT8SPy9TXHy3rtNDoCo2F0E9v9dk27hI0vejt5OW0TDZjYUshYYjoFUr8Pfe96Ag/640?wx_fmt=png

运维的工作职责和定位通常是:**第一个定位 质量守门人,**运维最核心的OKR或KPI就是围绕质量,负责所有线上的问题;**第二个定位是效率提升者,**运维需要对日常的一些重复工作去开发各种各样的工具,提升整体运维效率,这样才能更好的去驱动质量的提升;**第三个定位是口碑维护者,**很多运维同学都是要接触业务,不管是负责内部自研业务还是外部云客户,都需要深入业务做好服务,在TEG很多同事都承担了这样的职责,这就是左边的圈。

同时我们日常开展工作锁围绕的三个生命周期(右边的圆圈):**第一个故障生命周期,**故障生命周期就是从一个故障最开始的发生,到发现,到定位,到分析,到最后恢复;**第二个应用生命周期,**所有线上跑的应用APP,从最开始的发布评审,到发布上线,到监控,包括做资源,后面预案,都是围绕应用生命周期;**第三个资源生命周期,**资源生命周期和应用生命周期还是有些区别。因为运维还管了很多设备,包括硬件设备,IT,实例资源,那就要去做资源生命周期的相关工作,包括资源的申请、报备......所以运维的职责大致就可以用这两个圈来概括。

3、运维的工作内容