不知不觉间从事服务器运维工作已经有10年多了,期间维护过银行系统,中小型企业的电商网站及个人的博客站点,可以说从单台到几十台集成的环境都接触过。
服务器运维工程师的工作是比较单调而又重复性工作,客户的服务不出现问题的情况下,会做一些例行任务,比如检查每天定时执行的备份是否正常完成,确认系统资源的使用情况等等。
刚开始工作的时候,全部是物理机还需每天目视查看物理机的运行情况。但是随着这几年云服务的快速发展,维护硬件和网络的情况越来越少了(这部分工作应该是让云服务商给吸收了)。
目前服务器运维的范围大约如下图(可能根据你所在的公司有些不一样)。
下面是根据自身的经验总结了服务器代维/托管服务都提供哪些服务,仅供参考。
(1) 备份
「备份,备份,备份」刚参加工作时开始领导就强调这个备份,从数据库的备份,程序的备份到系统的备份。甚至修改一个配置文件时,肯定会问”修改之前进行备份了吗?”。
可能有人认为这是不是太过了,其实一点都不过,还真是「有备无患」。
怎么能保证修改配置文件时不会发生错误,数据库的数据不丢失呢。
最好的保证就是备份,所以说备份是服务器运维当中最重要的一个因素。
可以想象一下,运行多年的站点的数据因系统故障全部丢失了,是不是灾难?
(2) 监视
服务器运维,也可以说是从监视开始。
运维工程师需要根据客户系统的特点,监视各项指标。如系统资源(CPU,内存,磁盘,网络使用情况等),应用程序的响应时间即服务响应时间,日志文件及各种中间件(Apache,MySQL,Redis等等)。
全方位的监视指标,会缩短发生问题时的排查时间。
(3) 告警
告警就是,发生问题时如何告知客户的手段。
常见的是电话/邮件/短信,这些告警也可通过监视系统的自动化来实现。而运维工程师通过电话告知客户的方式是最人性化的,因为目前的自动化技术还达不到,跟客户的实时的沟通。
(4) 处理问题
表现工程师价值的时间了。
谁也不想出现问题,但是当出现问题的时候,如何快速的定位问题点并解决问题,是运维的核心价值。
以下3个层面直接关系到解决问题的速度。
1,对客户系统的了解程度
2,运维工程师的技术能力
3,平时的训练
(5) 改善服务
出现问题就表示有改善的余地,有时需要通过技术层面,有时需要添加设备来进行改善。
但是这里有个误区,很多人认为通过优化可以在很大程度上提高性能及服务响应时间,其实除非原有的系统配置很坏很坏的情况下可能有这种可能性。一般来讲通过优化可提高的性能仅限于10?0?而通过添加硬件设备得到的将是100?上的性能提高。(有时侯性能也得拼银子)
(6) 技术支持
根据客户的需求进行日常维护。如添加FTP账户,添加虚拟主机,临时备份一下数据库等等。
|