一个简单问题的溯源过程
问题
这篇只是想用一个溯源的过程,让人了解,什么是系统,以及各自的人员对于系统的理解。
过程
通过powercli获得在7月31日,有部分虚拟机提示nvram: write failed.错误。 这个是vmware的管理员看到的情况。
这个错误在vmware的kb上是说和datastore有关系。
然后存储管理员查7月31日的datastore日志。
发现7月31日的netapp磁盘阵列出现了断电的事故,但是netapp是双头的,所以大部分的应用不受影响。存储管理员也没有对这个事件做出响应,因为电来了后,就自动恢复了。
然后联系facility的人员,确认在7月31日确实出现了一定时间的停电故障。
结论
这里溯源的过程,各个角色看到的情况是不同的。但是都互相产生了影响。停电导致存储部分失效,而这部分和某些应用的vm有关系。
所以当出现问题的时候,或者溯源的时候,一定要先了解互相的依赖关系。有时候看到的表象,并不一定是自身的问题导致的,互相依赖的情况下,紧耦合的这种情况,会导致一连串的问题发生。
在更多的时候,利用流程可以做到最小化的影响。但是首先问题是确认资产,然后资产间的关系。很多做事情的人,只了解做自己的工作,忽略了自身工作和其他人工作的联系,导致了工作协作之间本应是1+1>2的情况,却发生了1+1<1的情况大量发生。
流程减少人与人之间的摩擦,用规则和实例指导事情的反应和流转。越是大的公司,越需要这样的规则,否则会出比较大的问题。