En algún lugar escuché la frase el diagnóstico acertado es la mitad de la cura. Hoy, luego de participar en un incidente con interrupción de servicio en un cliente pude comprobar que la frase no aplica sólo a la medicina.
Diagnosticar es un arte en sí mismo. En algunos casos contamos con herramientas o tecnologías que nos pueden ayudar a identificar un problema y en otros no contamos más que con nuestra experiencia y corazonadas.
Pero la realidad es que en la mayoría de los casos las detecciones de los problemas se lleva a cabo luego de la aparición de los primeros síntomas.
En casos extremos lo que vemos es el resultado de la extensión del problema de raíz que deriva en otra cosa. En estos casos Lo que vemos, el síntoma, hace que el diagnóstico sea mucho más complejo identificar que es lo que lo está produciendo.
Volviendo al ejemplo de la tecnología… Hoy llamó un cliente informándonos que algunas de sus máquinas virtuales dejaron de funcionar en el único host que tenían en el sitio.
Dentro del mundo de la virtualizacion con VMWare a primera vista uno puede pensar algunos puntos sobre los cuales trabajar.
Esto se debe a que, por eliminación, son muy pocos los aspectos que pueden afectar solo a algunas máquinas virtuales en un host.
Luego de un análisis preliminar, charlar con el administrador sobre cosas que
podrían haber cambiado en el ambiente y que nos habilitaran el acceso VPN pasó una hora.
Resuelto el problema de la conectividad y comenzando con el análisis, ya que el diagnóstico lo teníamos comenzamos a trabajar en el problema.
House tenía razón, todos mienten.
House tenía razón, todos mienten. #troubleshooting #diagnostico #causaraiz #rca
En el momento nos llama otra persona del cliente para preguntarnos porque todavía no sabíamos que pasaba cuando era un problema tan grave. Caras de sorpresa por todos lados.
La persona que llamo inicialmente nunca dijo que era crítico ni que TODOS los sistemas estaba afectados.
Perdimos tiempo, mucho. Analizamos cosas que no tenían sentido para el problema real. Ya el síntoma no era una molestia, era algo mucho más grave que debíamos atender.
Si hubiésemos contado con la información correcta de buenas a primeras la respuesta al origen del problema hubiese sido identificada mucho más rápido.
Con el correr de las horas la primer persona que nos llamó nos “contó” que antes de llamarnos había cambiado un disco que se había roto. Más información que nos podría haber dado antes. De hecho el origen del problema fue ese disco local en el servidor.
Identificada la causa raíz del problema delineamos un plan de acción para volver a dar servicio cuanto antes y eliminar por completo la causa raíz del problema.
Todo esto demoró unas 8 horas, de las cuales más de la mitad estuvimos a ciegas por no contar con un panorama completo de lo que estaba pasando.
Se que los sistemas vuelven a dar servicios y que en la medicina hay casos en que la muerte es inevitable pero bien sirve como punto de partida de comparación.
En mis días de empleado de EDS, hoy HP, para detectar la causa raíz de un incidente utilizábamos un sistema de 5 pasos. Este sistema de 5 pasos es utilizado también en muchas industrias.
La misma se basaba en realizar la pregunta ¿porqué? cinco veces indagando cada vez de forma más profunda hasta dar con la causa raíz del problema y luego trabajar en la eliminación de la misma.
En algunos casos es efectiva, si se cuenta con TODA la información necesaria, pero en otros se puede quedar corta. Esto se debe a que al llegar al final de la respuesta del quinto ¿porqué? uno puede detener el análisis ahí mismo y quedarse plantado en esa respuesta cuando en realidad puede llegar a existir un punto más profundo aún.
¿Estás de acuerdo en que el diagnóstico acertado es la mitad de la cura?. ¿Qué métodos de análisis de causa raíz utilizas diariamente?.
Foto: Ripoff Я E.R.
Deja un comentario