Descripción de niveles de fallo
Dependiendo de la profundidad y alcance del fallo presentado, se definen los planes a seguir.
Nivel 1: Error administrativo
Esto es incurrir en no disponibilidad por errores humanos ya sea de RVG o dl cliente, tales como, eliminación de servidores, pasos a producción con despliegues problemáticos, o cambios de configuración que producen mal funcionamiento y posterior disminución de la disponibilidad.
Nivel 2: Fallo de físico de servidor en datacenter
Ocurriría en el evento de fallo de un hypervisor o del servidor no virtual del cliente, de forma que este se encuentre unresponsive de forma definitiva.
Nivel 3: Fallo de larga duración en datacenter
Se produciría cuando ningun componente del cliente o del datacenter principal están disponibles para prestar el servicio o realizar ninguna maniobra de recuperación.
Plan general de contingencia
Fallos de Nivel 1
Servidores virtuales
Existen tres opciones de recuperación de máquinas virtuales a saber:Reseteo de servidor, Devolución a Snapshot y Recuperación completa del servidor.
A continuación las actividades a realizar y la duración aproximada:
Resetar el servidor
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Resetear un servidor | Cliente | App GServices Móvil GServices WEB | 1min |
Solicitar archivos de servicios
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Solicitar backup de archivos de servicios | Cliente | Incidencia | 1min |
Localización y preparación de archivos | RVG | N/A | 10mins |
Recuperación de rchivos en servidor | RVG | N/A | 1 min por cada Gigabyte |
Volver al estado de un snapshot
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Solicitar la recuperación del snapshot | Cliente | Incidencia | 1min |
Recuperación del snapshot | RVG | N/A | 10mins |
Recuperar el servidor completo
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Solicitar la recuperación del servidor | Cliente | Incidencia | 1min |
Recuperación del servidor | RVG | N/A | 10 secs por cada Gigabyte de los discos del servidor virtual mas el tiempo de inicio del servidor. |
Servidores no virtuales
Solicitar archivos de servicios
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Solicitar backup de archivos de servicios | Cliente | Incidencia | 1min |
Localización y preparación de archivos | RVG | N/A | 10mins |
Recuperación de rchivos en servidor | RVG | N/A | 1 min por cada Gigabyte |
Resetear el servidor
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Solicitar el reinicio | Cliente | Incidencia | 1min |
Ejecución del reinicio | RVG | N/A | 5mins |
Fallos de Nivel 2
Servidores virtuales
Mover el servidor virtual a otro hypervisor
Esto aplica cuando el fallo que se produce en el hypervisor no afecta la disponibilidad de almacenamiento y red del mismo.
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Migrar el servidor virtual | RVG | N/A | 1 min por cada Gigabyte de los discos del servidor virtual aprox mas el tiempo de inicio del servidor, sin embargo se moverá en caliente siempre que sea posible |
Recuperar el servidor completo
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Recuperar el servidor | RVG | N/A | 10 secs por cada Gigabyte de los discos del servidor virtual mas el tiempo de inicio del servidor. |
Servidores no virtuales
Reaprovisionamiento y recuperación
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Se aprovisiona el nuevo servidor | RVG | N/A | 3 Horas aprox |
Se localizan y preparan y recuperan archivos de servicios | RVG | N/A | 1 min por cada Gigabyte + 10 mins |
Se levantan servicios | Cliente | N/A | Dependerá del servicio |
Fallos de Nivel 3
Para recuperación en caso de desastres donde el datacenter principal no está disponible para ningun tipo de operación se tienen dos esquemas posibles a saber: Entorno pasivo y Aprovisionamiento nuevo.
Entorno pasivo
Esto es una infraestructura con servidores mínimos disponibles a los cuales se sincronizan diariamente los archivos de servicios necesarios para operar
Actividad | Responsable | Canal | Tiempo de recuperación |
---|---|---|---|
Se verifican archivos y configuraciónes necesarias | Cliente | N/A | 30 mins aprox |
Se recuperan backups de bases de datos | Cliente | N/A | 1 min por cada Gigabyte (traído desde backup internacional) |
Se levantan servicios | Cliente | N/A | Dependerá del servicio |
Aprovisionamiento nuevo
Actividad | Responsable | Tiempo de recuperación |
---|---|---|
Se aprovisionan los servidores | RVG | 1 día |
Se recuperan backups de bases de datos | RVG | 1 min por cada Gigabyte (traído desde backup internacional) |
Se recuperan archivos de servicios | RVG | 1 min por cada Gigabyte (traído desde backup internacional) |
Se levantan servicios | Cliente | Dependerá del servicio |