Procedimiento Triage de Alertas
Este documento tiene como fin ayudarlos a realizar una estructura básica pero suficiente para hacer un triage de alertas en el NOC. El proceso es el siguiente:
Paso 1. Clasificación de la Alerta - 2 minutos o menos
Tipo de alerta: Identificar si es un problema de red, servidor, aplicación, seguridad, etc.
Origen de la alerta: ¿De qué sistema proviene? (Ej. Firewall, Switch, Router, Herramientas de monitoreo, etc.)
-
Gravedad de la alerta:
Crítica: Incidencia que afecta la disponibilidad de los servicios o la seguridad.
Alta: Problemas que pueden llevar a una interrupción de servicio si no se resuelven rápidamente.
Media: Impacto parcial en el servicio, sin causar interrupciones.
Baja: Incidencias menores o de seguimiento.
Paso 2. Evaluación de Impacto - 1 minuto o menos
Usuarios afectados: ¿Cuántos usuarios o sistemas se ven impactados?
Servicios afectados: ¿Qué servicios o aplicaciones están involucrados?
Ámbito de la afectación: ¿Es local, regional o global?
Paso 3. Prioridad - 1 minuto o menos
Paso 4. Diagnóstico Inicial - 5 minutos o menos
Recopilación de datos: Analizar logs, estadísticas de desempeño y alertas previas. Ejemplos de herramientas: Ping, Traceroute, Syslogs, SNMP.
Verificación de la causa: Identificar si es un falso positivo o si el problema es real.
Verificación de la severidad: Asegurar que la alerta no sea un error de configuración o un problema conocido sin impacto.
Paso 5. Escalamiento
Nivel 1: Si el problema es sencillo y puede ser resuelto internamente.
Nivel 2: Si se necesita más análisis, herramientas o intervenciones especializadas.
Nivel 3: Si el problema es muy complejo o crítico, requiere intervención de expertos o personal de más alto nivel.
Paso 6. Resolución y Notificación
Acción inmediata: Tomar acciones correctivas, como reiniciar equipos o aplicar parches (si se cuenta con el procedimiento para hacerlo).
-
Notificación a las partes interesadas:
Nivel 1: Correo a servicios TI, Mensaje por Teams.
Nivel 2: Mensaje por Teams o Canales de WhatsApp.
Nivel 3: Canales de WhatsApp, Mensaje Directo, Llamada.
Nota: Esperar 10 minutos antes de cambiar de método de contacto en Niveles 2 y 3.
Tiempos de espera: Si no se recibe respuesta en 10 minutos, escalar al siguiente nivel.
Paso 7. Documentación y Cierre de Incidente
Ejemplo de Plantilla a Enviar para Escalación
Alerta ID: 34753
Gravedad: Crítica
Impacto: Afectación de los servidores de Alestra Querétaro
Prioridad: Urgente
Acciones iniciales realizadas:
- Validación de consola del firewall: Activa
- Verificación de servicios de Internet y VPN: Activos
- Detección de falla en SW del Data Center: No responde