SENTINEL™ v3.0 es un pipeline de confiabilidad autónomo de 8 pasos que opera continuamente en toda tu infraestructura de datos e IA. Comprender cómo funciona — no solo qué hace — es esencial para ajustarlo a tu entorno y para construir confianza en que sus decisiones autónomas son confiables.
El Paso 1 es la ingesta de señales. SENTINEL consume señales de confiabilidad de tres fuentes: resultados de validación de NEXUS™ (scores de calidad, fallos de expectativas, alertas de drift), metadatos de ejecución de pipelines (duración del job, conteos de registros, tasas de error) y métricas de salud de modelos ML (scores MRS, cambios de importancia de features, distribuciones de confianza de predicciones).
Los Pasos 2 y 3 son la detección de anomalías y la correlación. Cada señal entrante se evalúa contra baselines rolling usando un ensemble de detectores: z-score estadístico para métricas continuas, detección de cambio categórico para señales de schema, y detección de patrones temporales para anomalías de frescura. Las señales correlacionadas dentro de una ventana de tiempo configurable (predeterminado: 15 minutos) se agrupan en candidatos a incidentes.
El Paso 4 es el cálculo del blast radius. Antes de analizar la causa raíz, SENTINEL calcula el blast radius: ¿qué datasets, pipelines y modelos ML downstream dependen del activo afectado? Este cálculo recorre el grafo de OpenLineage almacenado en S3. El blast radius determina la severidad del incidente.
El Paso 5 es el análisis de causa raíz. El motor de RCA aplica una biblioteca de 50+ reglas de coincidencia de patrones a las señales correlacionadas y el grafo de linaje. Las reglas están organizadas en categorías: cambios de schema, anomalías de volumen, violaciones de frescura, drift de distribución y restricciones de recursos.
Para incidentes complejos donde el RCA basado en reglas produce hipótesis de baja confianza, SENTINEL escala a un paso de RCA asistido por LLM. El LLM recibe la línea de tiempo de eventos de confiabilidad, el subgrafo del grafo de linaje, las descripciones de incidentes históricos y las hipótesis basadas en reglas. Produce un informe de RCA estructurado.
Los Pasos 6 y 7 son la recomendación y ejecución de acciones. Para cada incidente, SENTINEL selecciona una acción del registro basándose en el RCA y la política de automatización configurada. Política conservadora (predeterminada): recomendar acciones a los ingenieros de datos, requerir aprobación para cualquier remediación automatizada. Política moderada: ejecutar automáticamente acciones de bajo impacto, requerir aprobación para acciones de alto impacto.
El workflow de aprobación de dos factores controla las acciones de alto impacto: el propietario de los datos recibe un mensaje de Slack con contexto completo del incidente, RCA y la acción propuesta; debe confirmar mediante un clic en el botón dentro de 30 minutos o SENTINEL escala al aprobador secundario.
El Paso 8 es el aprendizaje y la retroalimentación. Cada incidente resuelto actualiza la biblioteca de patrones de SENTINEL. Si una hipótesis de RCA basada en reglas coincidió con una causa raíz confirmada por humanos, el peso de confianza de esa regla aumenta. Si no coincidió, el peso disminuye. Con el tiempo, la precisión del RCA de SENTINEL mejora para coincidir con los patrones específicos de tu infraestructura de datos.
El DRS predictivo agrega una dimensión de pronóstico: SENTINEL modela las trayectorias de confiabilidad de 48 horas para cada dataset, señalando activos que están tendiendo hacia violaciones de umbral antes de que fallen.
Conclusiones Clave
- SENTINEL v3.0 es un pipeline de 8 pasos: ingesta de señales → detección de anomalías → correlación → blast radius → RCA → recomendación de acción → ejecución → aprendizaje
- La correlación de señales agrupa anomalías relacionadas en incidentes únicos — un cambio de schema en Bronze generando 12 señales es un incidente, no doce
- El blast radius recorre el grafo de OpenLineage para determinar la severidad: más dependientes downstream = mayor severidad
- El workflow de aprobación de dos factores controla las acciones autónomas de alto impacto con escalación configurable por timeout