¿Qué entendemos por Observabilidad?

¿Qué es?

La Observabilidad es la habilidad de medir el estado de un sistema.

Para ello, hay que recopilar, visualizar y aplicar inteligencia a todas las métricas, eventos, trazas y logs que el propio sistema genera. Dicho de otro modo, la Observabilidad es lo bien que se puede entender un sistema en base a su propio funcionamiento.

Técnicamente este concepto nació en 1960, incluido en la teoría del control de Rudolf E. Kálmán, aunque no fue hasta el año 2013 que comenzó a popularizarse en el contexto de la informática, de los sistemas IT, principalmente impulsado por los ingenieros de Twitter. De esta manera, la Observabilidad en IT engloba todo el ecosistema: infraestructura, software, comunicaciones…

La Observabilidad ha ganado importancia en los últimos años, ya que los entornos nativos de la nube se han ido volviendo más complejos, los desarrollos más ágiles y las posibles “causas raíz” de un fallo o anomalía se han vuelto más difíciles de identificar.

Es más, a medida que los equipos recopilan y trabajan con datos de Observabilidad, también se dan cuenta de sus beneficios no solo para IT, sino también para negocio.

La importancia de la Observabilidad

Con el auge de los entornos nativos de la nube, la aparición de los microservicios, los equipos DevOps, la entrega continua y el desarrollo ágil, todo se ha acelerado y se ha vuelto más complejo, y eso conlleva que sea más difícil identificar problemas; ¿está empeorando el rendimiento de un servidor? ¿o es el proveedor Cloud? ¿no se habrá desplegado código nuevo que esté afectando a los usuarios?

La Observabilidad ayuda a los equipos multidisciplinares a comprender lo que está ocurriendo en sistemas altamente distribuidos. Permite entender qué es lo que va lento o no funciona y qué se puede hacer para mejorar el rendimiento. Con una solución de Observabilidad, los equipos pueden recibir alertas sobre futuros problemas y abordarlos de forma proactiva antes de que se manifiesten y afecten a los usuarios, además de recibir un análisis del posible origen para agilizar su labor de recuperación del servicio.

Dado que los entornos Cloud modernos son dinámicos y cambian constantemente en escala y complejidad, la mayoría de los problemas ni se conocen ni se monitorizan. La Observabilidad aborda este problema de “unknown unknowns” permitiendo comprender de forma continua y automática nuevos tipos de problemas a medida que surgen.

Además, el valor de la Observabilidad no se limita al ámbito técnico. Una vez que se empiezan a recopilar y analizar datos de Observabilidad, se dispone de una ventana de información sobre el comportamiento de los diferentes SLAs. Esta visibilidad permite validar que los despliegues de software cumplen los objetivos de negocio, revisar los resultados de los SLOs de la experiencia de usuario y priorizar las decisiones de negocio en función de lo que más importe.

Diferencias entre Monitorización y Observabilidad

Aunque ambos están relacionados (¡y se complementan!), la Monitorización y la Observabilidad son dos conceptos distintos.

En un escenario de Monitorización, normalmente se preconfiguran dashboards y alertas que están pensadas para alertar de los problemas que se espera encontrar, que ya hayan ocurrido en el pasado. Sin embargo, se basan en la suposición de que se puede predecir qué tipo de problemas ocurrirán.

Los entornos nativos de la nube no se prestan a este tipo de Monitorización, ya que son dinámicos y complejos; no siempre se va a saber de antemano qué problemas puedan surgir.

La Monitorización convencional, tal como se recoge en el marco de la metodología ITIL, no resulta de tanta ayuda en el mundo de los microservicios y los sistemas distribuidos. La Observabilidad, por su parte, sí tiene el poder de saber no solo que algo está mal y puede causar un problema, sino de entender el por qué; otorga la flexibilidad de conocer patrones y fallos que ni siquiera habían sido planteados, los “unknown unknowns”.

En un escenario de Observabilidad, en el que un entorno ha sido totalmente integrado en la plataforma, se puede explorar con flexibilidad lo que está ocurriendo y averiguar rápidamente la causa raíz de los problemas que no se hayan podido anticipar.

Los pilares de la Observabilidad

Tradicionalmente se ha establecido que la Observabilidad cuenta con tres pilares fundamentales: logs, métricas y trazas distribuidas. Sin embargo, toda esa “telemetría” está centrada en el back-end de los sistemas y aplicaciones, y no proporciona una imagen completa.

Es necesario observar también el front-end para poder determinar el rendimiento real de las aplicaciones y la infraestructura de cara a los usuarios finales. Por tanto, se extiende el enfoque de los tres pilares, añadiendo datos de experiencia de usuario para eliminar puntos ciegos:

Logs: son registros de eventos ocurridos en un momento determinado.
Métricas: son valores representados como recuentos o medidas que a menudo se calculan o agregan durante un periodo de tiempo.
Trazas distribuidas: muestran la actividad de una transacción o petición conforme fluye a través de aplicaciones, enseñando cómo se conectan los servicios.
Experiencia de usuario: la perspectiva de un usuario final sobre una experiencia digital concreta dentro de una aplicación.

Observabilidad, SRE y DevOps

Ya hemos explorado en un artículo anterior: https://www.kiteris.com/site-reliability-engineering-que-es/ qué es el SRE, pero… ¿cómo interactúa este con la Observabilidad?

Los equipos de SRE, así como los de DevOps, tienen la responsabilidad de entender sus sistemas de producción y controlar su complejidad. Por tanto, resulta natural que también se involucren en la Observabilidad de los sistemas que desarrollan y ejecutan.

A medida que las prácticas de DevOps y SRE sigan evolucionando, y a medida que la ingeniería de plataformas crezca, surgirán inevitablemente prácticas de ingeniería más innovadoras. Pero todas esas innovaciones dependerán de tener la Observabilidad como punto central para entender unos sistemas cada vez más complejos.

Los equipos maduros de SRE y DevOps quieren medir cualquier síntoma visible de posible afectación al usuario y luego profundizar en la comprensión de esos síntomas mediante el uso de herramientas de Observabilidad.

La Observabilidad de Kiteris

Desde Kiteris apostamos por la calidad de servicio. Es por ello que nos apoyamos en las herramientas más vanguardistas del mercado, todas ellas recogidas en el Magic Quadrant de Gartner para APM (Application Performance Monitoring) y Observabilidad.

Ofrecemos diversos servicios, desde una migración de una plataforma básica o limitada en servicios como Splunk u OpenSearch, hasta instalaciones desde cero de plataformas más evolucionadas: desde las más consolidadas y potentes como Dynatrace, Datadog o New Relic, pasando por soluciones “Freemium” como Grafana o ManageEngine Site24x7 para escenarios menos exigentes, nuestro catálogo es amplio y completo, pensado para poder cubrir cualquier necesidad.

Consulte nuestro último caso de éxito: Transformación de un sistema de monitorización IT

Daniel Rodríguez de Guzmán Pedroche Autor

Observability Lead en Kiteris

drodriguez@kiteris.com

¿Qué entendemos por Observabilidad?

¿Qué es?

La importancia de la Observabilidad

Diferencias entre Monitorización y Observabilidad

Los pilares de la Observabilidad

Observabilidad, SRE y DevOps

La Observabilidad de Kiteris

¿Quieres más información sobre nuestros servicios?