Alertas Útiles en Google Cloud Platform – Notas Mentales de Un SysAdmin

Intro

Me gustaría empezar esta entrada con un síntoma que he sufrido bastante en las empresas donde he tenido el placer de trabajar:

El Día a Día Me Come (DDMC)
Fransu Rondán

Se podría aplicar en muchos aspectos, tanto personales como profesionales. Pero hoy me gustaría hacer hincapié en esa gran aliada, apenas utilizada en las infraestructuras de sistemas: La monitorización.

Da igual como se llame la herramienta: Stackdriver, Zabbix, Nagios… Es una inversión de tiempo que se recupera a corto plazo. Lo importante es tenerla, configurarla y hacerle caso.

Ventajas

Detección e identificación temprana de problemas.
Ejecución de acciones preventivas.
Alertas y notificación de las incidencias.
Generación de informes de rendimiento y seguridad.
Capacidad para optimizar recursos.

¿Qué monitorizar?

En esta entrada no vamos a centrar en los indicadores del rendimiento (KPI) de VM y de contenedores de Kubernetes, en concreto la RAM y CPU, puesto que Google Cloud Platform es una plataforma demasiado flexible para detallarlo todo.

Memoria

Instancias de máquina virtual

Nombre del recurso	VM Instance
Etiqueta del recurso en la consulta	gce_instance
Nombre de la métrica:	Memory utilization
Descripción de la métrica:	Tamaño en bytes de memoria usada obtenida utilizando el agente de stackdriver.
Etiqueta de la métrica en la consulta:	agent.googleapis.com/memory/percent_used
Tipos de memoria disponibles para la monitorización:	buffered cached free slab1 used

Tabla 1. Monitorización de memoria en maquinas virtuales utilizando el agente de strackdriver.

Nombre del recurso	VM Instance
Etiqueta del recurso en la consulta	gce_instance
Nombre de la métrica:	VM Memory Used
Descripción de la métrica:	Memoria actual usada en la VM. Solo disponible para las VM de la familia e2.
Etiqueta de la métrica en la consulta:	compute.googleapis.com/instance/memory/balloon/ram_used
Tipos de memoria disponibles para la monitorización:	buffered cached free slab1 used

Tabla 2. Monitorización de memoria en maquinas virtuales de la familia e2.

Kubernetes

Nombre del recurso	GKE Container
Etiqueta del recurso en la consulta	k8s_container
Nombre de la métrica:	Memory Usage
Descripción de la métrica:	Uso de memoria en bytes
Etiqueta de la métrica en la consulta:	kubernetes.io/container/memory/used_bytes
Tipos de memoria disponibles para la monitorización:	evitable: Fácilmente reclamada por el kernel non-evitable: No fácilmente reclamada por el kernel

Tabla 3. Monitorización de memoria para contenedores de GKE.

CPU

INSTANCIAS DE MÁQUINA VIRTUAL

Nombre del recurso	VM Instance
Etiqueta del recurso en la consulta	gce_instance
Nombre de la métrica:	CPU utilization
Descripción de la métrica:	Porcentaje de CPU usado obtenido utilizando el agente de stackdriver.
Etiqueta de la métrica en la consulta:	agent.googleapis.com/cpu/utilization
Estados de CPU disponibles para la monitorización:	idle: Cuando no lo está usando ningún programa. interrupt: Señales enviadas por dispositivos externos a la CPU para detener las actividades actuales. nice: Tiempo dedicado a ejecutar procesos con buen valor positivo. softirq: Cuando se ejecuta un controlador de interrupciones o una función diferible. steal: Tiempo que una CPU virtual espera una CPU real mientras el hipervisor está dando servicio a otro procesador. system: CPU utilizada por el sistema user: CPU utilizada por el usuario wait: cantidad de tiempo que una tarea tiene que esperar para acceder a los recursos de la CPU

Tabla 4. Monitorización de CPU en maquinas virtuales utilizando el agente de strackdriver.

Hay muchos tipos de memoria, y todos deberían ser monitorizados. Sin embargo, considero que lo más fácil sería monitorizar que siempre tengamos un porcentaje libre de idle. No sabremos que tipo de memoria exactamente está dando el problema, pero detectaremos que algo está ocurriendo y podremos tomar medidas.

Podríamos configurar alertas, por ejemplo, que detectaran cuando la memoria idle disponible es inferior al 30% durante 1h.

Nombre del recurso	VM Instance
Etiqueta del recurso en la consulta	gce_instance
Nombre de la métrica:	CPU utilization
Descripción de la métrica:	Utilización fraccionada de la CPU asignada. Los valores son típicamente números entre 0.0 y 1.0. Los gráficos muestran los valores como un porcentaje entre 0% y 100%
Etiqueta de la métrica en la consulta:	compute.googleapis.com/instance/cpu/utilization
Valores de CPU disponibles para la monitorización:	cpu/utilization

Tabla 5. Monitorización de CPU en maquinas virtuales utilizando el agente de strackdriver.

Kubernetes

Debido a la forma de funcionar y a la lógica de Kubernetes, GCP no nos proporciona para los contenedores un parámetro utilization como pasaba con las máquinas virtuales. En su lugar nos ofrece los siguientes parámetros:

kubernetes.io/container/cpu/core_usage_time
kubernetes.io/container/cpu/limit_cores
kubernetes.io/container/cpu/limit_utilization
kubernetes.io/container/cpu/request_cores
kubernetes.io/container/cpu/request_utilization

Sin embargo, si queremos saber el uso de CPU, los clusters de GKE al final son maquinas virtuales en el entorno de GCE. Para evitarnos sustos, siempre es recomendable tener el cluster monitorizado como una máquina más.

Discos / Volumenes

Instancias de máquina virtual

Nombre del recurso	VM Instance
Etiqueta del recurso en la consulta	gce_instance
Nombre de la métrica:	Disk usage
Descripción de la métrica:	Disco usado en bytes obtenido utilizando el agente de stackdriver. Solo para VM Linux.
Etiqueta de la métrica en la consulta:	agent.googleapis.com/disk/bytes_used
Tipo de uso:	free reserved used

Tabla 6. Monitorización de uso de disco en bytes en maquinas virtuales utilizando el agente de strackdriver.

Nombre del recurso	VM Instance
Etiqueta del recurso en la consulta	gce_instance
Nombre de la métrica:	Disk usage in Bytes
Descripción de la métrica:	Disco usado en bytes.
Etiqueta de la métrica en la consulta:	compute.googleapis.com/guest/disk/bytes_used
Valores de CPU disponibles para la monitorización:	cpu/utilization

Tabla 7. Monitorización de CPU en maquinas virtuales utilizando el agente de strackdriver.

Filtros:

resource.namespace_name
resource.container_name
metric.memory_type:
- Values:
  - evictable: It is memory that can be easily reclaimed by the kernel
  - non-evictable. , Is memory that can not be easily reclamied by the kernel.

Alertas Útiles en Google Cloud Platform