Загрузка...

Chisme Anónimo de TI #159 — sysadmin de la vieja escuela...

Hace tres años trabajaba en una empresa mediana de soluciones financieras donde teníamos un equipo de infraestructura que llevaba funcionando desde 2008 sin cambios mayores. Yo era el sysadmin senior, lo que básicamente significaba que yo era quien sabía dónde estaban todos los cables, qué máquina nunca apagar después de las seis de la tarde, y cuál era la contraseña de root que nadie quería tocar. El ambiente era ese de oficina donde los viernes se hablaba de fútbol y los lunes se rezaba porque nada se cayera. Mi manager venía del mundo corporativo, muy optimista, muy agresivo con los plazos. Un día nos llamó a todos a una junta.

El cliente, una aseguradora importante, pidió migrar toda la infraestructura a contenedores en Kubernetes antes de fin de trimestre. Tres meses. Mi manager sintió que era su momento de brillar, así que dijo que sí sin consultarme mucho. El PM asintió. Yo me quedé mirando la pared pensando en mi currículum. Nunca había tocado Kubernetes en producción. Había visto videos, leí un par de blogs, pero no era lo mismo. Pero bueno, ahí estaba yo, con 18 años administrando servidores bare metal, a punto de entrar a la dimensión de los manifiestos YAML.

Las primeras dos semanas fueron un desastre silencioso. Empezamos levantando un cluster en staging con versión 1.21, porque era la que recomendaba el proveedor cloud. Conforme íbamos moviendo los primeros microservicios, empezamos a ver cosas raras. Los pods se caían aleatoriamente. No había logs coherentes. El monitor de recursos mostraba números que no tenían lógica. Una aplicación que en máquina virtual consumía 512 megas de RAM de repente necesitaba tres gigas. Le pregunté al equipo de desarrollo si habían hecho algo distinto. Me dijeron que no, que era exacto lo mismo.

Ahí fue cuando empecé a hacer cosas que probablemente un Kubernetes engineer nunca haría. Comencé a aumentar los limits de recursos sin control, metí tolerations aleatorios, desactivé algunas opciones de seguridad porque "probablemente eran innecesarias". Mi manager presionaba cada lunes. El cliente empezaba a enviar mails diarios. El PM ya hablaba de la migración en presente, como si ya estuviera hecha. Pasé noches completas mirando eventos de kubectl describe pod y buscando en Stack Overflow qué carajos significaba "ImagePullBackOff".

Intenté un approach distinto. Simplemente apagué el vertical pod autoscaler pensando que capaz era eso que estaba destruyendo todo. La presión me tenía en modo supervivencia. Hasta hablé con el sysadmin de la otra área que había tocado Docker una vez, y me sugirió meter todo en un solo pod con múltiples contenedores porque "así es más fácil". Casi me convence.

Fue cuando mi manager vino a mi escritorio un miércoles a las cinco de la tarde diciendo que el cliente quería ver el ambiente funcionando. Ahí fue que algo hizo clic. Pregunté algo que no había preguntado en semanas: quien configuró los requests y limits en los deployment manifiestos. Nadie sabía. Fui al repositorio, y resulta que estaban heredados de un template que alguien copió de Internet hace meses. Los recursos asignados no coincidían para nada con lo que las apps realmente necesitaban. Nunca nadie había hecho un load test real. Los pods se caían porque estaban constantemente en out of memory.

Pasé un fin de semana completo haciendo profiling, ajustando requests y limits a valores reales, limpiando las configuraciones que había agregado en pánico. El lunes el cluster funcionó sin problemas.

Al final llegamos a tiempo. El cliente nunca supo que casi vuela todo. Mi manager me felicitó como si hubiera sido cosa de talento puro. Yo simplemente aprendí que Kubernetes no es malo, pero la gente sí toma decisiones malas bajo presión. Y que a veces, cuando no sabes algo, preguntar desde el principio hubiera ahorrado más estrés que todo el copypaste de Internet junto. Cuántos de ustedes han estado en esa posición donde saben que no saben pero la presión no deja admitirlo.

---
Reportado por un anónimo de la industria.

Si trabajas en TI y tienes un chisme parecido, cuéntalo en los comentarios.

#TI #SysAdmin #DevOps #Soporte #ChismesIT #Cisco #AWS #Microsoft #Tecnologia #Programacion #ITLatam #TechStorytelling #ITStories

Видео Chisme Anónimo de TI #159 — sysadmin de la vieja escuela... канала Hache Oficial
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять