Líder, ingeniera de confiabilidad del sitio (Mexico City)

Oferta de empleo
Resumen del puesto:
El Ingeniero Líder de Confiabilidad del Sitio (SRE Líder) reportará al Gerente de SRE y brindará soporte al sitio web de Royal Caribbean, utilizando datos de rendimiento de aplicaciones y usuarios para guiar la toma de decisiones informada. El SRE Líder utilizará métricas de rendimiento de aplicaciones y usuarios recopiladas de diversas fuentes y herramientas para respaldar tareas como la clasificación inicial de incidentes críticos de producción, el análisis de errores, la implementación de las mejores prácticas en ingeniería de confiabilidad del sitio, la optimización de la infraestructura y la colaboración fluida entre equipos internos y proveedores de servicios externos, entre otras iniciativas operativas.
Funciones y responsabilidades esenciales:
A nivel general, las responsabilidades de este puesto incluyen:
Salud del producto: Lidera un amplio equipo de recursos de soporte de nivel 1 y nivel 2. Es responsable de la gestión de incidentes, el rendimiento de las aplicaciones, la gestión de la configuración y la disponibilidad operativa de los productos de su propiedad. Colabora estrechamente con las partes interesadas de los distintos equipos de TI para garantizar que las herramientas de rendimiento, configuración y monitorización satisfagan las necesidades de sus productos.
Gestión de incidentes. Es responsable de un equipo de recursos preparado para reaccionar rápidamente ante incidentes de producción con el objetivo de restaurar los sistemas/aplicaciones a su funcionamiento normal lo antes posible y minimizar el impacto en la experiencia de los huéspedes/tripulación o en las operaciones comerciales, garantizando así el mantenimiento de los mejores niveles de servicio y disponibilidad posibles.
Gestión del Rendimiento de Aplicaciones (APM): Garantiza la supervisión y gestión proactiva del rendimiento y la disponibilidad de las aplicaciones de software dentro de los productos de su responsabilidad. Se esfuerza por detectar y diagnosticar problemas complejos de rendimiento de las aplicaciones para mantener el nivel de servicio esperado.
Cualificaciones, conocimientos y habilidades:
Experiencia técnica:
Dominio de plataformas en la nube como AWS y AWS Elastic Beanstalk.
Comprensión de los principios de diseño de API: REST, SOAP, Graph.
Conocimiento avanzado de herramientas de monitorización y registro (AppDynamics, Datadog, Splunk, New Relic, etc.).
Un sólido dominio de Adobe AEM es crucial para guiar iniciativas técnicas y asesorar a los equipos.
Habilidades de resolución de problemas:
Sólidas habilidades analíticas y de resolución de problemas para diagnosticar y resolver problemas complejos de producción con rapidez.
Capacidad para desarrollar e implementar planes eficaces de respuesta a incidentes.
Inscribete aquí