Principais responsabilidades/funções da vaga:
- Estratégia de Confiabilidade: Liderar técnicamente a governança global de SRE, definindo frameworks de SLIs/SLOs/SLAs que alinhem os objetivos de negócio à disponibilidade técnica em toda a organização.
- Arquitetura de Entrega (GitOps): Desenvolver e evoluir a arquitetura de entrega contínua, utilizando ArgoCD e EKS, visando escalabilidade para múltiplos clusters e ambientes globais, garantindo conformidade e self-healing.
- Governança de Infraestrutura: Estabelecer padrões de arquitetura para IaC (Terraform), criando módulos reutilizáveis de alta abstração e gerindo a política de automação via Atlantis para garantir consistência entre todas as verticais.
- Evolução da Observabilidade: Projetar a visão de longo prazo para observabilidade (Tracing, Logging, Metrics), integrando OpenTelemetry e Datadog para criar uma cultura de telemetria preditiva e redução drástica do MTTR (Mean Time To Recovery).
- Segurança e Compliance Estratégico: Atuar como autoridade técnica em IAM e segurança de rede na AWS, desenhando modelos de Least Privilege automatizados e auditáveis para infraestrutura crítica.
- Liderança em Incidentes e Cultura: Liderar a resposta a incidentes de escala sistêmica e institucionalizar a cultura de Post-mortems blameless, garantindo que o aprendizado técnico se transforme em mudanças no roadmap de produto.
- Evangelismo de Platform Engineering: Impulsionar a adoção de conceitos de Internal Developer Platform (IDP) para reduzir a carga cognitiva dos desenvolvedores e acelerar o time-to-market.
Competências Técnicas:
- Experiência sólida: Trajetória comprovada em ambientes de alta escala, com histórico de decisões que impactaram múltiplos times ou a arquitetura core da empresa.
- Visão Multicloud e AWS Especialista: Conhecimento profundo da AWS além do operacional, focando em otimização de custos (FinOps), performance de rede e arquiteturas resilientes em múltiplas zonas/regiões.
- Engenharia de Kubernetes: Especialista em internals do EKS, segurança (Network Policies, OPA/Kyverno) e estratégias avançadas de escalonamento (Karpenter/KEDA).
- Ecossistema GitOps & Automação: Domínio arquitetural de ferramentas de orquestração (ArgoCD, Atlantis, GitHub Actions), desenhando fluxos que suportem centenas de deploys diários com segurança.
- Desenvolvimento de Ferramental: Alta proficiência em Go ou Python para construir operadores de Kubernetes, CLIs customizadas e integrações de API que automatizam o ciclo de vida da infraestrutura.
- Telemetria Avançada: Implementação de padrões de mercado como OpenTelemetry e gestão estratégica do stack de monitoramento para visibilidade full-stack.
- Observabilidade: Gestão de SLA, SLI e SLO's em soluçõs de mercado, principalmente Datadog.
- Banco de Dados: Proficiência em identificação de gargalos em Clusters de Banco de Dados, como queries N+1, falta de índices e problemas relacionados.