Site Reliability Engineering (SRE), ou Engenharia de Confiabilidade de Site, como é conhecida no Brasil, é uma prática desenvolvida pelo Google para garantir a confiabilidade, disponibilidade e escalabilidade de sistemas e de grandes operações de tecnologia.
A prática viabiliza a redução do tempo de inatividade dos serviços, uma melhor experiência para os clientes e o aumento da eficiência operacional. Mas, para que seja executada de maneira bem-sucedida, entende-se que o processo vai além do técnico, as empresas precisam desenvolver, fomentar e garantir uma cultura colaborativa.
1. Capacitação
O primeiro passo para difundir uma cultura colaborativa de SRE é fornecer conhecimentos e capacitações adequadas aos colaboradores, o que inclui a disponibilização de treinamentos, workshops e materiais de desenvolvimento complementares, a fim de popularizar os princípios, as práticas e as técnicas fundamentais de SRE.
O aculturamento dos membros das equipes com conhecimento sobre SRE, permitirá a implementação e a adoção mais rápida e eficaz da metodologia.
2. Compartilhamento Coletivo de Conhecimento
Promover um ambiente de compartilhamento coletivo de conhecimento, no qual as equipes possam discutir experiências, desafios e soluções relacionadas à implementação de SRE, facilita o empoderamento do tema e cultiva o olhar do colaborador de dono do negócio.
Recomenda-se reuniões, sessões de brainstorming e/ou grupos de estudo para incentivar a troca de ideias e boas práticas.
3. Criação de Equipes SRE
Essa equipe será responsável por disseminar a cultura nos outros times. Serão multiplicadores das práticas aplicadas, com base nas propostas anteriores, que viabilizam um profundo conhecimento sobre o tema.
Essas equipes podem atuar como mentores e consultores internos, auxiliando outras equipes a adotarem as melhores práticas do SRE em seus projetos.
4. Definição de Objetivos e Métricas
Estabelecer objetivos claros e mensuráveis não só relacionados à confiabilidade e à disponibilidade dos sistemas, mas também ao nível de adoção e de maturidade da prática.
É possível adotar a metodologia “Objectives Key Results” (OKR) para estabelecer métricas de períodos de inatividade, tempo médio de recuperação (MTTR), disponibilidade de serviços etc., o que permite acompanhar e redirecionar, caso necessário, o progresso e o impacto da adoção das iniciativas SRE.
Aqui, também é interessante considerar a monitoração dos ambientes e a aplicação das melhores práticas de telemetria e observabilidade.
5. Integração de SRE no Ciclo de Desenvolvimento
É preciso integrar os princípios de SRE desde a fase de desenvolvimento até a produção.
Para esse processo é necessário usar práticas como teste de confiabilidade, testes massivos, monitoramento contínuo e controle de lançamentos.
6. Adoção Gradual e Iterativa
A implementação da cultura SRE deve ser realizada de forma gradual e iterativa, começando com projetos-piloto e expansão gradual para toda a empresa, esse processo tem duração volátil de acordo com o tamanho da empresa e dos projetos envolvidos.
A aprendizagem contínua com os resultados obtidos nos pilotos ajudará a fortalecer a cultura SRE ao longo do tempo e a engajar ainda mais a instituição.
Conclusão
Difundir a cultura SRE é um esforço que envolve disseminação de conhecimento, compartilhamento de boas práticas e definição clara de objetivos.
Ao integrar os princípios do SRE no desenvolvimento de software e promover uma abordagem iterativa e colaborativa, é possível melhorar significativamente a confiabilidade de seus sistemas.
Para encerrar, a cultura SRE não reduz apenas o tempo de inatividade de sistemas, mas também estimula o engajamento dos colaboradores desenvolvendo um senso de dono do negócio e espaço aberto para escuta ativa, o que certamente impactará positivamente a eficiência operacional e, consequentemente, a satisfação do cliente final, tornando-se um fator crucial.
Fonte: Por José de Oliveira Carvalho – Líder de Infraestrutura e Produção na F1RST Digital Services
Nenhum comentário:
Postar um comentário