quarta-feira, 27 de dezembro de 2023

A CONSTRUÇÃO DA CULTURA DE ENGENHARIA DE CONFIABILIDADE DE SITE

Site Reliability Engineering (SRE), ou Engenharia de Confiabilidade de Site, como é conhecida no Brasil, é uma prática desenvolvida pelo Google para garantir a confiabilidade, disponibilidade e escalabilidade de sistemas e de grandes operações de tecnologia. 

A prática viabiliza a redução do tempo de inatividade dos serviços, uma melhor experiência para os clientes e o aumento da eficiência operacional. Mas, para que seja executada de maneira bem-sucedida, entende-se que o processo vai além do técnico, as empresas precisam desenvolver, fomentar e garantir uma cultura colaborativa. 

1. Capacitação 

O primeiro passo para difundir uma cultura colaborativa de SRE é fornecer conhecimentos e capacitações adequadas aos colaboradores, o que inclui a disponibilização de treinamentos, workshops e materiais de desenvolvimento complementares, a fim de popularizar os princípios, as práticas e as técnicas fundamentais de SRE. 

O aculturamento dos membros das equipes com conhecimento sobre SRE, permitirá a implementação e a adoção mais rápida e eficaz da metodologia.

2. Compartilhamento Coletivo de Conhecimento 

Promover um ambiente de compartilhamento coletivo de conhecimento, no qual as equipes possam discutir experiências, desafios e soluções relacionadas à implementação de SRE, facilita o empoderamento do tema e cultiva o olhar do colaborador de dono do negócio. 

Recomenda-se reuniões, sessões de brainstorming e/ou grupos de estudo para incentivar a troca de ideias e boas práticas.

3. Criação de Equipes SRE 

Essa equipe será responsável por disseminar a cultura nos outros times. Serão multiplicadores das práticas aplicadas, com base nas propostas anteriores, que viabilizam um profundo conhecimento sobre o tema. 

Essas equipes podem atuar como mentores e consultores internos, auxiliando outras equipes a adotarem as melhores práticas do SRE em seus projetos. 

4. Definição de Objetivos e Métricas 

Estabelecer objetivos claros e mensuráveis não só relacionados à confiabilidade e à disponibilidade dos sistemas, mas também ao nível de adoção e de maturidade da prática. 

É possível adotar a metodologia “Objectives Key Results” (OKR) para estabelecer métricas de períodos de inatividade, tempo médio de recuperação (MTTR), disponibilidade de serviços etc., o que permite acompanhar e redirecionar, caso necessário, o progresso e o impacto da adoção das iniciativas SRE. 

Aqui, também é interessante considerar a monitoração dos ambientes e a aplicação das melhores práticas de telemetria e observabilidade. 

5. Integração de SRE no Ciclo de Desenvolvimento 

É preciso integrar os princípios de SRE desde a fase de desenvolvimento até a produção. 

Para esse processo é necessário usar práticas como teste de confiabilidade, testes massivos, monitoramento contínuo e controle de lançamentos.

6. Adoção Gradual e Iterativa 

A implementação da cultura SRE deve ser realizada de forma gradual e iterativa, começando com projetos-piloto e expansão gradual para toda a empresa, esse processo tem duração volátil de acordo com o tamanho da empresa e dos projetos envolvidos. 

A aprendizagem contínua com os resultados obtidos nos pilotos ajudará a fortalecer a cultura SRE ao longo do tempo e a engajar ainda mais a instituição. 

Conclusão 

Difundir a cultura SRE é um esforço que envolve disseminação de conhecimento, compartilhamento de boas práticas e definição clara de objetivos. 

Ao integrar os princípios do SRE no desenvolvimento de software e promover uma abordagem iterativa e colaborativa, é possível melhorar significativamente a confiabilidade de seus sistemas. 

Para encerrar, a cultura SRE não reduz apenas o tempo de inatividade de sistemas, mas também estimula o engajamento dos colaboradores desenvolvendo um senso de dono do negócio e espaço aberto para escuta ativa, o que certamente impactará positivamente a eficiência operacional e, consequentemente, a satisfação do cliente final, tornando-se um fator crucial. 

Fonte: Por José de Oliveira Carvalho – Líder de Infraestrutura e Produção na F1RST Digital Services 

Nenhum comentário:

Postar um comentário