SRE — Site Reliability Engineering

SRE é a sigla para Site Reliability Engineering, disciplina de engenharia que aplica princípios e práticas de desenvolvimento de software à operação de sistemas de produção em escala. Originada no Google em meados dos anos 2000, formalizou abordagem em que a confiabilidade do sistema é tratada como problema de engenharia, com indicadores quantitativos, automação intensiva e disciplina operacional baseada em dados.

Os conceitos centrais incluem SLI (Service Level Indicator: métricas que descrevem qualidade do serviço), SLO (Service Level Objective: metas internas de confiabilidade) e SLA (Service Level Agreement: compromissos contratuais com o cliente). O conceito de error budget (orçamento de falha) deriva da diferença entre 100 por cento e o SLO: define quanta indisponibilidade é tolerada antes que o time pause novas funcionalidades para focar em estabilidade.

SRE e DevOps compartilham objetivos (acelerar entrega com estabilidade) mas diferem em ênfase. DevOps é movimento cultural amplo; SRE é função específica com práticas concretas. Em empresas brasileiras de grande porte (bancos, fintechs maduras, telecomunicações), as duas funções coexistem, com SREs frequentemente formando equipes de plataforma para múltiplos times de produto.

Origem do termo

O termo Site Reliability Engineering foi criado por Ben Treynor Sloss no Google em torno de 2003, quando Treynor (engenheiro de software) montou a primeira equipe SRE para gerenciar a confiabilidade de serviços. A obra Site Reliability Engineering: How Google Runs Production Systems, publicada pelo Google em 2016, formalizou e popularizou as práticas globalmente.