Fundamentos de Operações de Software¶

Esta seção estabelece os conceitos fundamentais que sustentam as operações de software modernas. Dominar estes conceitos é essencial antes de avançar para práticas mais sofisticadas como AIOps e operações autônomas.

Objetivos de Aprendizagem¶

Ao final desta seção, você será capaz de:

Dominar os conceitos fundamentais de confiabilidade, disponibilidade e escalabilidade
Entender e aplicar SLIs, SLOs, SLAs e error budgets
Diferenciar DevOps, SRE e Platform Engineering
Compreender o ciclo de vida completo de operações de software
Identificar e eliminar toil (trabalho operacional manual)

Pilares das Operações Modernas¶

As operações de software modernas repousam sobre seis pilares fundamentais:

1. Confiabilidade (Reliability)¶

A confiabilidade de um sistema é a probabilidade de que ele operará corretamente sob condições específicas por um período de tempo definido. Não se trata apenas de "estar no ar", mas de funcionar corretamente.

Dimensões da confiabilidade:

Availability: Sistema está operacional e acessível
Durability: Dados não são perdidos ou corrompidos
Fault tolerance: Sistema continua operando após falhas parciais
Recoverability: Capacidade de recuperação após desastres

Na era dos LLMs: A confiabilidade estende-se para outputs de modelos de IA. Sistemas devem incluir:

Guardrails para validação de respostas
Fallbacks quando modelos falham
Monitoramento de qualidade de respostas (thumbs up/down)

2. Disponibilidade (Availability)¶

Disponibilidade mede a proporção de tempo em que um sistema está operacional e acessível:

Availability = Uptime / (Uptime + Downtime)

Níveis de disponibilidade comuns:

Nível	Disponibilidade	Downtime Anual	Downtime Mensal
99% (Dois noves)	99,0%	3,65 dias	7,2 horas
99,9% (Três noves)	99,9%	8,76 horas	43,8 minutos
99,99% (Quatro noves)	99,99%	52,6 minutos	4,38 minutos
99,999% (Cinco noves)	99,999%	5,26 minutos	26,3 segundos

Trade-offs de disponibilidade:

Cada "nove" adicional aumenta exponencialmente custo e complexidade
99,999% pode custar 10x mais que 99,9%
Nem todos os sistemas precisam de cinco noves

3. Escalabilidade (Scalability)¶

Escalabilidade é a capacidade de um sistema lidar com aumento de carga mantendo performance aceitável.

Tipos de escalabilidade:

Vertical (scale-up): Aumentar recursos de máquinas existentes (CPU, RAM)
Horizontal (scale-out): Adicionar mais máquinas ao cluster
Diagonal: Combinação de ambos

Dimensões de carga:

Volume de dados armazenados
Volume de requisições (requests/segundo)
Complexidade das requisições
Número de usuários simultâneos

Princípios de escalabilidade:

Statelessness: Serviços sem estado facilitam replicação
Caching: Reduz carga em backends
Database sharding: Distribuição de dados
Async processing: Filas para trabalhos pesados

4. Performance¶

Performance mede a velocidade e eficiência com que um sistema responde a requisições.

Métricas críticas:

Latency: Tempo para responder a uma requisição
P50 (mediana): 50% das requisições são mais rápidas
P95: 95% das requisições são mais rápidas (cauda)
P99: 99% das requisições são mais rápidas (cauda longa)
Throughput: Número de requisições processadas por unidade de tempo
Utilização: Porcentagem de recursos sendo usados (CPU, memória, disco, rede)

Lei de Little:

N = λ × W

Onde:
N = Número médio de requisições no sistema
λ = Taxa de chegada (requisições/segundo)
W = Tempo médio no sistema (latência)

5. Segurança Operacional¶

Segurança em operações vai além de prevenção de ataques externos:

Pilares:

Confidencialidade: Proteção contra acesso não autorizado
Integridade: Garantia de que dados não foram alterados
Disponibilidade: Sistema resistente a negação de serviço
Auditabilidade: Rastreamento de ações e alterações

Práticas operacionais:

Secrets management (Vault, AWS Secrets Manager)
RBAC (Role-Based Access Control)
Network policies e microsegmentação
Compliance automation (SOC2, PCI-DSS, GDPR)

6. Observabilidade¶

Observabilidade é a capacidade de entender o comportamento interno de um sistema a partir de seus outputs. Diferencia-se de monitoramento:

Monitoramento	Observabilidade
Conhece as perguntas de antemão	Explora questões desconhecidas
Alertas baseados em thresholds	Detecção de padrões anormais
Métricas predefinidas	Telemetria rica e estruturada
Reativo	Proativo e exploratório

Os três pilares da observabilidade serão detalhados na Seção 6.

SLIs, SLOs, SLAs e Error Budgets¶

Estes conceitos, originários do Google SRE, tornaram-se fundamentais para gestão de confiabilidade.

Service Level Indicators (SLIs)¶

SLIs são métricas quantitativas que medem um aspecto específico do nível de serviço.

Características de bons SLIs:

Relevante: Importante para usuários
Mensurável: Pode ser medido automaticamente
Compreensível: Significado claro para stakeholders

Exemplos de SLIs por tipo de serviço:

Tipo de Serviço	SLI Típico	Como Medir
API REST	Latência	P99 < 200ms
Web	Disponibilidade	99,9% uptime
Streaming	Taxa de buffering	< 0,1% sessões
Storage	Durabilidade	99,999999999%
Batch	Throughput	Jobs/hora

Service Level Objectives (SLOs)¶

SLOs são metas quantitativas para SLIs. Definem o nível de confiabilidade que um serviço deve manter.

Exemplo de SLO:

"O serviço de pagamentos deve manter disponibilidade de 99,95%
medida em janela de 30 dias, excluindo manutenções programadas."

Princípios para definir SLOs:

Baseado em experiência do usuário: SLOs devem refletir percepção real
Realista: Deve ser atingível sem esforço hercúleo
Mensurável: Deve ser possível calcular automaticamente
Revisável: Devem ser revisitados periodicamente

Janelas de medição comuns:

Rolling window: 30 dias contínuos
Calendar window: Mês calendário
Quarterly: Trimestral

Service Level Agreements (SLAs)¶

SLAs são contratos formais que definem consequências quando SLOs não são atingidos.

Diferença crucial:

SLO = Meta interna
SLA = Compromisso externo com penalidades

Estratégia comum:

SLA (externo) = SLO (interno) - margem de segurança

Exemplo: Se SLO interno é 99,95%, SLA externo pode ser 99,9%.

Error Budgets¶

Error budget é a quantidade de "indisponibilidade permitida" derivada do SLO.

Cálculo:

Error Budget = 100% - SLO

Para SLO de 99,9%:
Error Budget = 0,1% = 43,8 minutos/mês

Uso do Error Budget:

O error budget serve como mecanismo de tomada de decisão:

Budget Status	Ação Recomendada
> 50% disponível	Priorizar velocidade de deployment
20-50% disponível	Balancear velocidade e estabilidade
< 20% disponível	Congelar features, focar em estabilidade
Esgotado	Deployment freeze até recuperação

Exemplo prático:

Serviço: API de recomendações
SLO: 99,95% disponibilidade
Error Budget mensal: 21,6 minutos

Cenário:
- Incidente na semana 1: 15 minutos de downtime
- Budget restante: 6,6 minutos
- Decisão: Testes adicionais obrigatórios para novos deploys

DevOps, SRE e Platform Engineering¶

Três disciplinas relacionadas mas distintas:

DevOps¶

Definição: Movimento cultural e técnico que integra desenvolvimento e operações.

Princípios CALMS:

Culture: Colaboração, confiança, responsabilidade compartilhada
Automation: Automação de processos manuais
Lean: Foco em fluxo contínuo de valor
Measurement: Métricas e feedback loops
Sharing: Conhecimento compartilhado

Foco: Colaboração, velocidade, feedback rápido

Site Reliability Engineering (SRE)¶

Definição: Disciplina que aplica engenharia de software a problemas de operações.

Princípios fundamentais:

Engenharia sobre operações: Automatizar tudo o que se repete
SLOs e error budgets: Gestão quantitativa de confiabilidade
Eliminação de toil: Reduzir trabalho manual
Postmortems sem culpa: Aprendizado com falhas

Foco: Confiabilidade, escalabilidade, eficiência

Platform Engineering¶

Definição: Disciplina que constrói plataformas internas para acelerar entrega de software.

Componentes de um IDP:

Software catalog
Self-service workflows
Golden paths
Observabilidade integrada
Governança e compliance

Foco: Produtividade do desenvolvedor, abstração de complexidade

Comparação¶

Aspecto	DevOps	SRE	Platform Engineering
Origem	Movimento cultural	Google (2003)	Evolução de DevOps
Foco	Colaboração	Confiabilidade	Produtividade
Escopo	Organização	Serviços	Plataformas
Métricas	DORA	SLIs/SLOs	Developer Experience
Entrega	Cultura	Engenharia	Produto

Ciclo de Vida de Operações¶

As operações de software seguem um ciclo contínuo:

┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│   Design    │───▶│  Deploy     │───▶│  Operate    │
│             │    │             │    │             │
│ Operability │    │  CI/CD      │    │ Monitorar   │
│ SLOs        │    │  GitOps     │    │ Responder   │
└─────────────┘    └─────────────┘    └──────┬──────┘
      ▲                                      │
      │                                      ▼
      │                               ┌─────────────┐
      └───────────────────────────────│   Improve   │
                                      │             │
                                      │ Postmortems │
                                      │ Otimizar    │
                                      └─────────────┘

1. Design para Operabilidade¶

Decisões tomadas durante o design impactam drasticamente operações:

Princípios:

Observability by design: Instrumentação desde o início
Graceful degradation: Funcionalidade parcial em falhas
Fail fast: Detectar falhas rapidamente
Idempotência: Operações seguras para repetir

2. Deploy¶

Entrega de mudanças em produção:

Práticas:

Continuous Integration
Continuous Delivery/Deployment
GitOps
Progressive delivery (canary, blue-green)

3. Operate¶

Execução diária:

Atividades:

Monitoramento e alerting
Resposta a incidentes
Gerenciamento de capacidade
Manutenção preventiva

4. Improve¶

Aprendizado e evolução:

Práticas:

Postmortems (blameless)
Otimização contínua
Eliminação de toil
Atualização de SLOs

Gerenciamento de Toil¶

Toil é o trabalho operacional manual repetitivo que:

É necessário para manter serviços funcionando
Não cria valor duradouro
Escalaria linearmente com o serviço

Identificação de Toil¶

Sinais de toil:

Tarefas manuais repetitivas
Resposta a alertas que sempre têm a mesma solução
Dados copiados entre sistemas manualmente
Alterações de configuração manuais

Categorias de Toil¶

Categoria	Exemplo	Solução
Provisioning	Criar VMs manualmente	Infra as Code
Deployment	Deploys manuais	CI/CD
Configuração	Alterar configs em servidores	Config management
Resposta	Restartar serviços manualmente	Auto-remediation
Comunicação	Escrever updates de status	Automatizar status pages

Estratégias de Eliminação¶

Meta do Google SRE: Cada engenheiro deve gastar no máximo 50% do tempo em toil.

Abordagens:

Automação: Scripts e ferramentas para tarefas repetitivas
Self-service: Permitir que usuários resolvam problemas
Eliminação: Remover processos desnecessários
Simplificação: Reduzir complexidade

Processo de eliminação:

1. Medir tempo gasto em toil
2. Priorizar por frequência e esforço
3. Automatizar ou eliminar
4. Medir novamente
5. Repetir

Princípios que Permanecem Válidos na Era dos LLMs¶

Apesar das transformações, certos princípios fundamentais permanecem:

1. Automação de Trabalho Manual Repetitivo¶

A IA acelera a automação, mas o princípio permanece:

Antes: Scripts e playbooks
Agora: Agentes autônomos

2. Monitorar o que Importa¶

SLOs continuam sendo o norte:

Antes: Alertas baseados em thresholds
Agora: Detecção de anomalias com ML
Constante: Foco em experiência do usuário

3. Postmortems sem Culpa¶

Cultura de aprendizado:

Antes: Documentação estática
Agora: Análise assistida por IA
Constante: Foco em sistemas, não pessoas

4. Design para Falha¶

Sistemas resilientes:

Antes: Redundância e failover
Agora: Sistemas self-healing
Constante: Falhas são inevitáveis

Na Era dos LLMs¶

A IA generativa transforma fundamentos de operações:

Impacto nos SLIs/SLOs¶

Novos SLIs emergem:

Qualidade de resposta de LLM: Taxa de respostas úteis
Latência de inferência: Tempo de resposta de modelos
Custo por requisição: Eficiência de tokens
Taxa de hallucination: Precisão factual

Transformação do Toil¶

O que era toil antes:

Análise manual de logs
Escrita de queries complexas
Documentação de procedimentos
Correlação manual de alertas

Com IA torna-se:

Análise conversacional de logs
Geração de queries por linguagem natural
Documentação gerada e mantida automaticamente
Correlação inteligente de eventos

Exercícios¶

Exercício 1: Definindo SLIs e SLOs¶

Para um serviço de e-commerce, defina:

Três SLIs relevantes para usuários
SLOs realistas para cada SLI
Error budgets correspondentes

Exercício 2: Análise de Toil¶

Identifique atividades de toil em seu ambiente atual:

Liste 5 atividades que consomem mais tempo
Classifique por frequência e impacto
Proponha automações para as top 3

Exercício 3: Trade-offs de Disponibilidade¶

Analise um serviço hipotético:

Quanto custa cada "nove" adicional?
Qual o impacto no velocity de deploys?
Qual disponibilidade é apropriada para o negócio?

Referências¶

Beyer, B. et al. (2016). Site Reliability Engineering. O'Reilly Media.
Jones, C. et al. (2021). Software Engineering at Google. O'Reilly Media.
Davis, C. & Daniels, N. (2022). Cloud Native DevOps with Kubernetes. O'Reilly Media.
Kim, G. et al. (2016). The DevOps Handbook. IT Revolution Press.
Humble, J. & Farley, D. (2010). Continuous Delivery. Addison-Wesley.