Política de Dados
De onde vêm os dados e o que fazemos com eles
O Anatomia do Gasto apresenta dados públicos, extraídos de fontes oficiais, sem edição editorial. Esta página explica o processo, a cadência de atualização, como reportar erros e como medimos uso do produto.
Origem dos dados
Os dados orçamentários de saúde, educação, segurança pública e transporte exibidos no Anatomia do Gasto são extraídos de documentos oficiais publicados pelo poder público. Conteúdos ilustrativos ou de curadoria editorial são sinalizados explicitamente.
- —
Portal de Transparência da Prefeitura de Sorocaba — relatórios de aplicação da LRF (saúde) e relatórios de execução orçamentária (educação)
- —
SICONFI / DCA — Declaração de Contas Anuais (Tesouro Nacional) — segurança pública (função 06)
- —
SICONFI / RREO — Relatório Resumido da Execução Orçamentária — transporte (função 26) e saúde (Anexo 12)
- —
SIOPS — Sistema de Informações sobre Orçamentos Públicos em Saúde (Ministério da Saúde) — referência de validação cruzada
Como os dados são extraídos
O processo de extração dos datasets orçamentários é automatizado e auditável. A equipe não altera manualmente os valores publicados nessas bases.
- —
Download automático dos PDFs a partir das URLs oficiais
- —
Leitura do texto dos PDFs com pdfplumber; fallback para PyMuPDF em PDFs baseados em imagem
- —
Normalização: remoção de acentos, conversão do formato numérico brasileiro (1.234,56 → 1234.56)
- —
Verificação de integridade: script que confere se os totais batem e se todos os períodos estão presentes
- —
O código-fonte completo está disponível em github.com/sallumc2018/anatomia-do-gasto
Atualização dos dados
Os dados são atualizados manualmente quando novos relatórios são publicados pelos órgãos oficiais. Não há atualização em tempo real.
- —
Saúde: três vezes por ano, ao término de cada quadrimestre (abril, agosto e dezembro)
- —
Educação: quatro vezes por ano, ao término de cada trimestre
- —
A data de referência de cada conjunto de dados é indicada na própria página
Erros e correções
Erros podem ocorrer por falhas no processo de extração ou por inconsistências nos próprios PDFs oficiais. Em ambos os casos, o procedimento é o mesmo.
- —
Para reportar um erro: contato@anatomiadogasto.ong.br — informe a página, o valor incorreto e a fonte que indica o valor correto
- —
Buscamos verificar a ocorrência com prioridade e registrar a resposta publicamente no histórico do projeto
- —
Erros confirmados são corrigidos e o commit de correção fica registrado publicamente no histórico do GitHub
- —
Se o erro estiver no PDF original: registramos a divergência na página correspondente, mas mantemos o valor do documento oficial até que ele seja corrigido na fonte
Temas em construção
O Anatomia do Gasto está expandindo para além das quatro áreas orçamentárias publicadas. Temas em fase de mapeamento metodológico não têm dados publicados neste site — a ausência é declarada explicitamente.
- —
Rastro Federativo — como recursos fluem entre União, estados e municípios — em construção; metodologia disponível em /pacto-federativo
- —
Câmara Municipal de Sorocaba — custo por vereador e produção legislativa — em mapeamento
- —
Demais poderes (Judiciário, Legislativo estadual e federal) — fora do escopo atual
- —
Nenhum número será publicado nessas frentes antes de fonte oficial confirmada e metodologia declarada
Licença dos dados publicados
Os datasets publicados em data/public/ estão disponíveis sob Creative Commons Attribution 4.0 Internacional (CC BY 4.0).
- —
Você pode copiar, redistribuir, adaptar e usar os dados para qualquer finalidade, inclusive comercial, desde que atribua a fonte: "Anatomia do Gasto — anatomiadogasto.ong.br, com base em dados de [fonte original]"
- —
Os dados de origem (portais governamentais, SICONFI, SIOPS, FNS etc.) permanecem sujeitos às condições de uso de suas respectivas fontes
- —
O código-fonte do projeto (site e pipelines) é disponibilizado sob licença MIT
- —
Licença completa: https://creativecommons.org/licenses/by/4.0/deed.pt_BR
Como medimos uso do produto
O site não exige cadastro e não usa cookies de publicidade, mas registra eventos agregados de navegação para entender se as trilhas principais estão funcionando.
- —
Nenhum formulário de cadastro ou login
- —
Nenhum cookie de publicidade ou retargeting
- —
Uso de Vercel Web Analytics para medir eventos agregados, como navegação entre páginas e cliques em trilhas principais do site
- —
Não usamos Google Analytics, Meta Pixel ou plataformas de publicidade comportamental
- —
A medição existe para avaliar se o produto ajuda o usuário a encontrar dados, chegar à fonte oficial e voltar ao site