Verificação Heterogênea em Compliance Ambiental: Por Que Múltiplos Agentes LLM Não São o Suficiente

No setor de óleo e gás brasileiro, decisões de compliance ambiental acontecem em escala industrial todos os dias. Uma operadora de grande porte pode gerar dezenas de milhares de Manifestos de Transporte de Resíduos (MTRs) por dia. Cada MTR carrega responsabilidade técnica, legal e ambiental — e, desde a revisão da ABNT NBR 10004 em novembro de 2024, essa responsabilidade está ainda mais concentrada no gerador, que agora assina formalmente o Laudo de Classificação de Resíduo (LCR).

Diante desse volume e dessa responsabilidade, é natural que equipes de tecnologia perguntem: "podemos usar IA para automatizar isso?" A resposta curta é: em parte, sim — mas não da forma como a maioria das arquiteturas atuais está sendo construída.

O Problema com "Mais Agentes"

A intuição por trás dos sistemas multi-agente é sedutora: se um LLM erra, coloque três. Se três erram juntos, adicione um RAG com a norma. O problema é que essa lógica confunde multiplicidade com independência epistêmica.

Sharma et al. (2023) demonstraram empiricamente que LLMs da mesma família exibem sycophancy sistêmica — eles tendem a concordar entre si não porque chegaram à mesma conclusão por caminhos independentes, mas porque compartilham os mesmos vieses de pré-treinamento. Du et al. (2023) confirmam que agentes da mesma base produzem erros estruturalmente correlacionados nos mesmos sub-problemas difíceis.

Isso não é novidade conceitual. Knight e Leveson já mostravam em 1986, no contexto de N-version programming, que programadores independentes cometem erros correlacionados nos mesmos pontos de dificuldade. O que é novo é que agora temos evidência empírica de que LLMs replicam esse padrão de forma ainda mais pronunciada.

O corolário prático: um pipeline com três agentes LLM consultando o mesmo corpus CONAMA/IBAMA não é verificação heterogênea. É um único verificador com overhead computacional.

Quatro Tipos de Conhecimento, Quatro Oráculos

Uma abordagem mais rigorosa parte de uma pergunta diferente: qual é a natureza epistêmica desta sub-decisão? A partir daí, roteamos para o oráculo adequado.

Tier 1 — Oráculo simbólico: decisões que são lookup determinístico sobre norma estável. "Este resíduo está na Lista Geral de Resíduos (LGR) da NBR 10004-2:2024?" é uma consulta booleana contra um corpus canônico versionado. Ferramentas como Cedar ou OPA codificam isso com precisão formal e auditabilidade completa.

Tier 2 — Oráculo estatístico: decisões com incerteza quantificável e dados históricos disponíveis. Prever contaminação de borra oleosa a partir de parâmetros de processo é o território de modelos como XGBoost ou random forest com intervalos de confiança explícitos — Tian et al. (2025) alcançaram R² médio de 0,90 em pirólise de borra oleosa; Engle et al. (2021) usaram 58.541 amostras do USGS para atribuição de bacia geológica via random forest.

Tier 3 — Julgamento humano estruturado (MAP): decisões interpretativas onde a norma deliberadamente defere ao julgamento técnico. "Destinação ambientalmente adequada" (PNRS art. 3, VIII) não tem definição fechada. "Preponderância de característica de periculosidade" (NBR 10004:2024) exige interpretação de processo-de-origem. Nesses casos, protocolos como IDEA (Investigate, Discuss, Estimate, Aggregate) ou SHELF garantem que especialistas contribuam de forma estruturada e blindada entre si.

Tier 4 — Deliberação: decisões que envolvem trade-offs entre valores incomensuráveis. A escolha entre sucatear, revender ou estender a vida de uma plataforma inteira envolve ESG, geopolítica, licença social e finanças no nível de Board. Nenhum modelo decide isso — nem deveria.

Três Processos, Três Perfis de Prontidão

Aplicamos esse framework a três processos centrais do setor:

Gestão operacional de resíduos (P1)

É o candidato natural para piloto. O volume decisório é alto, o arcabouço normativo é formalizável (NBR 10004:2024, CONAMA 362/430/499, IBAMA SINIR/MTR, ANP SIMP) e as três fontes de evidência são genuinamente independentes: laudo laboratorial de terceiro, sensores e ERP operacional, e corpus normativo canônico.

A tensão central está na fronteira Classe 1 vs Classe 2 para fluidos novos — drilling muds aditivados, catalisador FCC gasto. Essa sub-decisão exige simultaneamente lookup determinístico (LGR), checagem de limiar numérico, interpretação estatística da incerteza laboratorial e julgamento de processo-de-origem. É o caso canônico onde a heterogeneidade arquitetural supera qualquer pipeline monolítico.

Um detalhe regulatório importante: a NBR 10004:2024 substituiu o esquema tri-classe (I, IIA, IIB) por bi-classe (Classe 1 perigosos, Classe 2 não perigosos) e as antigas NBR 10005/10006 foram integradas. As duas versões coexistem até 31/12/2026 — essa transição é, ela própria, fonte estrutural de ruído decisório que qualquer sistema precisa modelar explicitamente.

Qualificação de fornecedores e materiais reciclados (P2)

A tensão aqui é diferente: dependência de mesmo-documento. Um sistema com três agentes ESG avaliando um relatório de sustentabilidade parece robusto, mas todos consomem o mesmo PDF auto-declarado pelo fornecedor. Berg, Kölbel e Rigobon (2019) documentaram correlação de apenas ~0,5 entre agências ESG — e essas agências ao menos têm processos de coleta independentes.

Iwata & Sakihama (2025) mostram que o sinal dominante de greenwashing é o silêncio seletivo sobre incidentes negativos — padrão que RAG sobre o próprio relatório do fornecedor nunca detectará. A mitigação prescrita é rotear pelo menos um verificador para fonte estatal estruturalmente independente (IBAMA, CETESB, ANP) e incluir reamostragem física periódica como ground truth Tier 1.

Equipamentos em fim de vida (P3)

É o processo com literatura mais madura — Caprace et al. (2023/2025) validaram MCDA PROMETHEE com 37 atributos no campo brasileiro Espadarte — mas também com maior resistência estrutural à automação nas decisões de alta consequência.

O limiar CNEN de 1 Bq/g para clearance incondicional de NORM é formalizável em Tier 1. Critérios algébricos de API 579 Nível 1 cobrem os casos fáceis. Mas os 30% de alta consequência — NORM borderline entre 0,8–1,5 Bq/g, reuso de módulo com histórico de fadiga anômalo, avaliação comparativa ANP 817 para derrogação de remoção — resistem ao fechamento por limiar numérico porque as falhas são catastróficas, os dados são esparsos e a aceitabilidade regulatória é endógena à própria decisão. Rotear esses casos para Tier 2 ML seria um erro de arquitetura com consequências potencialmente irreversíveis.

O Anti-Padrão que Precisa de Nome

Existe um anti-padrão recorrente que merece nome explícito: agentes múltiplos sobre o mesmo RAG. Quando vários agentes LLM consultam o mesmo corpus regulatório, produzimos múltiplos tokens — não múltiplas perspectivas. A métrica de independência epistêmica colapsa silenciosamente, sem nenhum alarme visível no sistema.

Magesh et al. (2025) mostraram 17–33% de erro em ferramentas jurídicas comerciais com RAG, mesmo as que alegavam ser "livres de alucinação". Dahl et al. (2024) encontraram 58–88% de alucinação de citações em tarefas jurídicas com LLMs frontier. Esses números não são argumentos contra IA em compliance — são argumentos precisos contra a suficiência de verificadores LLM solitários, e a favor de heterogeneidade arquitetural real.

Onde Está a Contribuição Original

Existe um vácuo notável na literatura: não há nenhum artigo peer-reviewed que aplique LLMs ou sistemas multi-agente à classificação NBR 10004 ou ao roteamento CONAMA em óleo e gás brasileiro. Todos os benchmarks existentes — A3CG, ESG-Bench, Climate Finance Bench — estão em inglês, sobre regulações europeias ou americanas, sem contexto IBAMA/ANP.

Construir o primeiro corpus anotado Laudo → Classe → Destino → CDF com julgamentos de responsáveis técnicos múltiplos seria contribuição imediata. Mais importante: medir empiricamente a independência epistêmica entre oráculos heterogêneos em decisões reais de compliance industrial — algo que a matemática (teorema de previsão por diversidade de Page) e os protocolos (IDEA, SHELF) já suportam, mas que nunca foi operacionalizado nesse contexto.

Conclusão

O framework de verificação heterogênea não é uma aposta em tecnologia experimental. É a recomposição rigorosa de quatro tradições maduras — oráculos formais, ensembles estatísticos calibrados, elicitação estruturada de especialistas e deliberação — sob uma métrica de qualidade que a evidência empírica recente torna não-opcional.

A gestão operacional de resíduos no contexto brasileiro reúne as condições ideais para um piloto: volume alto, norma formalizável, fontes genuinamente independentes e ground truth autoritativo disponível via CDF e fiscalização IBAMA/CETESB. É raro um problema de pesquisa que seja simultaneamente defensável metodologicamente, viável tecnicamente e original cientificamente. Esse é um deles.

← Coming soon IA agêntica já está no seu codebase — e a maioria dos times não está preparada →