Quando a IA passa a falar “juridiquês”: o Jurema 7B e a corrida pelos dados internos no Brasil
Treinar inteligência artificial com dados próprios parecia, até a semana passada, um esporte exclusivo para gigantes do Vale do Silício. Mas 2025 trouxe uma mudança de ventos vinda de Campinas. A bras...
Treinar inteligência artificial com dados próprios parecia, até a semana passada, um esporte exclusivo para gigantes do Vale do Silício. Mas 2025 trouxe uma mudança de ventos vinda de Campinas. A brasileira NeuralMind, em parceria com a legaltech Escavador e com um cheque de R$ 10 milhões da Finep, colocou na rua o Jurema 7B.

Não é apenas mais um chatbot. É um modelo de linguagem aberto, enxuto e, crucialmente, "alfabetizado" no caótico sistema jurídico brasileiro. O case virou o laboratório perfeito para entender o movimento de "soberania de dados" que capturou desde startups até o governo federal — e serve de alerta para quem acha que baixar um modelo gringo resolve tudo.
O “gringo” na Vara do Trabalho
Para entender a dor que o Jurema resolve, basta olhar para o que acontece quando um advogado tenta usar o ChatGPT puro para analisar um processo trabalhista de Sorocaba.
O modelo, treinado majoritariamente com textos em inglês e noções da *Common Law*, até escreve bonito. Mas alucina nos conceitos. Ele confunde súmulas com resumos, trata "agravo de instrumento" como recurso alienígena e, não raro, cita precedentes da Suprema Corte dos EUA para justificar uma decisão em uma comarca do interior de São Paulo.
O linguista Tiago Timponi Torrent, da UFJF, chama isso de "teto de performance". A estratégia de jogar mais processamento e mais dados crus da internet nos modelos bateu no limite. Para o direito brasileiro, o problema é estrutural: nossas peças misturam latim, abreviações indecifráveis (REsp, AIJE) e uma estrutura de ementas e acórdãos que simplesmente não existe lá fora.
O resultado prático para os escritórios era frustrante: respostas rápidas, mas juridicamente perigosas.
A anatomia de um dataset nacional
A NeuralMind e o Escavador decidiram não brigar por tamanho, mas por especificidade. Enquanto o GPT-4 tem trilhões de parâmetros, o Jurema tem 7 bilhões. A diferença é que ele foi para a "faculdade de direito".
A faxina invisível
O segredo não está no algoritmo, mas no "chão de fábrica" dos dados. A base do Jurema foi construída sobre o acervo do Escavador, que agrega diários oficiais e andamentos processuais.
O maior desafio técnico foi a limpeza. Decisões judiciais chegam em PDFs com formatação quebrada, assinaturas digitais, carimbos e ruído. Antes de o modelo ler uma linha sequer, houve um trabalho massivo de normalização e, mais importante, de **anonimização**. Nomes de partes, CPFs e dados sensíveis precisaram ser suprimidos para evitar que a IA aprendesse (e vazasse) segredos de justiça ou dados pessoais.
O viés civilista
Outro obstáculo foi o equilíbrio. O volume de processos cíveis e trabalhistas no Brasil é desproporcional ao de outras áreas. Sem uma curadoria estatística, o modelo viraria um especialista em ações de cobrança e ignoraria o direito penal ou tributário. O ajuste fino garantiu que o "cérebro" da IA não ficasse viciado no contencioso de massa.
Soberania digital saiu do papel
O lançamento do Jurema não acontece no vácuo. Ele coincide com um momento em que o "Made in Brazil" virou pauta de segurança nacional digital.
Em dezembro de 2025, o governo federal, via MCTI e Telebras, lançou o **SoberanIA**. A premissa é clara: hospedar e treinar modelos em data centers locais (como os da Scala), garantindo que dados estratégicos de governo e pesquisa não trafeguem por servidores estrangeiros. O projeto integra o Plano Brasileiro de Inteligência Artificial, que prevê R$ 23 bilhões em investimentos.
Na mesma linha, o **Serpro** anunciou seu próprio LLM treinado em português. A estatal quer fechar o ciclo: hardware no Brasil, modelo treinado em português e operação local. Para órgãos públicos, isso remove o medo de colocar dados de cidadãos em APIs internacionais sujeitas a regulação externa.
O fantasma do LAION-5B
A preocupação com a origem dos dados não é paranoia; é gestão de risco. Um relatório recente da Human Rights Watch revelou que o LAION-5B, base de dados usada para treinar geradores de imagens globais, continha fotos de crianças brasileiras raspadas de blogs familiares sem consentimento.
Simultaneamente, a ANPD multou e suspendeu a Meta por usar dados de redes sociais para treino de IA sem base legal adequada. O recado para o mercado foi duro: usar "qualquer dado que está na internet" virou um passivo jurídico tóxico.
Resultados reais: do escritório à legaltech
A aposta no Jurema 7B já gera métricas em um setor avesso a mudanças.
Aceleração na triagem
No próprio Escavador e em parceiros de teste, o modelo permitiu automatizar a leitura de peças iniciais. Em vez de um estagiário gastar horas resumindo os fatos de 50 processos novos, o modelo entrega a síntese e sugere a tese de defesa baseada na jurisprudência local — não na da Califórnia.
Contratos que param de pé
Em departamentos jurídicos corporativos, a aplicação foi na revisão contratual. Modelos genéricos falhavam ao diferenciar cláusulas de reajuste por índices brasileiros (IGP-M, IPCA) de multas moratórias. O modelo treinado localmente entende a nuance, reduzindo o vaivém de minutas.
Infraestrutura acessível
Talvez o maior "pulo do gato" seja o tamanho. Com 7 bilhões de parâmetros, o Jurema roda em servidores modestos ou até em estações de trabalho potentes locais (on-premise). Isso permite que um escritório médio em Curitiba ou um tribunal estadual use a IA sem precisar contratar nuvens caríssimas ou enviar dados sigilosos para fora.
O dilema do C-Level: Comprar ou Treinar?
O caso Jurema 7B desenha três caminhos claros para empresas brasileiras em 2025.
**1. A via rápida (RAG)** Para 80% das empresas, treinar um modelo é exagero. Conectar um GPT ou Claude aos seus PDFs via RAG (*Retrieval-Augmented Generation*) resolve o problema de atendimento ao cliente ou consulta a manuais. É barato e rápido.
**2. O ajuste fino (Fine-tuning)** É o caminho do meio. Você pega um modelo pronto (como o Llama ou o próprio Jurema) e o "ensina" apenas o dialeto da sua empresa — seus códigos de produtos, seu tom de voz de SAC. Varejistas e operadoras de saúde têm usado isso para criar assistentes que não soam robóticos.
**3. O treino especializado** É o jogo da NeuralMind. Faz sentido quando você tem um ativo de dados único (como o acervo do Escavador ou laudos médicos de um hospital de ponta) e precisa de precisão absoluta em um domínio complexo.
O "juridiquês" foi o primeiro idioma técnico a ser decifrado pela IA nacional. O próximo pode ser o "mediquês" dos prontuários do SUS ou o "agronês" das safras do Centro-Oeste. A tecnologia já existe; a questão agora é quem tem os dados organizados o suficiente para ensiná-la.
Fontes
Inteligência artificial à brasileira
Dados de crianças brasileiras são usados em treinamento ...
NeuralMind lança o melhor modelo de IA open source ...
Ministro das Comunicações participa do lançamento do primeiro ...