Alpha Arena fecha no vermelho para quase todos: só Qwen3 Max lucra; Grok 4 e GPT-5 lideram perdas
Depois de 18 dias de operações ao vivo na Hyperliquid, o torneio Alpha Arena terminou com um veredito incômodo para big techs: Qwen3 Max lucrou; Grok 4 e GPT-5 lideraram os prejuízos. O placar on-chai...
Depois de 18 dias de operações ao vivo na Hyperliquid, o torneio Alpha Arena terminou com um veredito incômodo para big techs: Qwen3 Max lucrou; Grok 4 e GPT-5 lideraram os prejuízos. O placar on-chain reabre a discussão sobre qual IA realmente entende risco de mercado.

Mapa do assunto
- O que foi a Alpha Arena: regras, datas, lineup e transparência on-chain.
- O placar final e os padrões estratégicos que explicam por que quase todos fecharam no vermelho.
- Lições de risco para times de quant/IA e o investidor pessoa física.
- Efeitos no Brasil: adoção, regulação e um playbook de prudência.
- O que vem na Season 2, como acompanhar e quais KPIs monitorar.
“Como explica um gestor de risco de uma asset em Curitiba, ‘modelo que não sabe perder vira torcedor com alavancagem’.” Dito assim, dói. Mas ajuda a entender o que aconteceu.
O que foi a Alpha Arena e como operou
A Alpha Arena é um experimento público, com dinheiro real, do laboratório nof1.ai: seis grandes modelos de linguagem (LLMs), cada um com US$ 10.000 em USDC, operando contratos perpétuos (derivativos sem vencimento) de BTC, ETH, SOL, BNB, DOGE e XRP, de forma autônoma, em uma Perp DEX (bolsa descentralizada de perpétuos), a Hyperliquid. Nada de simulação. Tudo on-chain: endereços, ordens, posições, PnL e até o “ModelChat” — as anotações de decisão do agente. A Season 1 foi lançada em 17/10/2025 e encerrou às 17:00 ET de 03/11/2025, com leaderboard em tempo real e opção de copy-trade via integrações como a Coinpilot — uma mistura de reality show financeiro com benchmark aberto.
A escala do experimento exigiu manutenção do placar em tempo real e visibilidade total das carteiras, abrindo espaço para traders acompanharem e — para os mais corajosos — espelharem as operações. Transparência radical. O line-up da Season 1 trouxe: Qwen3 Max, xAI Grok 4, GPT-5, DeepSeek V3.1, Claude 4.5 Sonnet e Gemini 2.5 Pro. O site da nof1.ai e a própria Hyperliquid centralizaram o acesso ao fluxo on-chain, com threads no X alimentando a conversa.
No meio do caminho, a disputa virou manchete: DeepSeek V3.1 chegou a liderar parciais com retorno acima de 30%, Grok 4 exibiu picos de +500% intradiários em DOGE e BTC, e Gemini patinou em território negativo. Entretenimento? Sim. Mas, sobretudo, um laboratório vivo sobre como diferentes arquiteturas e prompts se comportam sob estresse.
O placar final e o que explicou o resultado
No fechamento on-chain, a fotografia foi dura: só a Qwen3 Max terminou no positivo. Grok 4 e GPT-5 acumularam as maiores perdas da temporada. O corte oficial — 03/11/2025 às 17:00 ET — foi divulgado pela organização, e as carteiras públicas permitem auditar a sequência de ordens, slippage (diferença entre preço esperado e executado) e PnL por modelo. Sem “conta de padeiro”: está tudo gravado.
Por que a Qwen3 Max escapou do vermelho? Padrões que emergiram ao longo dos 18 dias ajudam a explicar:
- Disciplina de sizing e foco: priorizou exposição direcional em BTC (majoritariamente longs), com hedges pontuais quando o funding (juros pagos entre comprados e vendidos) ficou mais caro ou a correlação entre altcoins subiu.
- Cadência de execução: menos overtrading, menos “vira-casaca” direcional. Aceitar ficar fora do mercado nas horas erradas — ironicamente — foi um edge.
- Guardrails de risco: stops e take-profits respeitados com mais consistência, reduzindo o efeito “bola de neve” em squeezes.
Grok 4, por sua vez, foi um retrato da alta volatilidade de abordagem. Alternou direção com frequência, surfou explosões de sentimento — às vezes brilhante, às vezes temerário — e pagou o preço em sequências reversas, especialmente quando o BTC “virou de mão” em janelas curtas. Já o GPT-5 padeceu do clássico desequilíbrio entre convicção e alavancagem: excesso de trades, margem comprimida e pouca resiliência a gaps, resultando em drawdowns acumulados.
Micro-história (exemplo hipotético para ilustrar a tática): imagine um long de BTC alavancado 20x aberto a US$ 107.900 com saída em US$ 112.200. O ganho não realizado ficaria perto de US$ 6.500 numa janela de 24 horas, suficiente para puxar o saldo para algo como US$ 12.100 (+21%). Agora compare com um agente que, empolgado por um pump de altcoins, reabre posições a cada micro-reversão e vira short no rebote — o PnL vira o ioiô do mercado. A Season 1 teve episódios próximos a esse roteiro: picos de lucro seguidos de devoluções em sequência, com destaque para a volatilidade do Grok 4 e a dificuldade do GPT-5 em manter consistência.
Vale lembrar: ao longo da temporada, parciais mostraram DeepSeek no topo e Gemini no vermelho. No agregado final, porém, prevaleceu quem menos se deixou seduzir pelo hype de um candle bonito. Gestão venceu improviso.
O que aprendemos sobre IA em trading real
- Gestão de risco supera alavancagem. Quando o funding aperta, spreads alargam e a liquidez some, o sizing pesa mais do que a “certeza” do modelo. As parciais mostraram drawdowns relevantes entre modelos, com casos acima de 30% em curto espaço — bússola suficiente para qualquer comitê de risco.
- Diferenças entre “escolas”. Durante a Season 1, modelos chineses como DeepSeek e Qwen tiveram momentos de desempenho superior a pares dos EUA — hipótese ligada a frameworks de risco mais conservadores e ênfase em seguidoras de tendência. Não é causalidade provada, mas o padrão apareceu com frequência e merece atenção.
- O que realmente importa para agentes. Latência de execução, slippage efetivo, funding rate, custo de gás e limites de alavancagem precisam entrar como variáveis de decisão, não como nota de rodapé. Sem isso, o “alfa” de papel vira “beta” de mercado na primeira estilingada.
Sugestão à organização para a Season 2: publicar um painel técnico por agente com latência média e p95, slippage por par e horário, custo de funding acumulado, eficiência de margem e % de trades executados no preço-alvo. Com números comparativos, o debate sai do anedótico.
Impactos para o mercado e para o investidor brasileiro
Adoção acelerada. Entre jovens investidores, a automação já é rotina. Relatórios recentes da MEXC indicam que 67% da Gen Z ativou pelo menos um bot de negociação com IA nos últimos meses, que essa faixa responde por 60% das ativações e que 73% ligam bots justamente em janelas de alta volatilidade. É combustível para estratégias de copy-trading que surfam “campeões” de performance — e uma receita para arrependimentos quando a curva vira.
Regulação e riscos. Copy-trade de agentes autônomos, com alavancagem e executado em DEX, acende alertas de suitability, disclosure e governança. CVM e Banco Central ainda não têm regra específica para “IAs autônomas” em trading, mas o investidor residente no Brasil continua responsável por obrigações tributárias sobre cripto e deve observar a LGPD na coleta/uso de dados de mercado e de terceiros. Em caso de dúvida, consulte orientação pública da CVM e de sua corretora — melhor um e-mail a mais hoje do que um auto de infração amanhã.
Micro-história local (exemplo verossímil). A tesouraria de uma usina sucroalcooleira em Alagoas decidiu testar copy-trade com R$ 2.000 em uma conta segregada. Objetivo: avaliar hedge tático em BTC durante janela de CAPEX dolarizado. Resultado? Mantiveram a escala pequena por 60 dias, criaram um VaR diário de 2% do saldo (perda potencial máxima estimada) e, ao final, internalizaram apenas um sinal do agente — o resto ficou como aprendizado. “Não dá para terceirizar governança para um bot”, resume o CFO.
Contraponto: quando não usar. Se seu time não tem monitoramento 24x7, se a custódia não é segregada, se não há stop obrigatório e se a operação depende de um “milagre da última hora”, interrompa o experimento. IA não substitui processo. Amplifica.
Checklist de implementação
- Defina VaR diário e semanal por agente (ex.: 2%/5%).
- Limite a alavancagem máxima por par e por horário (mercados finos? alavancagem mínima).
- Stops obrigatórios em toda ordem; sem exceção.
- Quarentena de estratégias: só entram em produção após N dias com PnL, slippage e funding dentro do limite.
- Segregação de capital e carteiras distintas por agente.
- Registro de “ModelChat” e rationale de cada trade para auditoria.
- Alertas automáticos para desvio de latência e slippage.
- Plano de contingência: queda de API, liquidez e stress de funding.
Benchmarks e referências
Dois quadros ajudam a separar mito de realidade:
- Placares abertos. A Season 1 evidenciou que performance de IA em mercado vivo não acompanha, necessariamente, os rankings de LLMs em benchmarks de linguagem. Ainda assim, é revelador notar que linhas como a Qwen3 Max figuram entre os primeiros em rankings de linguagem e tool-use, indicando robustez de “engenharia de agente” — um indício, não uma garantia.
- Transparência radical. O modelo de publicar ordens e PnL on-chain é a espinha dorsal do experimento. Ao contrário de backtests bonitos, a Season 1 colocou execução, slip e funding no microscópio público.
Armadilhas comuns
- Overfitting de prompt. Otimizar a “personalidade” do agente para o mercado de ontem gera ilusão de controle.
- Métrica única. Só olhar PnL ignora risco; Sharpe e max drawdown contam mais — e precisam ser lidos junto com latência, slip e funding.
- “Convicção” sem stop. Estratégias que não aceitam ser invalidadas quase sempre acabam invalidadas pelo caixa.
- Copy-trade sem critérios. Espelhar posições sem ver disciplina de risco é brincar de roleta.
O que vem na Season 2 e como acompanhar
A organização adiantou que a Season 2 está praticamente pronta, com novos prompts, métodos estatísticos mais rigorosos e features adicionais. O cronograma oficial de início será divulgado no site da nof1.ai — vale acompanhar. A proposta é construir em cima dos aprendizados públicos da Season 1, fortalecendo o desenho de risco e a clareza de reporting.
Como monitorar:
- Site da nof1.ai: carteiras, PnL e “ModelChat” consolidados.
- Hyperliquid: execução on-chain em tempo real.
- Threads no X: highlights de performance e mudanças táticas.
- Integrações como Coinpilot para copy-trading, com atenção a limites e compliance.
- Janela de atualização: leaderboard em tempo real; relatórios diários fechando o PnL do período.
Oportunidade executiva. Times de quant/IA podem transformar a Season 1 em guia de governança:
- Guardrails de risco desde o prompt (limites de alavancagem, VaR, stops).
- Testes A/B de estratégias por janela/hub de liquidez.
- KPIs: Sharpe/Sortino, max DD, % de trades com stop respeitado, latência média/p95, slip médio, funding acumulado, % de tempo exposto, concentração por ativo, “hit rate” vs payoff.
Em uma frase: menos efeito wow, mais processo. A Qwen3 Max não ganhou por saber tudo. Ganhou por saber perder pouco.
E daqui pra frente?
A Alpha Arena expôs, em tempo real, as virtudes e os vícios de agentes de IA em um mercado que é, por definição, anti-roteiro. Para o investidor brasileiro, a mensagem é pragmática: IA é ferramenta, não amuleto. Dá para copiar? Dá. Deve-se copiar? Só com regras claras, capital pequeno e logs impecáveis.
Se a Season 1 separou estratégia de bravata, a Season 2 tem a chance de separar governança de improviso. E isso, convenhamos, interessa tanto a quem opera R$ 2 mil numa corretora quanto a quem gere R$ 2 bilhões numa asset.
Fontes
nof1.ai Introduces Alpha Arena, a Platform for AI-Powered ...
Competição Alpha Arena AI termina em 4 de novembro
Competição Alpha Arena AI Trading com Prêmio de $10K - Phemex
ÚLTIMAS NOTÍCIAS DA Alpha Arena: DeepSeek e Qwen3 MAX ...
nof1.ai Introduces Alpha Arena, a Platform for AI-Powered ...
Competição Alpha Arena AI termina em 4 de novembro
Competição Alpha Arena AI Trading com Prêmio de $10K - Phemex