Ciência
21/11/2023 às 08:00•2 min de leitura
Pesquisadores recentemente construíram o primeiro algoritmo de inteligência artificial (IA) de uso geral que pode dominar uma ampla variedade de jogos. O robô foi apelidado por seus criadores de "Estudante de Jogos".
Normalmente, os algoritmos de jogos são projetados para dominar categorias feitas de "informações perfeitas", como o xadrez, ou jogos com "informações imperfeitas, como o pôquer, onde boa parte da mecânica do jogo está escondida nos jogadores". Contudo, o novo algoritmo do Estudante de Jogos contorna essa limitação combinando pesquisa guiada, aprendizado de jogo e raciocínio teórico de jogos.
(Fonte: GettyImages)
Quando foi testado pela primeira vez, o Estudante de Jogos se destacou tanto no xadrez, com informações perfeitas, quanto em partidas de pôquer ou Scotland Yard, com informações imperfeitas. No entanto, a nova IA não foi capaz de vencer os melhores algoritmos de IA existentes no mercado especializados em confrontos diretos.
"Uma conclusão que podemos tirar disso é que é sim possível projetar uma técnica que funcione nos dois segmentos, em vez de ter algoritmos especializados", constatou o principal autor do estudo, Martin Schmid, CEO e cofundador da EquiLibre Technologies, em entrevista ao Live Science. Embora a ferramenta ainda não seja capaz de vencer seus concorrentes, ela abre uma nova brecha no mercado.
Há muito tempo, os jogos servem como referência para o progresso no campo da IA. Por exemplo, em 2016, a ferramenta AlphaGo venceu um jogador humano profissional de Go, um jogo de tabuleiro chinês baseado em estratégia. No ano seguinte, o sistema Libratus venceu os melhores jogadores humanos de pôquer do mundo em um torneio de Texas Hold'em de 20 dias.
(Fonte: GettyImages)
Embora os jogos sempre terem sido usados como régua para a funcionalidade das inteligências artificiais, sempre houve uma divisão clara entre jogos com informações perfeitas e jogos imperfeitos. Para contornar esse problema, Schmid e sua equipe de pesquisa treinaram seu algoritmo de uso geral usando o que é conhecido como algoritmo de minimização de arrependimento contrafactual de árvore em crescimento (GT-CFR).
Essa ferramenta é uma variação de um algoritmo amplamente utilizado no qual um sistema de IA aprende jogando contra si mesmo repetidamente. Então, a equipe combinou técnicas usadas na construção de uma variedade de algoritmos de jogos, como o AlphaGo. Na categoria de jogos de informação perfeita, a equipe descobriu que o Estudante de Jogos teve um desempenho tão bom quanto o de especialistas ou profissionais humanos. Contudo, a máquina foi substancialmente inferior ao AlphaZero — uma versão avançada do AlphaGo — em confronto direto.
Porém, no campo de jogos de informação imperfeita, a nova IA superou o algoritmo Slumbot do Texas Hold'em, que os pesquisadores afirmam ser o melhor programa de pôquer abertamente disponível. Em jogos mais complexos, onde a quantidade de informação oculta pelos jogadores é ainda maior, o algoritmo ainda demonstra ter certa dificuldade.
No futuro, os programadores planejam abordar e explorar as limitações encontradas, especialmente como reduzir os altos custos e o poder computacional envolvidos na execução do Estudante de Jogos e na obtenção de um melhor desempenho.