Please enable JavaScript.
Coggle requires JavaScript to display documents.
AlphaStar = JOGO, Desafio, Como é treinado - Coggle Diagram
-
-
If
-
-
É como se um algoritmo estivesse disponível apenas para que o outro pudesse praticar,
oferecendo insights+FeedBack sobre sua própria estratégia para que seu parceiro se tornasse melhor nas suas decisões.
Dessa forma, o algoritmo vencedor alcançou maior capacidade de generalização, o que lhe permitiu se adaptar a uma gama maior de cenários do jogo.
Mas uma modificação foi incorporada ao processo desta vez: ao invés de treinar duas versões do algoritmo competindo entre si pela vitória, o que pode levá-las a desenvolver repetidamente estratégias muito específicas para determinadas condições, uma das versões tinha como objetivo principal expor as falhas da outra.
-
Fc
desenvolvimento de assistentes virtuais, carros autônomos e outras máquinas que tenham que interagir com humanos.
embora o objetivo do jogo seja vencer o oponente, o jogador também deve realizar e equilibrar uma série de sub-objetivos, como reunir recursos ou construir estruturas.
O jogo também possui outras qualidades que atraem os pesquisadores, como o grande grupo de jogadores ávidos que competem online todos os dias.
Isso garante que haja uma grande quantidade de dados de repetição para aprender - assim como uma grande quantidade de oponentes extremamente talentosos para agentes de IA.
Estrategia
o mapa é apenas parcialmente observado, o que significa que os agentes devem usar uma combinação de memória e planejamento para ter sucesso.
Desafio
API Py
-
usado por pesquisadores de AI e ML, que competem anualmente na competição de bot da AIIDE .
wrapper de ambiente PySC2 ajuda, oferecendo uma interface flexível e fácil de usar para os agentes RL jogarem.
PySC2 - Ambiente de Aprendizagem
-
Grande espaço de ação
-
Centenas de Açoes+Decisoes;
unidades e edifícios diferentes devem ser controlados ao mesmo tempo, em tempo real,
-
Nossa parametrização do jogo tem uma média de aproximadamente 10 a 26 ações judiciais a cada passo. #
o espaço de ação do StarCraft apresenta um desafio com uma escolha de mais de 300 ações básicas que podem ser executadas.
Compare isso com os jogos Atari, que têm apenas cerca de 10 (por exemplo, para cima, para baixo, esquerda, direita etc).
as ações em StarCraft são hierárquicas, podem ser modificadas e aumentadas, muitas delas exigindo um ponto na tela.
Mesmo assumindo uma tela pequena de 84x84, existem cerca de 100 milhões de ações possíveis disponíveis.
Teoria do jogo
processo de treinamento em IA precisa explorar e expandir continuamente as fronteiras do conhecimento estratégico.
dividimos o jogo em “camadas de recursos”, onde elementos do jogo, como tipo de unidade, saúde e visibilidade do mapa, são isolados uns dos outros, preservando os elementos visuais e espaciais centrais do jogo.
Id Cria 'minijogos' = Simulaçao #
uma série de 'minijogos' - uma técnica estabelecida para quebrar o jogo em pedaços gerenciáveis que podem ser usados para testar agentes em tarefas específicas , como mover a câmera, coletar fragmentos mineraisou selecionando unidades.
-
-
investigações iniciais mostram que nossos agentes têm um bom desempenho nesses minijogos. Mas quando se trata do jogo completo, até mesmo agentes de linha de base fortes, como A3C , não podem vencer um único jogo contra a IA embutida mais fácil.
-
-
-
Informações imperfeitas
Ao contrário de jogos como xadrez ou Go, onde os jogadores veem tudo, as informações cruciais são ocultadas de um jogador de StarCraft e devem ser descobertas ativamente por “patrulhamento”.
-
desenvolver a chamada inteligência artificial geral (AGI, sigla para artificial general intelligence), que habilitaria os computadores a resolverem problemas complexos de uma natureza mais generalizada
Como é treinado
treinou para jogar StarCraft II, é agora capaz de derrotar 99,8% dos jogadores humanos do título de estratégia da Blizzard.
o método por eles desenvolvido poderá ser utilizado no futuro para treinar robots, carros autónomos ou sistemas de reconhecimento de imagens.
precisou de uma quantidade muito maior de dados que os jogadores humanos para alcançar o mesmo nível de habilidade.
A informação serve para criar “agentes” de IA que competem entre si gerando dados originais, aquilo que foi chamado de AlphaStar League.
-
If
O comportamento do AlphaStar é gerado por uma rede neural profunda que recebe dados de entrada da interface bruta do jogo (uma lista de unidades e suas propriedades) e produz uma sequência de instruções que constituem uma ação dentro do jogo.
Os pesos da rede neural de cada agente são atualizados por reforço de aprendizagem de seus jogos contra os concorrentes, para otimizar seu objetivo de aprendizagem pessoal. A regra de atualização de peso é um algoritmo de aprendizado de reforço de ator-crítico eficiente e inovador com repetição de experiência , aprendizado de autoimitação e destilação de política .
DURANTE O CURSO DO TREINAMENTO. CADA PONTO REPRESENTA UM COMPETIDOR NA LIGA ALPHASTAR. A POSIÇÃO DO PONTO REPRESENTA SUA ESTRATÉGIA (INSERÇÃO) E O TAMANHO DO PONTO REPRESENTA A FREQUÊNCIA COM QUE ELE É SELECIONADO COMO UM OPONENTE PARA O AGENTE MANA DURANTE O TREINAMENTO.
Rt
-
-
-
Maquina
-
-
Preço
US$ 2,40 a US$ 8,00 /TPU/hora