Loading...
en

Weepaa

advertisement

ALPHAGO ZERO: AN ADVANCE OF UNPRECEDENTED ARTIFICIAL INTELLIGENCE

Oct 29 '17 | By NadineMeller
ALPHAGO ZERO: AN ADVANCE OF UNPRECEDENTED ARTIFICIAL INTELLIGENCE
0

The new version of AlphaGo which learns from itself, not humans

 

Google’s DeepMind team has reinvented AlphaGo, and this latest iteration was able to resoundingly beat the previous version that defeated Go champ Lee Sedol in 2016, by a score of 100 to 0.

 

Known as AlphaGo Zero, this new version of the Go-playing AI program uses a form of reinforcement learning to train itself, without any reliance on data from human matches. According to an article posted on the DeepMind site, the program learns the game by repeatedly playing against itself, improving its level of play with each iteration.

The system starts off with a neural network that knows nothing about the game of Go. It then plays games against itself, by combining this neural network with a powerful search algorithm. As it plays, the neural network is tuned and updated to predict moves, as well as the eventual winner of the games. This updated neural network is then recombined with the search algorithm to create a new, stronger version of AlphaGo Zero, and the process begins again.

 

For each move, the program computes the probability of winning from the choices it has on the board at any given time. As it plays itself through trial and error, this computation becomes more accurate, resulting in increasingly intelligent moves. And it improves itself extremely fast. In just three hours of training, AlphaGo Zero was able to play as well as person who had just learned the game. But after three days of training, the program could play at a super-human level, beating the AlphaGo version that vanquished Lee Sodol last year. And after 40 days of training, AlphaGo Zero was able to vanquish the “Master” version of AlphaGo that defeated world champ Ke Jie earlier this year (although it worth mentioning that the Master program managed to win 11 of those 100 games).

 

It’s notable that all the previous iterations of AlphaGo were trained using supervised learning based on tens of millions of games played between human beings. The reinforcement learning approach required far fewer games, 4.9 million, to be specific, and needed much less time to train. It’s also noteworthy that the AlphaGo version that defeated Lee Sedol required multiple servers and 48 of Google’s Tensor Processing Units (TPUs), while AlphaGo Zero managed to outsmart its predecessor using a single machine equipped with just 4 TPUs.

 

The big takeaway here is that this approach, without the benefit of any training data, resulted in a significantly smarter Go player than AI programs that were able to analyze reams of human matches. As the DeepMind say, if similar techniques could be used to attack other structured problems, like protein folding or materials design, it could result in breakthroughs across many domains. And removing the impediment of relying on large datasets, means this technology has the potential to be much more broadly applied.



ALPHAGO ZERO: UN AVANCE DE LA INTELIGENCIA ARTIFICIAL SIN PRECEDENTES



 

La nueva versión de AlphaGo que aprende de sí misma, no de los humanos

 

El equipo DeepMind de Google ha reinventado AlphaGo, y esta última versión es capaz de superar rotundamente la versión anterior que derrotó al campeón de Go Lee Sedol en 2016, con una puntuación de 100 a 0.

 

Conocida como AlphaGo Zero, esta nueva versión del programa Go-playing AI usa una forma de refuerzo para aprender a entrenarse, sin depender de la interactuación con humanos. Según un artículo publicado en el sitio de DeepMind, el programa aprende jugando repetidamente contra sí mismo, mejorando su nivel de juego con cada iteración.

 

El sistema comienza con una red neuronal que no sabe nada sobre el juego de Go. Luego juega partidas contra sí mismo, combinando esta red neuronal con un poderoso algoritmo de búsqueda. A medida que se reproduce, la red neuronal se sintoniza y actualiza para predecir los movimientos, así como el eventual ganador de los juegos. Esta red neuronal actualizada se recombina luego con el algoritmo de búsqueda para crear una versión nueva y más sólida de AlphaGo Zero, y el proceso comienza de nuevo.

 

Para cada movimiento, el programa calcula la probabilidad de ganar de alternativas que tiene en el tablero en cualquier momento dado. A medida que juega establecer un proceso de ensayo y error, este cálculo se vuelve más preciso, lo da como resultado movimientos cada vez más inteligentes. Los avances son extremadamente rápidos. En solo tres horas de entrenamiento, AlphaGo Zero pudo jugar tan bien como la persona que acababa de aprender el juego. Pero después de tres días de entrenamiento, el programa podría jugar a un nivel superhumano, superando la versión de AlphaGo que venció a Lee Sodol el año pasado. Y después de 40 días de entrenamiento, AlphaGo Zero pudo vencer a la versión "maestra" de AlphaGo que derrotó al campeón mundial Ke Jie a principios de este año (aunque vale la pena mencionar que el programa Master logró ganar 11 de 100 juegos).

 

Es notable que todas las iteraciones previas de AlphaGo fueron entrenadas usando aprendizaje supervisado basado en decenas de millones de partidas jugadas entre seres humanos. El enfoque de aprendizaje reforzado requirió muchas menos partidas, 4.9 millones, para ser específicos, y requirió mucho menos tiempo para entrenar. También es digno de mención que la versión de AlphaGo que derrotó a Lee Sedol requirió varios servidores y 48 de las Unidades de Procesamiento Tensor (TPU) de Google, mientras que AlphaGo Zero logró superar a su predecesor usando una sola máquina equipada con solo 4 TPU.

 

La gran conclusión aquí es que este enfoque, sin el beneficio de ningún dato de entrenamiento, ha dado lugar a un jugador Go significativamente más inteligente que los programas de IA anteriores. Como DeepMind destaca, si se pudieran utilizar técnicas similares para atacar otros problemas estructurados, como el plegamiento de proteínas o el diseño de materiales, podría dar lugar a avances en muchos campos. Y eliminar el impedimento de depender de grandes conjuntos de datos, significa que esta tecnología tiene el potencial de ser aplicada de manera mucho más amplia.

 

Comments:

No comments
You need to sign in to comment

Related News

    Weepaa

    advertisement