Cómo AlphaTensor AI de DeepMind creó una multiplicación de matrices más rápida

Después de que se pueda lograr el desarrollo de la inteligencia artificial. Súper dominio de juegos como el ajedrez y el guión.así como otra inteligencia artificial que puede predecir ¿Cómo se pliegan las proteínas en el espacio 3D?más que investigadores en mente profunda Y lo han vuelto a hacer, esta vez utilizando un modelo de aprendizaje profundo de IA para resolver de manera eficiente un problema matemático básico, superando el récord de 50 años.

en Entrada en el blog Desde principios de este mes, el equipo de DeepMind presenta Tensor alfaun sistema de inteligencia artificial diseñado para descubrir algoritmos nuevos y más eficientes para resolver operaciones aritméticas críticas, en este caso, la multiplicación de matrices.

Ya sea que se use para procesar o comprimir imágenes o videos, reconocer comandos hablados o ejecutar simulaciones para pronosticar el clima, la multiplicación de matrices es la base de gran parte de la computación moderna.

Por lo tanto, no es de extrañar que los expertos y las empresas de todo el mundo busquen constantemente formas más eficientes de mejorar los algoritmos para resolver los cálculos detrás de tales tareas.

multiplicación de matrices Es una de las operaciones aritméticas más sencillas del álgebra, en la que números individuales dispuestos en cuadrículas, o matrices, se multiplican y luego se suman de cierta manera para crear una nueva matriz.

Estas matrices se utilizan para representar diferentes tipos de datos, como grupos de píxeles en una imagen o el rendimiento interno de una red neuronal artificial.

Durante siglos, los matemáticos han utilizado lo que creían que era El método más efectivohasta 1969, cuando el matemático alemán Volker Strassen sacudió al matemático con una forma mejor que podía multiplicar un par de matrices de 2 × 2 usando siete multiplicaciones, en lugar de las ocho estándar.

Durante más de cincuenta años, el récord de Strassen se ha mantenido, pero AlphaTensor de DeepMind ha podido demostrar que puede descubrir métodos más eficientes por sí solo.

De hecho, el equipo trató el problema de la multiplicación de matrices como un juego, ya que AlphaTensor se basó en las lecciones aprendidas de su predecesor, alfa cero.

Ambos modelos utilizan un tipo de aprendizaje automático llamado aprendizaje por refuerzo, así como técnicas de búsqueda de árbol de Monte Carlo (MCTS), de modo que el sistema pueda aprender gradualmente a sí mismo a mejorar a medida que recibe retroalimentación de «movimientos» anteriores mientras juega el «juego». ya sea ajedrez o multiplicación de matrices.

En el caso de AlphaTensor, el equipo reformuló el problema de encontrar algoritmos eficientes de multiplicación de matrices como un juego para un solo jugador, donde el «tablero» se traduce como una matriz tridimensional de números.

Para alcanzar el objetivo de hacer que todos los números lleguen a cero en el menor número de pasos, el formulario debe completar la cuadrícula de números correctamente, eligiendo entre un conjunto de movimientos permitidos. En última instancia, esto da como resultado lo que el equipo dice que es «un algoritmo comprobable de multiplicación de matrices enteras para cualquier par de matrices, cuya eficiencia se registra por la cantidad de pasos tomados para generar cero» a partir de las entradas en la matriz de salida.

Cada vez que el sistema funciona bien, sus parámetros internos se actualizan para mejorar sus posibilidades futuras de volver a tener éxito. Al mismo tiempo, la tecnología de búsqueda de árbol de Monte Carlo ayuda a predecir qué tan exitosos serán los diferentes caminos hacia las posibles soluciones, de modo que se prioricen los caminos más útiles y los resultados del juego se devuelvan a la red para mejorar aún más el sistema.

“Entrenamos a un agente de AlphaTensor utilizando el aprendizaje por refuerzo para jugar el juego, comenzando sin ningún conocimiento de los algoritmos de multiplicación de matrices existentes”, explicó el equipo.

«A través del aprendizaje, AlphaTensor mejora gradualmente con el tiempo, redescubriendo algoritmos históricos de multiplicación de matrices como Strassen, superando eventualmente el reino de la intuición humana y descubriendo algoritmos más rápido de lo que se conocía anteriormente».

El equipo enfatizó la dificultad del problema aparentemente simple de multiplicar dos matrices juntas: “Este juego es muy difícil: la cantidad de algoritmos posibles a considerar es mucho mayor que la cantidad de átomos en el universo, incluso para pequeños casos de multiplicación de matrices.

En comparación con Go, que ha sido un desafío para la IA durante décadas, la cantidad de movimientos posibles en cada paso de nuestro juego es 30 órdenes de magnitud mayor (más de 10^)33 para una de las configuraciones que consideramos). Básicamente, para jugar bien este juego, uno necesita identificar las agujas más pequeñas en un enorme pajar de posibilidades”.

Durante sus experimentos que probaron matrices de entradas de hasta 5 x 5, el equipo descubrió que AlphaTensor no solo «redescubrió» los atajos mostrados anteriormente en la multiplicación de matrices, sino que también encontró nuevas formas de realizar estos cálculos de manera eficiente.

Por ejemplo, AlphaTensor pudo encontrar un algoritmo para multiplicar una matriz de 4 × 5 con una matriz de 5 × 5 que tomó solo 76 operaciones de multiplicación, superando a un algoritmo anterior que requería 80.

Con una matriz más grande de matrices de 11 × 12 y 12 × 12, AlphaTensor pudo reducir la cantidad de multiplicadores necesarios de 1022 a 990. AlphaTensor también puede mejorar la multiplicación de matrices para dispositivos específicos, con el equipo entrenando el sistema en diferentes procesadores para que el rendimiento está optimizado para cada procesador.

En última instancia, el equipo cree que el nuevo trabajo podría tener implicaciones importantes para una variedad de campos, desde la investigación matemática hasta la computación.

Desde un punto de vista matemático, nuestros resultados pueden guiar futuras investigaciones en la teoría de la complejidad, cuyo objetivo es identificar los algoritmos más rápidos para resolver problemas computacionales Al explorar el espacio de posibles algoritmos de una manera más eficiente que los métodos anteriores, AlphaTensor Ayuda a avanzar en nuestra comprensión de la riqueza de los algoritmos de multiplicación de matrices.

Comprender este espacio puede abrir nuevos resultados para ayudar a definir la complejidad asintótica de la multiplicación de matrices, uno de los problemas abiertos más fundamentales en informática. Debido a que la multiplicación de matrices es un componente esencial de muchas tareas computacionales, incluidos los gráficos por computadora, las comunicaciones digitales, el entrenamiento de redes neuronales y la computación científica, los algoritmos descubiertos por AlphaTensor pueden hacer que las operaciones computacionales en estas áreas sean significativamente más eficientes».

RecopilaciónCreado con Sketch.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *