Hay escasez de GPU a medida que crece la demanda de IA generativa para su entrenamiento y ejecución. Los chips de mejor rendimiento de Nvidia, según los informes, están agotados hasta el 2024. El director ejecutivo del fabricante de chips TSMC se mostró menos optimista recientemente, indicando que la escasez de GPU de Nvidia, así como de sus rivales, podría extenderse hasta 2025.
Para disminuir su dependencia de las GPU, las empresas que pueden permitírselo (es decir, los gigantes tecnológicos) están desarrollando (y en algunos casos poniendo a disposición de los clientes) chips personalizados diseñados para crear, iterar y producir modelos de IA. Una de esas empresas es Amazon, que en su conferencia anual re:Invent dio a conocer la última generación de sus chips para entrenamiento e inferencia de modelos, es decir, ejecutar modelos entrenados.
El primero de dos, AWS Trainium2, está diseñado para ofrecer un rendimiento hasta 4 veces mejor y una eficiencia energética 2 veces mejor que el Trainium de primera generación, presentado en diciembre de 2020, predice Amazon. Tranium2, que estará disponible en instancias EC Trn2 en grupos de 16 chips en la nube de AWS, puede escalar hasta 100.000 chips en el producto EC2 UltraCluster de AWS.
100.000 chips Trainium ofrecen 65 exaflops de computación, dice Amazon, lo que equivale a 650 teraflops por un solo chip. “Exaflops” y “teraflops” miden cuántas operaciones informáticas por segundo puede realizar un chip. Es probable que existan factores complicados que hacen que esas matemáticas simples no sean necesariamente tan precisas. Pero suponiendo que un solo chip Tranium2 pueda ofrecer aproximandamente 200 teraflops de rendimiento, eso significa que están por encima de la capacidad de los chips de entrenamiento de IA personalizados de Google de alrededor del 2017.
Amazon dice que un grupo de 100.000 chips Trainium puede entrenar un modelo de lenguaje grande de IA con 300 mil millones de parámetros en semanas en lugar de meses. (“Los parámetros” son las partes de un modelo aprendidas a partir de datos de entrenamiento y esencialmente definen la habilidad del modelo en un problema, como generar texto o código). Eso es aproximadamente 1,75 veces el tamaño del GPT-3 de OpenAI, el predecesor del generador de texto GPT-4.
«El silicio sustenta cada carga de trabajo de los clientes, lo que la convierte en un área crítica de innovación para AWS», dijo el vicepresidente de computación y redes de AWS, David Brown, en un comunicado de prensa. “Con el aumento del interés en la IA generativa, Tranium2 ayudará a los clientes a entrenar sus modelos de ML más rápido, a menor coste y con mejor eficiencia energética”.
Amazon no dijo cuándo estarán disponibles las instancias de Trainium2 para los clientes de AWS, más allá de «en algún momento del próximo año».
El segundo chip que Amazon anunció, el basado en ARM Graviton4, está destinado a la inferencia. La cuarta generación de la familia de chips Graviton de Amazon (como lo implica el «4» adjunto a «Graviton»), es distinta del otro chip de inferencia de Amazon, Inferentia.
Amazon afirma que Graviton4 proporciona hasta un 30% más de rendimiento informático, un 50% más de núcleos y un 75% más de ancho de banda de memoria que un procesador Graviton de la generación anterior, Graviton3 (pero no el Graviton3E más reciente), que se ejecuta en Amazon EC2. En otra actualización de Graviton3, todas las interfaces físicas de hardware de Graviton4 están «encriptadas», dice Amazon, lo que aparentemente protege mejor las cargas de trabajo y los datos de capacitación de IA para los clientes con mayores requisitos de encriptación.
«Graviton4 marca la cuarta generación que hemos entregado en sólo cinco años y es el chip más potente y energéticamente más eficiente que jamás hayamos construido para una amplia gama de cargas de trabajo», continuó Brown en un comunicado. Al centrar nuestros diseños de chips en cargas de trabajo reales que son importantes para los clientes, podemos ofrecerles la infraestructura de nube más avanzada.
Graviton4 estará disponible en instancias Amazon EC2 R8g, que ya están disponibles en versión preliminar y su disponibilidad general está prevista para los próximos meses.