Fujitsu España SA

05/14/2024 | Press release | Distributed by Public on 05/14/2024 16:44

Lanzamiento de «Fugaku-LLM», un gran modelo lingüístico entrenado en el superordenador «Fugaku»

Lanzamiento de «Fugaku-LLM», un gran modelo lingüístico entrenado en el superordenador «Fugaku»

Fujitsu Europe

  • Se desarrolló un gran modelo lingüístico con capacidad mejorada para el idioma japonés utilizando tecnología de supercomputación japonesa.
  • Aprendizaje paralelo distribuido maximizando el rendimiento del superordenador «Fugaku».
  • Se permite el uso comercial, lo que dará lugar a aplicaciones innovadoras de investigación y empresariales como la IA para la ciencia.

Madrid, May 14, 2024

Resumen de la nota de prensa enviada por Fujitsu Limited el 10 de mayo de 2024:
https://www.fujitsu.com/global/about/resources/news/press-releases/2024/0510-01.html

Madrid, 14 de mayo de 2024 - Un equipo de investigadores de Japón ha presentado Fugaku-LLM, un gran modelo lingüístico (1) con capacidad mejorada para el idioma japonés, utilizando el superordenador Fugaku de RIKEN. El equipo está dirigido por el profesor Rio Yokota, del Instituto Tecnológico de Tokio, el profesor asociado Keisuke Sakaguchi, de la Universidad de Tohoku, Koichi Shirahata, de Fujitsu Limited, el jefe de equipo Mohamed Wahib, de RIKEN, el profesor asociado Koji Nishiguchi, de la Universidad de Nagoya, Shota Sasaki, de CyberAgent, Inc, y Noriyuki Kojima, de Kotoba Technologies Inc.

Para entrenar grandes modelos lingüísticos en Fugaku, los investigadores desarrollaron métodos de entrenamiento distribuido, incluida la portabilidad del marco de aprendizaje profundo Megatron-DeepSpeed a Fugaku con el fin de optimizar el rendimiento de Transformers en Fugaku. Aceleraron la biblioteca de multiplicación de matrices densas para Transformers y optimizaron el rendimiento de la comunicación para Fugaku combinando tres tipos de técnicas de paralelización y aceleraron la biblioteca de comunicación colectiva en la interconexión D de Tofu.

Fugaku-LLM tiene 13.000 millones de parámetros (2) y es mayor que los modelos de 7.000 millones de parámetros que se han desarrollado ampliamente en Japón. Fugaku-LLM tiene capacidades japonesas mejoradas, con una puntuación media de 5,5 en el MT-Bench japonés (3), el rendimiento más alto entre los modelos abiertos que se entrenan utilizando datos originales producidos en Japón. En concreto, el rendimiento de referencia para tareas de humanidades y ciencias sociales alcanzó una puntuación notablemente alta de 9,18.

Fugaku-LLM se entrenó con datos japoneses propios recopilados por CyberAgent, junto con datos ingleses y de otros países. El código fuente de Fugaku-LLM está disponible en GitHub (4) y el modelo en Hugging Face (5). Fugaku-LLM puede utilizarse con fines de investigación y comerciales siempre que los usuarios respeten la licencia.
En el futuro, a medida que más investigadores e ingenieros participen en la mejora de los modelos y sus aplicaciones, se mejorará la eficiencia del entrenamiento, lo que conducirá a aplicaciones empresariales y de investigación innovadoras de próxima generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA.

Antecedentes
En los últimos años, el desarrollo de grandes modelos lingüísticos (LLM) ha sido muy activo, especialmente en Estados Unidos. En particular, la rápida difusión de ChatGPT (6), desarrollado por OpenAI, ha tenido un profundo impacto en la investigación y el desarrollo, los sistemas económicos y la seguridad nacional. Otros países, además de Estados Unidos, también están invirtiendo enormes recursos humanos y computacionales para desarrollar LLM en sus propios países. Japón también necesita asegurarse recursos computacionales para la investigación de la IA y no quedarse atrás en esta carrera mundial. Hay grandes expectativas puestas en Fugaku, el sistema de supercomputación insignia de Japón, y es necesario mejorar el entorno computacional para el entrenamiento distribuido a gran escala en Fugaku para cumplir estas expectativas.

Por ello, el Instituto Tecnológico de Tokio, la Universidad de Tohoku, Fujitsu, RIKEN, la Universidad de Nagoya, CyberAgent y Kotoba Technologies han iniciado un proyecto conjunto de investigación sobre el desarrollo de grandes modelos lingüísticos.

Papel de cada institución/empresa
Instituto Tecnológico de Tokio: Supervisión general, paralelización y aceleración de la comunicación de grandes modelos lingüísticos (optimización del rendimiento de la comunicación combinando tres tipos de paralelización, aceleración de la comunicación colectiva en la interconexión D de Tofu).

Universidad de Tohoku: Recogida de datos de entrenamiento y selección de modelos

Fujitsu: Aceleración de la computación y la comunicación (aceleración de la comunicación colectiva en Tofu interconnect D, optimización del rendimiento de la paralelización de canalizaciones) e implementación del preentrenamiento y el ajuste fino tras el entrenamiento.
RIKEN: Paralelización distribuida y aceleración de la comunicación de modelos lingüísticos a gran escala (aceleración de la comunicación colectiva en Tofu interconnect D).

Universidad de Nagoya: Estudio sobre métodos de aplicación de Fugaku-LLM a la IA generativa 3D

CyberAgent: Suministro de datos de entrenamiento

Tecnologías Kotoba: Adaptación del marco de aprendizaje profundo a Fugaku

Figura 1. El superordenador Fugaku de RIKEN ©RIKEN

Resultados de la investigación

1. Mejora significativa del rendimiento computacional del entrenamiento de grandes modelos lingüísticos en el superordenador Fugaku.

Las GPU (7) son el hardware más utilizado para entrenar grandes modelos lingüísticos. Sin embargo, hay una escasez mundial de GPU debido a la gran inversión de muchos países para entrenar LLM. En estas circunstancias, es importante demostrar que se pueden entrenar grandes modelos lingüísticos con Fugaku, que utiliza CPU en lugar de GPU. Las CPU utilizadas en Fugaku son CPU japonesas fabricadas por Fujitsu, y desempeñan un papel importante en términos de revitalización de la tecnología japonesa de semiconductores.

Al extraer todo el potencial de Fugaku, este estudio logró aumentar la velocidad de cálculo de la multiplicación de matrices en un factor de 6, y la velocidad de comunicación en un factor de 3. Para maximizar el rendimiento del entrenamiento distribuido en Fugaku, el marco de aprendizaje profundo Megatron-DeepSpeed se portó a Fugaku, y la biblioteca de multiplicación de matrices densas se aceleró para Transformer. Para la aceleración de la comunicación, los investigadores optimizaron el rendimiento de la comunicación para Fugaku mediante la combinación de tres tipos de técnicas de paralelización y aceleraron la comunicación colectiva en la interconexión D de Tofu. El conocimiento adquirido a partir de estos esfuerzos se puede utilizar en el diseño de la infraestructura informática de próxima generación después de Fugaku y mejorará en gran medida la ventaja futura de Japón en el campo de la IA.

2. Un gran modelo lingüístico fácil de usar, abierto y seguro con 13.000 millones de parámetros

En 2023, las empresas japonesas han desarrollado muchos modelos lingüísticos de gran tamaño, pero la mayoría de ellos tienen menos de 7.000 millones de parámetros. Dado que el rendimiento de los modelos lingüísticos a gran escala suele mejorar a medida que aumenta el número de parámetros, es probable que el modelo de 13.000 millones de parámetros desarrollado por el equipo de investigación sea más potente que otros modelos japoneses. Aunque fuera de Japón se han desarrollado modelos de mayor tamaño, los grandes modelos lingüísticos también requieren grandes recursos computacionales, lo que dificulta el uso de modelos con demasiados parámetros. Fugaku-LLM es a la vez de alto rendimiento y equilibrado.

Además, la mayoría de los modelos desarrollados por empresas japonesas emplean el aprendizaje continuo (8), en el que los modelos abiertos desarrollados fuera de Japón se entrenan continuamente con datos japoneses. En cambio, Fugaku-LLM se entrena desde cero utilizando los propios datos del equipo, por lo que se puede entender todo el proceso de aprendizaje, lo que es superior en términos de transparencia y seguridad.

Fugaku-LLM se entrenó con 380.000 millones de tokens utilizando 13.824 nodos de Fugaku, y alrededor del 60% de los datos de entrenamiento eran japoneses, combinados con inglés, matemáticas y código. En comparación con los modelos que se entrenan continuamente en japonés, Fugaku-LLM aprendió gran parte de su información en japonés. Fugaku-LLM es el mejor modelo entre los modelos abiertos producidos en Japón y entrenados con datos originales. En concreto, se confirmó que el modelo muestra una alta puntuación de referencia de 9,18 en las tareas de humanidades y ciencias sociales. Se espera que el modelo sea capaz de realizar diálogos naturales basados en el keigo (habla honorífica) y otras características de la lengua japonesa.

Desarrollo futuro
Los resultados de esta investigación se están haciendo públicos a través de GitHub y Hugging Face para que otros investigadores e ingenieros puedan utilizarlos para seguir desarrollando grandes modelos lingüísticos. Fugaku-LLM puede utilizarse con fines comerciales y de investigación siempre que los usuarios respeten la licencia. Fugaku-LLM también se ofrecerá a los usuarios a través del Fujitsu Research Portal a partir del 10 de mayo de 2024.

En el futuro, a medida que más investigadores e ingenieros participen en la mejora de los modelos y sus aplicaciones, se mejorará la eficacia de la formación, lo que dará lugar a aplicaciones empresariales y de investigación innovadoras de nueva generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA.

Agradecimientos
Esta investigación ha contado con el apoyo de la propuesta «Desarrollo de entrenamiento paralelo distribuido para grandes modelos lingüísticos utilizando Fugaku» (número de propuesta: hp230254).

Notas

- [1] Modelo de lenguaje de gran tamaño : Modela la probabilidad con la que aparece un texto y puede predecir el texto (respuesta) que sigue a un contexto dado (consulta).
- [2] Parámetro : Medida del tamaño de una red neuronal. Cuantos más parámetros, mayor es el rendimiento del modelo, pero más datos se necesitan para el entrenamiento.
- [3] MT-Bench japonés : Prueba de referencia proporcionada por Stability AI.
- [4] GitHub : Plataforma utilizada para publicar software de código abierto
- [5] Hugging Face : Plataforma utilizada para publicar conjuntos de datos de IA
- [6] ChatGPT : Un gran modelo lingüístico desarrollado por OpenAI, que ha provocado un gran cambio social, superando los 100 millones de usuarios en unos dos meses tras su lanzamiento.
- [7] GPU : Originalmente producido como un acelerador para gráficos, pero recientemente se ha utilizado para acelerar el aprendizaje profundo.
- [8] Aprendizaje continuo : Método para realizar un entrenamiento adicional en un gran modelo lingüístico que ya ha sido entrenado. Se utiliza para entrenar modelos lingüísticos en diferentes idiomas o dominios.

Acerca de Fujitsu

Fujitsu es la compañía japonesa líder en Tecnologías de la Información y Comunicación (TIC), que ofrece una gama completa de productos, soluciones y servicios tecnológicos. Su alrededor de 126.000 empleados dan soporte a clientes en más de 100 países. Utilizamos nuestra experiencia y el poder de las TIC para modelar el futuro de la sociedad con nuestros clientes. Fujitsu Limited (TSE: 6702) registró ingresos consolidados de 3,6 billones de yenes (34.000 millones de US$) para el año fiscal finalizado el 31 de marzo de 2021. Para obtener más información, consulte www.fujitsu.com.

José Manuel Rodríguez Gil


Phone: 685 838 332
E-mail: [email protected]
Company: Fujitsu

Maria José Álvarez


Phone: 630 074 039
E-mail: [email protected]
Company: GPS Imagen y Comunicación


Date: May 14, 2024
City: Madrid