Microsoft ha presentado un nuevo modelo de lenguaje pequeño, Phi-3 mini, diseñado para su ejecución en un smartphone moderno y que ofrece un rendimiento similar a GPT-3.5 de OpenAI.
La nueva iteración del modelo de lenguaje más ligero de Microsoft ha sido entrenado con 3,3 billones de tokens procedentes de conjuntos de datos “más grandes y más avanzados” que los utilizados en el modelo predecesor, Phi-2, que fue entrenado con 1,4 billones de tokens.
MIRA: La demanda del Apple Vision Pro se desvanece después de un debut prometedor, según Gurman
Phi-3 mini se presenta con un tamaño de 3.800 millones parámetros, suficiente para su uso en un ‘smartphone’ moderno, ya que ocupa en torno a 1,8GB de memoria y se puede cuantificar a 4bits, como recogen en el texto publicado en Arxiv.org.
Los investigadores han utilizado para las pruebas un iPhone 14 con un chip A16 Bionic en el que, aseguran, “se ejecuta de forma nativa y de forma completa offline logrando más de 12 tokens por segundo”. El rendimiento general de este modelo “rivaliza” con el de otros más grandes, como es el caso de Mixtral 8x7B y GPT-3.5.
La compañía tecnológica ha empleado una arquitectura de decodificador de transformador, que admite una longitud de texto de 4K, y al basarse en una estructura en bloque similar a la de Llama 2 de Meta, no solo “beneficia” a la comunidad de código abierto, sino que también admite todos los paquetes desarrollados para Llama 2.
El modelo admite un formato conversacional, de chat, y está alineado con los valores de robustez y seguridad de Microsoft, como destacan en el texto de la investigación.
Junto a Phi-3 mini, Microoft también ha entrenado dos modelos adicionales de la misma familia: Phi-3 medium, de 14.000 millones de parámetros, y Phi-3 small, con 7.000 millones de parámetros, ambos entrenados con 4.800 millones de tokens.
Contenido sugerido
Contenido GEC