El Instituto Allen de Inteligencia Artificial (Ai2), una organización de investigación sin fines de lucro, está lanzando una familia de modelos de lenguaje multimodal de código abierto, llamados Molmo , que, según afirma, funcionan tan bien como los mejores modelos propietarios de OpenAI, Google y Anthropic.
La organización afirma que su modelo Molmo más grande, que tiene 72 mil millones de parámetros, supera al GPT-4o de OpenAI, que se estima que tiene más de un billón de parámetros, en pruebas que miden cosas como la comprensión de imágenes, gráficos y documentos.
Mientras tanto, Ai2 dice que un modelo Molmo más pequeño, con 7 mil millones de parámetros, se acerca al modelo de última generación de OpenAI en rendimiento, un logro que atribuye a métodos de recopilación de datos y entrenamiento mucho más eficientes.
Según Ali Farhadi, director ejecutivo de Ai2, Molmo demuestra que el desarrollo de inteligencia artificial de código abierto está ahora a la par de los modelos cerrados y propietarios. Y los modelos de código abierto tienen una ventaja significativa, ya que su naturaleza abierta significa que otras personas pueden crear aplicaciones sobre ellos. La demostración de Molmo está disponible aquí y los desarrolladores podrán experimentar con ella en el sitio web de Hugging Face. (Algunos elementos del modelo Molmo más potente aún están ocultos a la vista).
Otros modelos de lenguaje multimodales de gran tamaño se entrenan con conjuntos de datos enormes que contienen miles de millones de imágenes y muestras de texto extraídas de Internet y pueden incluir varios billones de parámetros. Este proceso introduce mucho ruido en los datos de entrenamiento y, con él, alucinaciones, afirma Ani Kembhavi, directora de investigación de Ai2. Por el contrario, los modelos Molmo de Ai2 se han entrenado con un conjunto de datos significativamente más pequeño y más seleccionado que contiene solo 600.000 imágenes y tienen entre 1.000 y 72.000 millones de parámetros. Este enfoque en datos de alta calidad, en lugar de datos extraídos indiscriminadamente, ha dado como resultado un buen rendimiento con muchos menos recursos, afirma Kembhavi.
Ai2 logró esto al pedirle anotadores humanos que describieran las imágenes en el conjunto de datos de entrenamiento del modelo con un nivel de detalle insoportable en varias páginas de texto. Pidieron a los anotadores que hablaran sobre lo que veían en lugar de escribirlo. Luego utilizaron técnicas de IA para convertir su voz en datos, lo que hizo que el proceso de entrenamiento fuera mucho más rápido y al mismo tiempo redujo la potencia de procesamiento necesaria.
Estas técnicas podrían resultar muy útiles si queremos gestionar de forma significativa los datos que utilizamos para el desarrollo de la IA, dice Yacine Jernite, quien es el líder de aprendizaje automático y sociedad en Hugging Face, y no participó en la investigación.
“Tiene sentido que, en general, el entrenamiento con datos de mayor calidad pueda reducir los costos computacionales”, dice Percy Liang, director del Centro de Investigación sobre Modelos de Fundación de Stanford, quien tampoco participó en la investigación.
Otra capacidad impresionante es que el modelo puede “señalar” cosas, lo que significa que puede analizar elementos de una imagen identificando los píxeles que responden a las consultas.
En una demostración compartida con MIT Technology Review , los investigadores de Ai2 tomaron una foto del puerto deportivo local de Seattle desde el exterior de su oficina y pidieron al modelo que identificara varios elementos de la imagen, como las tumbonas. El modelo describió correctamente lo que contenía la imagen, contó las tumbonas y señaló con precisión otras cosas en la imagen tal como le pidieron los investigadores. Sin embargo, no fue perfecto. No pudo localizar un estacionamiento específico, por ejemplo.
Farhadi afirma que otros modelos avanzados de IA son buenos para describir escenas e imágenes, pero eso no es suficiente cuando se quieren crear agentes web más sofisticados que puedan interactuar con el mundo y, por ejemplo, reservar un vuelo. Señalar permite a las personas interactuar con las interfaces de usuario, afirma.
Jernite afirma que Ai2 está funcionando con un mayor grado de apertura que el que hemos visto en otras empresas de inteligencia artificial. Y si bien Molmo es un buen comienzo, dice, su verdadera importancia radicará en las aplicaciones que los desarrolladores creen sobre él y en las formas en que la gente lo mejore.
Farhadi está de acuerdo. Las empresas de IA han atraído inversiones masivas de varios billones de dólares en los últimos años, pero en los últimos meses los inversores han expresado su escepticismo sobre si esa inversión traerá beneficios. Los modelos propietarios grandes y costosos no lo harán, sostiene, pero los de código abierto sí. Afirma que el trabajo demuestra que la IA de código abierto también se puede construir de una manera que haga un uso eficiente del dinero y el tiempo.
“Estamos entusiasmados por poder ayudar a otros y ver qué podrían construir otros con esto”, dice Farhadi.