Apple comienza el segundo trimestre del año anunciando novedades en inteligencia artificial. Los investigadores afincados en Cupertino han revelado un nuevo modelo basado en IA capaz de ofrecer contexto sobre lo que se muestra en la pantalla de los dispositivos. Atiende al nombre de ReALM y, según el informe publicado, es capaz de superar a GPT-4.

El objetivo de este nuevo sistema es mejorar la conversación, permitiendo interacciones más naturales gracias al contexto visual. ReALM suma a la ecuación la información mostrada en la pantalla, por lo que la voz deja de ser el único elemento con el que el usuario puede comunicarse.

Además, las posibilidades no solo pasan por aportar más información, también sería posible hacer preguntas concretas sobre lo que muestra la pantalla. La investigación de Apple está en una fase temprana, pero ya es capaz de emitir un ranking en el que ReALM supera a su competencia directa.

La IA de Apple ya supera a GPT-4 en rendimiento

Por supuesto, poder ver, leer y entender la información de la pantalla no es algo nuevo. La mayoría de lenguajes y compañías están trabajando en algo similar con objetivos muy diversos. Apple es una de las más interesadas, pues su catálogo está lleno de dispositivos con paneles y puede sacar mucho jugo de este sistema.

Apple ReALM
Imagen de arxiv.org

A pesar de no ser la primera en anunciar su investigación, sí ha conseguido ser una de las mejores. Los investigadores han dejado por escrito que la versión más avanzada de ReALM es capaz de superar a GPT-4 en la captación de referencias visuales (referencias de la pantalla).

El informe publicado por Apple muestra una tabla de puntuaciones en las que ReALM-3B, su versión más potente, es capaz de superar a MARRS, GPT-3.5 y GPT-4 en aciertos en pantalla. Desde la compañía destacan que su sistema es mucho más pequeño y, aun así, está ofreciendo los mejores resultados.

La clave para mejorar Siri

Que Siri, el asistente virtual de Apple, está un paso por detrás de la competencia es un hecho. ReALM permite vislumbrar un futuro prometedor para Siri en todos los dispositivos de la compañía. El contexto visual de la pantalla abre las puertas a una nueva forma de interacción con la IA y con los asistentes virtuales.

En el futuro, cuando ReALM se integre con Siri, permitirá leer la información mostrada en la pantalla para resolver dudas o, incluso, mostrar información de interés sin que el usuario la solicite.

Un buen ejemplo puede ser estar viendo la web de un restaurante y que el iPhone, de forma automática, detecte una dirección en la pantalla para brindar una notificación de Maps con la ruta en coche.

Para finalizar, Apple también ha comentado las limitaciones de este sistema. Según el documento, pasar de texto simple a imágenes es un proceso complejo y que necesita sistemas mucho más avanzados. Siri podría ofrecer contexto cuando se muestre texto, pero diferenciar entre imágenes o analizarlas no parece estar tan cerca.