ReALM: La IA de Apple que puede destronar a GPT-4

Tiempo de lectura: 5 minutos

Realm

Compartir en redes

ReALM es la apuesta de modelo de lenguaje de Inteligencia Artificial por parte de Apple para competir directamente con GPT-4. Este modelo de lenguaje está diseñado para ejecutarse en los smartphone y complementarse con Siri para ayudarlo a comprender el contexto y las solicitudes ambiguas. Parece que Apple se ha puesto por fin las pilas en la carrera por la IA y ha despertado de su letargo. ¡Vamos a verlo!

ReALM y la competencia por la IA

No es ningún secreto que Apple llevaba tiempo trabajando en un nuevo modelo de lenguaje de IA y que además estaba bastante rezagada en comparación con el resto de alternativas del mercado. Sin embargo el enfoque que quiere dar el gigante tecnológico no es el de desarrollar una especie de ChatGPT donde ejecutar la IA, sino en implementarla en aplicaciones del día a día. Para esto ha nacido ReALM.

¿Qué significa ReALM y qué hace?

ReALM es el resultado de Reference Resolution As Language Modeling. Así es el nombre en clave del nuevo sistema de IA de Apple que entiende lo que hay en la pantalla.

Este nuevo sistema de lenguaje es capaz de entender el contexto y las referencias yendo mucho más allá de un simple reconocimiento de texto e imágenes. El usuario puede realizar consultas sobre lo que se estrá mostrando en nuestra pantalla y la IA se encarga de procesar esa información.

En otras palabras, ReALM reconstruye todo el contenido que se ve en pantalla y genera una representación textual del diseño visual captado. De ser completamente así, la experiencia de manos libres en los asistentes de voz será completa y el usuario no tendrá que tocar la pantalla.

¿Qué utilidades puede tener ReALM?

Con este sistema de reconocimiento de contenido de la pantalla se podrían solicitar resúmenes de páginas web, de documentos PDF, de imágenes, etc. Podríamos desde pedirle a la IA que modifique el cielo de una imágen sin nosotros tener que tocar la pantalla hasta eliminar una serie de datos de un albarán.

Un ejemplo es un usuario que pregunta por farmacias cercanas. Después de presentar una lista, algo que Siri podría hacer, el usuario podría preguntar: «Llame al teléfono de El Corte Inglés», «Llame al teléfono de abajo» o «Llame a este número (presente ya en pantalla)». Siri no puede realizar esta segunda parte, pero con ReALM, sí podría comprender el contexto analizando los datos del dispositivo y completando la consulta.

El punto de esta IA no es tanto lo que hace, sino cómo lo hace. El hecho de que el usuario no tenga que interactuar o seleccionar parte del contenido que está visualizando en pantalla y poder hacerlo con la voz es, sin duda el ingrediente disruptivo.

Cierto es que la experiencia nos dice que Apple suele llegar tarde a la hora de dotar sus productos o servicios de una verdadera utilidad que los usuarios aprecien o usen realmente. Pero en este caso todo apunta a que han conseguido su objetivo: tratar de destronar a GPT-4.

¿Mejor que GPT-4?

Dicho todo lo anterior, Apple cree que su último modelo de IA es literalmente mejor que el GPT 4 de ChatGPT:

“En el caso de GPT-3.5, que sólo acepta texto, nuestra entrada consiste únicamente en el mensaje; sin embargo, en el caso de GPT-4, que también puede contextualizar imágenes, proporcionamos al sistema una captura de pantalla para la tarea de resolución de referencia en pantalla, lo que consideramos que ayuda a mejorar sustancialmente el rendimiento. Hay que tener en cuenta que nuestra formulación de mensaje ChatGPT y mensaje + imagen son, hasta donde sabemos, novedosas en sí mismas. Si bien creemos que podría ser posible mejorar aún más los resultados, por ejemplo, tomando muestras de expresiones semánticamente similares hasta alcanzar la longitud del mensaje, este enfoque más complejo merece una exploración más profunda y dedicada, y lo dejamos para trabajos futuros”.

Y es que ReALM puede realizar tareas relacionadas con diferentes tipos o entidades:

  • Entidades en pantalla: son entidades que se muestran actualmente en la pantalla de un usuario.
  • Entidades conversacionales: son entidades relevantes para la conversación. Estas entidades pueden provenir de un turno anterior del usuario. Por ejemplo, cuando el usuario dice “Llamar a Mamá”, el contacto de Mamá sería la entidad relevante en cuestión. O del asistente virtual, por ejemplo, cuando el agente proporciona una usuario con una lista de lugares o alarmas para elegir.
  • Entidades de Fondo: Son entidades relevantes que provienen de procesos en segundo plano. Estos, no necesariamente pueden ser parte directa de lo que el usuario ve en su pantalla o de su interacción con el agente virtual. Por ejemplo, una alarma que comienza a sonar o música que se reproduce de fondo.

En definitiva, la presentación de ReALM por parte de Apple marca un hito importante en la evolución de las interacciones usuario-dispositivo impulsadas por IA. Al superar los desafíos de larga data en la resolución de referencia, Apple se ha posicionado a la vanguardia de la competición por la IA. Que supere a GPT-4 lo veremos o no, pero por el momento la competición por estar a la vanguardia de la IA está que arde.

Compartir en redes

Scroll al inicio