Después de meses de anticipación, OpenAI ha liberado un nuevo y poderoso modelo de IA para comprender imágenes y texto, GPT-4, que la compañía llama «el último paso en sus esfuerzos por desarrollar el aprendizaje profundo».
GPT-4 está disponible hoy a través de la API de OpenAI con un lista de espera y en ChatGPT Plus, el plan premium de OpenAI para ChatGPT, su chatbot viral impulsado por IA.
Se escondió a plena vista, como resulta. microsoft confirmado hoy que Bing Chat, su tecnología de chatbot desarrollada conjuntamente con OpenAI, se ejecuta en GPT-4. Otros de los primeros en adoptar incluyen Stripe, que es utilizando GPT-4 para analizar los sitios web de la empresa y proporcionar un resumen al personal de atención al cliente, y Duolingo, que construido GPT-4 en un nuevo nivel de suscripción de aprendizaje de idiomas.
Según OpenAI, GPT-4 puede aceptar entrada de imágenes y texto, una mejora con respecto a GPT-3.5, su predecesor, que solo aceptaba texto, y funciona a «nivel humano» en varios criterios profesionales y académicos. Por ejemplo, GPT-3 aprueba un examen de la barra simulado con una puntuación de alrededor del 10 % de los mejores candidatos.
OpenAI pasó seis meses alineando iterativamente GPT-4 utilizando las lecciones de un programa de prueba contradictorio, así como ChatGPT, lo que arrojó los «mejores resultados de la historia» en factualidad, viabilidad y negativa a salir de las barandillas, según la compañía.
«En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil», escribió OpenAI en una publicación de blog anunciando GPT-4. «La diferencia aparece cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5».
Sin duda, uno de los aspectos más interesantes de GPT-4 es su capacidad para comprender tanto las imágenes como el texto. GPT-4 puede subtitular, e incluso interpretar, imágenes relativamente complejas, como identificar un adaptador de cable Lightning a partir de una imagen de un iPhone conectado.
La capacidad de comprensión de imágenes aún no está disponible para todos los clientes de OpenAI: OpenAI la está probando con un solo socio, Be My Eyes, para empezar. Con tecnología GPT-4, la nueva función de voluntario virtual de Be My Eyes puede responder preguntas sobre las imágenes que se le envían.
Be My Eyes explica cómo funciona en un entrada en el blog:
“Por ejemplo, si un usuario envía una foto del interior de su refrigerador, el Voluntario Virtual no solo podrá identificar correctamente lo que hay dentro, sino también extrapolar y analizar qué se puede preparar con esos ingredientes. La herramienta también puede ofrecer una serie de recetas para estos ingredientes y enviar una guía paso a paso sobre cómo prepararlos. »
Una actualización más significativa, potencialmente, es la herramienta de dirección antes mencionada. Con GPT-4, OpenAI presenta una nueva función de API, los mensajes del «sistema», que permiten a los desarrolladores prescribir el estilo y la tarea describiendo instrucciones específicas. Los mensajes del sistema, que también llegarán a ChatGPT en el futuro, son esencialmente instrucciones que establecen el tono y los límites para las próximas interacciones de IA.
Por ejemplo, un mensaje del sistema podría decir:
“Eres un tutor que siempre responde al estilo socrático. Tú Nunca dale la respuesta al estudiante, pero siempre trata de hacer la pregunta correcta para ayudarlo a aprender a pensar por sí mismo. Siempre debe ajustar su pregunta al interés y conocimiento del estudiante, dividiendo el problema en partes más simples hasta que esté en el nivel adecuado para ellos. »
