OpenAI está lanzando un chatbot de IA avanzado con el que puedes hablar. Ya está disponible, al menos para algunos.
El nuevo chatbot representa el impulso de OpenAI hacia una nueva generación de asistentes de voz impulsados por IA en la línea de Siri y Alexa, pero con muchas más capacidades para permitir conversaciones más naturales y fluidas. Es un paso en la marcha hacia agentes de IA más capaces . El nuevo bot de voz ChatGPT puede decir qué transmiten los diferentes tonos de voz, responde a las interrupciones y responde a las consultas en tiempo real. También ha sido entrenado para sonar más natural y usar voces para transmitir una amplia gama de emociones diferentes.
El modo de voz funciona con el nuevo modelo GPT-4o de OpenAI , que combina capacidades de voz, texto y visión. Para recopilar comentarios, la empresa lanzará inicialmente el chatbot a un «pequeño grupo de usuarios» que pagan por ChatGPT Plus, pero dice que pondrá el bot a disposición de todos los suscriptores de ChatGPT Plus este otoño. Una suscripción a ChatGPT Plus cuesta 20 dólares al mes. OpenAI dice que notificará a los clientes que forman parte de la primera ola de implementación en la aplicación ChatGPT y les brindará instrucciones sobre cómo usar el nuevo modelo.
La nueva función de voz, que se anunció en mayo , se lanzará un mes más tarde de lo previsto originalmente porque la compañía dijo que necesitaba más tiempo para mejorar las funciones de seguridad, como la capacidad del modelo para detectar y rechazar contenido no deseado. La compañía también dijo que estaba preparando su infraestructura para ofrecer respuestas en tiempo real a millones de usuarios.
OpenAI afirma que ha probado las capacidades de voz del modelo con más de 100 miembros externos del equipo rojo, a quienes se les encargó investigar el modelo en busca de fallas. Estos evaluadores hablaban un total de 45 idiomas y representaban a 29 países, según OpenAI.
La empresa afirma que ha puesto en marcha varios mecanismos de seguridad. En una medida que pretende evitar que el modelo se utilice para crear deepfakes de audio, por ejemplo, ha creado cuatro voces preestablecidas en colaboración con actores de doblaje. GPT-4o no suplantará ni generará las voces de otras personas.
Cuando OpenAI presentó por primera vez GPT-4, la empresa se enfrentó a una reacción negativa por el uso de una voz llamada «Sky», que sonaba muy parecida a la de la actriz Scarlett Johansson. Johansson publicó un comunicado en el que decía que la empresa se había puesto en contacto con ella para pedirle permiso para usar su voz para la modelo, a lo que ella se negó. Dijo que se sorprendió al escuchar una voz «inquietantemente similar» a la suya en la demostración de la modelo. OpenAI ha negado que la voz sea la de Johansson, pero ha suspendido el uso de Sky.
La empresa también está involucrada en varias demandas por supuestas infracciones de derechos de autor. OpenAI afirma que ha adoptado filtros que reconocen y bloquean las solicitudes para generar música u otro audio protegido por derechos de autor. OpenAI también afirma que ha aplicado los mismos mecanismos de seguridad que utiliza en su modelo basado en texto a GPT-4o para evitar que infrinja las leyes y genere contenido dañino.
En el futuro, OpenAI planea incluir funciones más avanzadas, como compartir video y pantalla, que podrían hacer que el asistente sea más útil. En su demostración de mayo, los empleados apuntaron las cámaras de sus teléfonos a una hoja de papel y le pidieron al modelo de IA que los ayudara a resolver ecuaciones matemáticas. También compartieron las pantallas de sus computadoras y le pidieron al modelo que los ayudara a resolver problemas de codificación. OpenAI dice que estas funciones no estarán disponibles ahora, sino en una fecha posterior no especificada