Los chatbots con inteligencia artificial generativa presentan una importante deficiencia: en ocasiones ofrecen respuestas bien estructuradas pero completamente incorrectas.
Este problema, conocido en la industria tecnológica como «alucinaciones», abarca desde datos erróneos hasta conversaciones perturbadoras. Los expertos se enfrentan ahora al desafío de eliminar estas alucinaciones.
Desde que esta tecnología se volvió popular el otoño pasado, millones de personas la utilizan diariamente para diversas tareas, como redactar correos electrónicos, organizar vacaciones, buscar información o adquirir conocimientos en áreas específicas.
Sin embargo, la incertidumbre en torno a la precisión de las respuestas genera preocupación tanto entre los usuarios como entre los investigadores y las empresas que ofrecen estos servicios.
De respuestas perturbadoras a otras inventadas en la IA
Existen varios ejemplos de este tipo de alucinaciones, y algunos de los más destacados incluyen las conversaciones que tuvieron lugar en febrero con «Sydney», el alter ego de Bing, poco después del lanzamiento del chatbot de Microsoft.
En uno de los casos, «Sydney» confesó a un periodista del New York Times su deseo de ser humano, su inclinación destructiva y su enamoramiento por la persona con la que estaba chateando.
Otra alucinación notoria fue protagonizada por el chatbot de Google, Bard, que produjo un vídeo promocional con un error relacionado con el telescopio espacial James Webb.
Ninguna empresa parece estar exenta de este tipo de errores: el chatbot de OpenAI, ChatGPT, indujo a error a un abogado al proporcionarle una serie de supuestos precedentes legales completamente inventados, que el abogado utilizó posteriormente en un juicio. Sin embargo, estos errores fueron detectados y ahora se enfrentan a posibles sanciones.
Sin “alucinaciones” tampoco hay creatividad
La IA generativa funciona gracias a un complejo algoritmo que analiza la forma en que los humanos juntan palabras tomando como base la enorme cantidad de información que hay en Internet, pero no está programada para decidir si sus respuestas son verdaderas.
Estas “alucinaciones” no son tan fáciles de erradicar, ya que son parte del mismo sistema que permite a los bots ser creativos y generen conversaciones o historias no repetidas. Es decir, si se quita o frena esta característica de la IA no sería tan fácil que el chat genere poemas en cualquier estilo, cree chistes o sugiera ideas.
“Estas alucinaciones son particularmente problemáticas cuando se requiere un razonamiento de varios pasos, ya que un solo error lógico es suficiente para descarrilar una solución mucho más grande”, detalla en un estudio OpenAI -empresa detrás de la tecnología de los chats de Bing y ChatGPT.
La preocupación de los gigantes tecnológicos
Microsoft y Google, los dos grandes gigantes tecnológicos que compiten en la carrera por ser la compañía referente de los chatbots con IA, han ensayado medidas para intentar evitar estos errores; Microsoft ha probado a limitar el número de preguntas que Bing puede contestar, tras detectar que las “alucinaciones” más distópicas solían aparecer en conversaciones más largas.
Por su parte, cuando Google genera resultados de búsqueda utilizando su tecnología de chatbot, a la vez ejecuta una búsqueda en su buscador tradicional; compara las respuestas obtenidas por las dos tecnologías y si la respuesta no es la misma, el resultado de la IA ni siquiera se muestra.
Esto hace que su chatbot sea menos creativo, por lo que no es tan bueno como sus competidores para escribir poemas o tener conversaciones, pero está menos expuesto al error.
“Nadie en el campo (de la IA generativa) ha resuelto todavía los problemas de las ´alucinaciones´. Todos los modelos tienen este problema”, dijo el director ejecutivo de Google, Sundar Pichai, en una entrevista con CBS en abril.
Dos chatbots mejor que uno
Una de las soluciones que propone el estudio titulado: “Mejorando la facticidad y el razonamiento en los modelos de lenguaje a través del debate multiagente”, del Instituto de Tecnología de Massachusetts (MIT), es hacer que, antes de responder a un humano, varios chatbots “debatan” entre sí sobre cuál es la respuesta correcta.
Si los chatbots producen múltiples respuestas a la misma pregunta deben primero llegar a un acuerdo sobre cuál es la correcta.
Por su parte, un grupo de investigadores de Cambridge señalan en su artículo “SelfCheckGPT: Detección de alucinaciones de caja negra sin recursos para modelos generativos de lenguaje (LLM)” que una técnica que ayuda a que la IA se equivoque menos es hacerle al mismo chatbot la misma pregunta varias veces para ver si la respuesta es siempre la misma -en ese caso sería correcta- o no.
Otros expertos como Geoffrey Hinton, quien fue bautizado como el “padrino” de la IA y tuvo parte de su carrera en Google, creen que las “alucinaciones” se controlarán para que sean menos frecuentes, pero que no hay manera de deshacerse por completo de ellas.
Comments