ChatGPT, Doctor Chatbot, Botsify, Ada, Doctor Google, Watson Assistant... La inteligencia artificial (IA) ha colmado todos los campos del conocimiento, incluyendo la medicina. Los programas que simulan conversaciones humanas, los llamados chatbots responden a cada pregunta que se les hace con un discurso ordenado, lógico y en un lenguaje natural. Como un humano. Lo que también implica el hecho de equivocarse.

De hecho, las investigaciones recientes apuntan a que los chatbots comenten más errores cuando se les consulta en español, en comparación con el inglés. Al menos en lo que se refiere a cuestiones médicas, los expertos recalcan que esta tendencia supone un riesgo para los usuarios y, por lo tanto, conviene profundizar más en el desarrollo de la IA.

Más o menos errores según el idioma

El más reciente de esos estudios fue elaborado por el Instituto de Tecnología de Georgia, en Estados Unidos. En él, los investigadores realizaron más de 2.000 preguntas típicas sobre enfermedades, procedimientos médicos y medicamentos a dos de los chatbots más conocidos: GPT-3.5 de OpenAI y MedAlpaca. Primero en inglés y luego traducidas al español, chino mandarín e hindi, las preguntas fueron respondidas con mayor o menor precisión en función del idioma.

En concreto, GPT-3.5 cometió errores inaceptables en el 23% de las preguntas en chino, el 20 % en español y el 45% en hindi, pero solo el 10% siendo en inglés. Por otra parte, MedAlpaca se equivocó aún más, con más del 67% de respuestas irrelevantes o contradictorias en chino, hindi y español.

“Descubrimos una pronunciada disparidad en las respuestas en estos idiomas, lo que indica la necesidad de mejorar las capacidades multilingües”, explican los autores del estudio. Entonces, existe una contundente brecha en la eficacia de estos chatbots en idiomas diferentes al inglés.

Fotografía del sitio web del ChatGPT EP

La brecha entre un idioma y otro

Si bien los resultados no dejan de ser preocupantes, la brecha es algo de esperar cuando la mayoría de los modelos de lenguaje grande (LLM) se entrenan principalmente con datos en inglés. Esto ocurre porque hay una mayor abundancia de textos en línea en inglés en comparación con otros idiomas y, por ende, los chatbots están peor preparados para comprender y responder con precisión en esos casos.

Esa falta de entrenamiento o la propia complejidad de traducir términos médicos produce dificultades para comprender el contexto. Por ejemplo, MedAlpaca presentó errores como la repetición de palabras o respuestas en inglés a preguntas formuladas en otros idiomas. No obstante, la similitud en la estructura y la sintaxis entre el inglés y el español generó respuestas más consistentes que en el caso del chino y el hindi, aunque no fuera suficiente para evitar los errores en el idioma español.

Soluciones para esta brecha lingüística

Ante la posibilidad de poner en riesgo a los usuarios por culpa de una información médica errónea, los expertos trabajan para conseguir soluciones efectivas lo antes posible. Algunas de esas estrategias son el aumento del número de textos médicos traducidos del inglés a otros idiomas y el entrenamiento de modelos específicos para cada idioma.

Para ello, tachan de vital la inclusión de expertos médicos de diferentes partes del planeta, ya que esa diversidad ayudaría a reducir la brecha lingüística y a mejorar la exactitud de las respuestas. “Nuestros hallazgos subrayan la acuciante necesidad de reforzar las capacidades multilingües de estos modelos y de proporcionar un ecosistema de información equitativo y accesible para todos”, concluyen.

Es más, "es imperativo reconocer y abordar las limitaciones actuales de la IA para responder con precisión en idiomas no ingleses" y, por ello, hay que priorizar crear modelos útiles para la mayoría de la población, así como adquirir un enfoque más inclusivo y exhaustivo.