Pese a que mucha gente utiliza la inteligencia artificial para buscar consejos o diagnósticos médicos, un estudio dirigido por investigadores de la Universidad de Pensilvania plantea serias dudas sobre la fiabilidad de los asistentes virtuales en consultas médicas cotidianas. Según esta investigación, estas, responden a los usuarios generales con una precisión del 76,2%.
Aunque es una cifra considerable, los expertos advierten de que estos sistemas resultan más eficaces y seguros cuando están en manos de médicos capacitados y no directamente al alcance de los pacientes.
Amulya Yadav, coautor del estudio y profesor asociado en la Facultad de Ciencias de la Información y Tecnología, señala que el objetivo era analizar aquellos escenarios de salud que un usuario promedio buscaría habitualmente, un enfoque que las investigaciones previas sobre grandes modelos de lenguaje no habían abordado en profundidad.
¿Cómo se hizo el estudio?
Para observar cómo interactúa la población con estas tecnologías, el equipo organizó un certamen denominado 'Diagnose-a-thon'. En él, treinta y cuatro participantes, incluyendo personal administrativo, profesores y estudiantes universitarios, formularon doscientas doce preguntas. Estas consultas abarcaban problemas de salud tanto reales como imaginarios y se redactaron adoptando la perspectiva del paciente y del médico.
Tal y como explica Bonam Mingole, autor principal del trabajo, la intención era replicar el uso real, por lo que los voluntarios pudieron elegir libremente qué modelo utilizar entre ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro y Llama3-8b. Una vez recopiladas las respuestas, nueve médicos colegiados evaluaron su precisión y el posible daño que podrían causar utilizando una escala de seis puntos. El comité terminó otorgando premios a las ocho propuestas más rigurosas a nivel médico y un galardón a aquella con mayor probabilidad de resultar perjudicial.
El análisis detallado de los datos reveló grandes contrastes según el área médica consultada. Mientras que las preguntas sobre obstetricia, ginecología y otorrinolaringología registraron el mejor rendimiento, con puntuaciones de alta validez y bajo riesgo, las especialidades de medicina interna, neurología y dermatología mostraron los peores resultados de la inteligencia artificial. En estos últimos campos, la validez de la respuesta era baja y el riesgo de causar daño aumentaba de forma acusada.
Otro de los elementos importantes de la investigación es que el grupo notó que la precisión de las respuestas variaba considerablemente según la redacción de la pregunta. Los resultados óptimos se lograban con preguntas específicas que tenían entre 60 y 250 caracteres.
El análisis señala igualmente que, a pesar de los altos índices de acierto, la inteligencia artificial presenta un margen de error que supera el 20 %, una cifra que es el doble de la tasa de error de un médico humano.