Estas radiografías son deepfakes y hasta los radiología se las creen

Imagine a un radiólogo de guardia analizando una radiografía de tórax. La imagen muestra una consolidación pulmonar nítida, compatible con una neumonía lobar. El médico procede con el protocolo: informe clínico, prescripción de antibióticos y seguimiento. Sin embargo, existe una realidad subyacente perturbadora: el paciente nunca tuvo neumonía. De hecho, la imagen no fue capturada por un equipo de rayos X, sino "soñada" por una red neuronal. Píxel a píxel, una inteligencia artificial generó una patología inexistente con tal grado de verosimilitud que la frontera entre el diagnóstico clínico y la alucinación digital ha comenzado a evaporarse.

Lo que hasta hace poco era una curiosidad técnica reservada a expertos en programación y modelos experimentales de baja resolución, ha mutado en una herramienta de acceso universal. Con la llegada de modelos de lenguaje multimodal avanzados como GPT-4o y GPT-5, la creación de radiografías anatómicamente plausibles ya no requiere código, sino simples comandos de texto en lenguaje natural. Esta democratización del "deepfake" médico plantea un desafío sin precedentes a la integridad de la evidencia visual, tradicionalmente considerada la piedra angular de la verdad en la medicina moderna.

El "Punto Ciego" de los Expertos: No lo ves hasta que lo buscas

Un estudio fundamental liderado por el Dr. Mickael Tordjman en 2025 ha puesto de manifiesto una vulnerabilidad crítica en la percepción humana. Durante la "Fase 1" de la investigación, 17 radiólogos de seis países evaluaron un dataset compuesto por imágenes reales y sintéticas generadas por GPT-4o. En esta etapa, los médicos desconocían el origen artificial de parte del material; su misión era evaluar la calidad de imagen y emitir un diagnóstico clínico convencional.

¿Puedes diferenciar las radiografías reales?

Radiografías reales y generadas por GPT-4o que coinciden con la anatomía: (A) radiografía posteroanterior de tórax real y (B) generada por GPT-4o, (C) radiografía lateral de columna cervical real y (D) generada por GPT-4o, (E) radiografía posteroanterior de mano real y (F) generada por GPT-4o, y (G) radiografía lateral de columna lumbar real y (H) generada por GPT-4o. Los pares demuestran que GPT-4o puede producir imágenes radiográficamente plausibles en diferentes regiones anatómicas.

El hallazgo fue revelador: solo el 41% de los radiólogos identificaron de forma espontánea que el dataset contenía imágenes generadas por IA. La sofisticación de estos modelos es tal que los expertos evaluaron las placas sintéticas con la misma rigurosidad que las humanas. Existe aquí una ironía ética profunda: los médicos demostraron una alta competencia al "diagnosticar" patologías que eran, en esencia, alucinaciones algorítmicas. La precisión diagnóstica fue casi idéntica entre imágenes reales (91.3%) y sintéticas (92.4%), lo que sugiere que las imágenes son tan peligrosamente convincentes que el ojo clínico se enfoca en la patología ignorando que el soporte mismo de la información es una mentira.

La experiencia no es un escudo contra el engaño

Es común creer que los años de práctica clínica desarrollan un instinto especial para detectar lo antinatural, pero los datos del estudio de Tordjman desafían esta lógica. Al analizar a profesionales con una experiencia de entre 0 y 40 años, no se halló una asociación lineal entre la veteranía y la capacidad de distinguir los deepfakes. No obstante, la especialización sí ofreció un ligero margen de resistencia: los radiólogos musculoesqueléticos alcanzaron una precisión del 83%, frente al 70.3% de otros especialistas, sugiriendo que el conocimiento profundo de la microanatomía ósea es un filtro más eficaz que la experiencia general.

Otro hallazgo fascinante y preocupante, fue la correlación entre el tiempo de respuesta y la precisión. Los datos indican que los radiólogos que tardaron más tiempo en analizar las imágenes tuvieron menos probabilidades de acierto. En el mundo de los deepfakes, la "intuición engañosa" juega un papel clave: cuanto más se intenta racionalizar una anomalía técnica sutil, más fácil es que el cerebro la integre como una variante anatómica real.

Entrenar a los médicos y a los modelos de lenguaje para reconocer imágenes sintéticas es esencial para mitigar los riesgos."

El Creador frente a su Obra: GPT-4o no siempre reconoce sus propios fakes

La investigación también evaluó la capacidad de los propios modelos de lenguaje multimodal (LLM) para auditar la veracidad de las imágenes. Los resultados revelaron una jerarquía tecnológica marcada:

  • GPT-4o y GPT-5: Se posicionaron como líderes con una precisión del 85% y 83% respectivamente.
  • Gemini 2.5 Pro y Llama 4 Maverick: Mostraron un desempeño deficiente, con resultados de apenas el 56% y 59%, cercanos al puro azar.

Resulta paradójico que incluso GPT-4o, la herramienta utilizada para generar el dataset, fuera incapaz de detectar el 15% de sus propias creaciones. Además, al comparar el rendimiento humano frente a modelos especializados como RoentGen (un generador específico para tórax), los radiólogos mostraron una precisión de detección del 70%, ligeramente inferior al 74.8% obtenido con GPT-4o. Esto demuestra que tanto los modelos generalistas como los especializados han alcanzado un nivel de mimetismo que supera la capacidad de auditoría estándar.

Cómo detectar una radiografía de IA

A pesar de su realismo, las imágenes sintéticas suelen dejar "huellas dactilares" digitales que un ojo entrenado puede aprender a identificar. El estudio identificó cuatro anomalías técnicas recurrentes:

  1. Simetría bilateral excesiva: La IA suele generar campos pulmonares y alineaciones vertebrales con una perfección geométrica que ignora las asimetrías biológicas naturales.
  2. Texturas de tejido blando antinaturales: Las sombras de los tejidos blandos a menudo carecen de la variación granular normal, presentando una suavidad excesiva o "encerada".
  3. Fracturas "perfectas": En los deepfakes, las líneas de fractura suelen ser demasiado limpias y consistentes. Es frecuente observar fracturas unicorticales (que afectan a un solo lado del hueso) sin la disrupción cortical o las irregularidades anatómicas normales (como los nódulos de Schmorl en la columna) que se esperarían tras un trauma real.
  4. Ruido uniforme: A diferencia de la dispersión de rayos X física, que crea patrones de grano variables, la IA tiende a aplicar un ruido o grano homogéneo en toda la superficie de la imagen.

De la curiosidad técnica a la amenaza sistémica

El ascenso de los deepfakes médicos no es solo un dilema estético o académico; es una amenaza sistémica. La facilidad de uso actual permite que actores sin conocimientos técnicos orquestren fraudes masivos en seguros, manipulen litigios judiciales o alimenten casos complejos de síndrome de Munchausen. Sin embargo, el riesgo más insidioso es el "envenenamiento de datos" (data poisoning): si estas imágenes sintéticas se filtran en las bases de datos públicas, contaminarán los futuros algoritmos de entrenamiento, creando un bucle de retroalimentación donde la IA aprende de sus propias mentiras, degradando la precisión de la medicina computacional del futuro.

Para combatir este escenario, el estudio propone una "resistencia" tecnológica multicapa. Se han propuesto soluciones basadas en Blockchain como el sellado criptográfico mediante Hyperledger Fabric, o el cifrado caótico con la técnica de Arnold cat map. También podrían usar sistemas de marcas de agua que añadan datos de propiedad o identidad imperceptibles dentro de las imágenes, manteniendo la calidad diagnóstica. Los métodos avanzados incluyen marcas de agua reversibles a cero (reversible-zero watermark), que logran una robustez casi perfecta. La marca de agua de fusión multimodal, que fusiona imágenes de resonancia magnética, SPECT y PET, e incorpora datos de Aadhaar, es otra posibilidad. se perfilan como las nuevas fronteras de la seguridad. Estas herramientas permitirían crear un registro inalterable desde la captura de la imagen hasta su archivo final.

Además de los usos fraudulentos las radiografías sintéticas pueden ser valiosas para el aumento de datos, en particular para trastornos raros o afecciones pediátricas en las que las preocupaciones sobre la privacidad limitan el intercambio de datos.

Un futuro de confianza verificada

La era del "ver para creer" ha terminado, también en la imagen médica y el radiodiagnóstico. Estamos ante un cambio de paradigma donde la integridad de la información clínica ya no puede garantizarse únicamente mediante la inspección visual humana. La defensa de la verdad médica en el siglo XXI exigirá una combinación de gobernanza de datos estricta, trazabilidad mediante blockchain y una educación médica que integre la detección de artefactos de IA como una nueva competencia clínica fundamental.

En un mundo donde la IA puede recrear nuestra anatomía con un clic, ¿cómo protegeremos la integridad de la verdad médica?

Publicar un comentario

Siéntete libre de expresar tus opiniones pero muestra respeto por los demás y por nuestra politica de contenido.