Un equipo internacional de investigadores ha dado un paso inesperado hacia la interpretación del pensamiento humano gracias a una técnica experimental a la que han bautizado como mind captioning. Este método, descrito recientemente en Science Advances, pretende generar breves textos que reflejen lo que una persona observa o evoca, a partir de patrones de actividad cerebral registrados mediante resonancia magnética.
El estudio se desarrolló con solo seis participantes, pero su diseño llamó la atención por su audacia: cada voluntario se recostó dentro de un escáner cerebral mientras observaba una serie de videoclips muy breves. Al mismo tiempo, un sistema informático trataba de construir oraciones completas que resumieran la escena proyectada en la mente del espectador. No se buscaba reconocer conceptos aislados, sino identificar protagonistas, acciones y entornos de forma integrada, según explicó el responsable del proyecto, Tomoyasu Horikawa, del Instituto de Estudios Avanzados de la Universidad de Tokio.
Cómo se traduce la actividad cerebral en frases legibles
El proceso técnico se divide en varias etapas. Para empezar, un grupo de observadores humanos elaboró descripciones detalladas para cada clip, por ejemplo: “un niño acaricia a un perro en el jardín”. Esas frases fueron convertidas en vectores numéricos mediante modelos lingüísticos de OpenAI, entre ellos ChatGPT 4o mini y la versión 3.5.
Luego, el equipo creó un decodificador individual para cada voluntario. Ese decodificador aprendía a vincular el patrón de actividad cerebral generado por un video concreto con el vector lingüístico correspondiente. Una vez establecida esta relación, un segundo modelo de lenguaje se encargaba de reconstruir una oración comprensible. El sistema comenzaba con un borrador mínimo, incluso un marcador vacío, y generaba una frase tentativa. Después verificaba si el significado de esa frase coincidía o no con la representación obtenida del cerebro. Si había discrepancias, el modelo sustituía algunas palabras y mantenía únicamente las alternativas más cercanas al significado decodificado. Repetir esta revisión varias veces terminaba por generar un texto mucho más ajustado al contenido mental del participante.
Aunque el método está lejos de producir transcripciones perfectas, los investigadores destacaron que las frases generadas se parecían con frecuencia a las descripciones originales. Los errores eran llamativos pero comprensibles: el sistema podía confundir un perro con un lobo, pero mantenía intacta la estructura narrativa, como la persecución de un animal o la interacción entre personas y objetos.
Para medir su precisión, los científicos intentaron identificar cuál de los videoclips estaba viendo un participante únicamente a partir del texto generado. La elección correcta se produjo muchas más veces de lo esperado al azar y superó a técnicas anteriores basadas en representaciones visuales menos complejas.
Uno de los aspectos más sorprendentes surgió cuando los voluntarios dejaron de mirar los videos y pasaron a recordar escenas en silencio. Sin imágenes en pantalla, el sistema volvió a generar descripciones, que coincidieron en mayor medida con los clips recordados que con otros ajenos. Aunque la precisión se redujo en comparación con la fase de observación directa, el resultado sugiere que el método puede captar no solo la información sensorial inmediata, sino también contenidos internos de la memoria.
Dónde se codifica el significado y qué aplicaciones podría tener
El análisis de Horikawa reveló que la decodificación seguía funcionando incluso cuando se excluían las áreas del lenguaje del cerebro. En su lugar, regiones visuales de alto nivel y zonas parietales, encargadas de integrar distintos tipos de información sensorial, parecían contener claves fundamentales para reconstruir el significado de las escenas. Las áreas visuales tempranas coincidían más con modelos centrados en detalles como formas y texturas, mientras que las regiones superiores se alineaban con modelos semánticos basados en conceptos y relaciones.
La investigación abre una nueva vía en la neurociencia para comprender cómo la mente organiza eventos complejos en estructuras comparables a oraciones. Además, los autores imaginan aplicaciones futuras en entornos médicos: sistemas que permitan a personas con graves dificultades motoras comunicar su experiencia interna mediante texto derivado de su actividad cerebral.
Aun así, los científicos insisten en que esta tecnología no “lee” pensamientos profundos ni accede a secretos personales. Lo que sí consigue, por primera vez de manera convincente, es transformar patrones neuronales complejos en lenguaje estructurado, un avance que combina la potencia de la neuroimagen moderna con los modelos lingüísticos de última generación.