News Release

Por una base de datos FAIR de las simulaciones moleculares

Peer-Reviewed Publication

Institute for Research in Biomedicine (IRB Barcelona)

image: 

Molecular Dyniamics Data Bank.

view more 

Credit: IRB Barcelona

Las simulaciones computacionales se han convertido en una herramienta clave para estudiar el comportamiento de biomoléculas a lo largo del tiempo. Gracias a supercomputadores, la dinámica molecular (MD) permite observar estos procesos con gran precisión, aportando conocimiento útil tanto en investigación básica como en el diseño de biomoléculas, desde enzimas a fármacos.

A diferencia de la biología estructural o la genómica, donde guardar y compartir datos bajo estándares comunes es práctica común, en el campo de la simulación molecular estos datos siguen fragmentados y a menudo acaban olvidados en ordenadores personales, lo que dificulta la reproducibilidad de los cálculos, e imposibilita su aprovechamiento posterior. Esto genera un problema formidable para la integración de estos datos en los flujos de trabajo de la biología estructural y de la biofísica y frena el desarrollo de métodos de inteligencia artificial, cuyo entrenamiento es extremadamente dependiente del acceso de ingentes cantidades de datos dinámicos.

En el artículo publicado en la revista Nature Methods, más de 100 investigadores alertan de esta situación y reclaman un cambio de modelo: aplicar los principios FAIR —que garantizan que los datos sean localizables, accesibles, interoperables y reutilizables— a los resultados de simulaciones. El artículo ha sido firmado por especialistas de referencia internacional, incluyendo a dos premios Nobel y figuras referentes de los mejores centros de investigación del mundo. El objetivo propuesto es construir un ecosistema abierto y sostenible que multiplique el impacto de estos datos y evite duplicidades innecesarias.

 

“Reutilizar en lugar de repetir”

“La comunidad ha asumido durante años que repetir una simulación era más fácil y barato que archivarla. Pero eso ya no es cierto”, afirma el Dr. Modesto Orozco, coordinador del proyecto Europeo MDDB, jefe del laboratorio de Modelización Molecular y Bioinformática del IRB Barcelona, Catedrático de la Universidad de Barcelona y fundador de la biotecnológica Nostrum Biodiscovery.

“El conocimiento que podemos extraer al reutilizar datos es enorme: nos permitirá identificar nuevas dianas, entrenar algoritmos de inteligencia artificial o diseñar nuevos experimentos”, añade el Dr. Hospital. Ambos lideran el proyecto europeo MDDB financiado por el programa Horizon Europe de la Comisión Europea, que busca precisamente establecer una base de datos centralizada y accesible para simulaciones moleculares.

 

Lecciones de otros campos

La propuesta se inspira en el éxito de otras áreas que han apostado por la ciencia abierta. El Protein Data Bank, que desde los años setenta recoge estructuras tridimensionales de biomacromoléculas y que ha sido fundamental, no solo para desvelar el funcionamiento de proteínas y ácidos nucleicos, para permitir la revolución "ómica" o para ganar una visión holística de la célula, sino que ha sido instrumental en el desarrollo de fármacos, vacunas y nuevas terapias. Los datos almacenados ahí han sido clave para el entrenamiento de AlphaFold2, reconocido con el Premio Nobel de Química 2024. Los autores sostienen que complementar esos datos estructurales con información dinámica abrirá un nuevo campo, cuya potencialidad de desarrollo es difícil sobreestimar.

Según los autores del artículo, ha llegado el momento de que la comunidad de simulación molecular adopte prácticas similares a las de las comunidades estructurales y "ómicas", no solo conservando los datos, sino también estandarizando los formatos de archivo, los metadatos y los criterios de calidad. El texto describe cómo una infraestructura federada, con nodos distribuidos y herramientas de acceso común, podría hacer viable este archivo de escala planetaria.

 

Más allá del almacenamiento

El enfoque defendido en el artículo publicado en Nature Methods no se limita a guardar datos. Se defiende un modelo integrado: desde la documentación precisa de las simulaciones (condiciones, software, parámetros, etc.) hasta su análisis automatizado, validación y reutilización mediante técnicas de aprendizaje automático. “El valor de estos datos no termina con la publicación de un artículo, o a la presentación de los mismos en un congreso. A menudo esto es solo el principio”, concluye Orozco. “Los datos debemos tratarlos como un bien común de la ciencia”.


Esta publicación se ha desarrollado en el marco del proyecto europeo MDDB (Molecular Dynamics Data Bank), coordinado desde el IRB Barcelona, que tiene como objetivo construir una base de datos abierta y estandarizada para almacenar simulaciones de dinámica molecular. El consorcio, financiado por el programa Horizon Europe (grant 101094651), reúne a centros de investigación líderes en bioinformática, simulación y análisis de datos para avanzar hacia una ciencia más abierta, reproducible y colaborativa. Más información: https://mddbr.eu/ 


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.