Investigadores de la Universitat Oberta de Catalunya (UOC) y del Instituto de Ciencias Fotónicas (ICFO) han creado una base de datos espectral Raman accesible y abierta a la comunidad científica que contiene 140 biomoléculas de los principales tipos, como ácidos nucleicos, proteínas, lípidos, carbohidratos, etc. La espectroscopia Raman es una técnica que permite analizar la composición química y la estructura molecular de materiales mediante la interacción de la luz con la materia, específicamente en el llamado fenómeno de dispersión Raman, descubierto por el físico Chandrasekhara Venkata Raman en 1928.
El trabajo Open Raman spectral library for biomolecule identification, publicado en abierto en la revista Chemometrics and Intelligent Laboratory Systems, ha sido liderado por Marcelo Terán, ingeniero de datos e investigador del grupo AIWELL (Artificial Intelligence for Human Well-being) de la UOC, y también han colaborado David Masip y David Merino, investigadores del grupo de investigación, y los científicos José Javier Ruiz y Pablo Loza-Alvarez, del ICFO.
"Hasta ahora, una de las limitaciones del potencial de Raman en aplicaciones biomédicas era la falta de datos espectrales abiertos de biomoléculas. Por eso nos propusimos crear una biblioteca accesible, estandarizada y útil para la comunidad científica, que sirva de base para futuras investigaciones y aplicaciones clínicas", explica Marcelo Terán, que está haciendo el cuarto año de doctorado en el grupo AIWELL.
En el proyecto, los investigadores han implementado dos algoritmos de búsqueda que han mostrado una precisión del 100 % tanto en el top 10 de la identificación de moléculas —por ejemplo, el colágeno— como en la identificación del tipo de molécula —por ejemplo, proteína—, en cuanto a las mediciones de biomoléculas puras y a la hora de replicar los resultados de estudios anteriores.
Datos biomédicos en abierto para hacer avanzar la medicina
"La espectroscopia Raman permite analizar la composición química de muestras de forma no invasiva, lo que es muy valioso en el ámbito médico. Esta base de datos puede facilitar la identificación precisa de biomoléculas y, en el futuro, contribuir a estudiar cómo varía su presencia en procesos biológicos como el cáncer", asegura Terán. "La disponibilidad de datos biomédicos de calidad es esencial para avanzar en el desarrollo de soluciones basadas en inteligencia artificial. Esta necesidad fue el punto de partida de la investigación", explica el investigador de la UOC.
Los investigadores recopilaron datos de espectros Raman de biomoléculas a partir de los artículos más relevantes publicados en este ámbito y desarrollaron un algoritmo con técnicas clásicas de visión por computador para extraer automáticamente los datos. Uno de los retos de este trabajo fue el escaso número de datos espectrales publicados en abierto, que superaron utilizando validaciones experimentales. "Nuestro trabajo ofrece una herramienta que puede ayudar a identificar de forma objetiva, rápida y estandarizada la composición molecular a partir de su espectro Raman. Actualmente, esta identificación se realiza mediante el análisis visual de los principales picos de los espectros y se compara con las referencias de la literatura. Nuestra herramienta puede agilizar este proceso al mismo tiempo que proporciona una solución estándar que reduce el sesgo humano durante el análisis", afirma el doctorando, adscrito al eHealth Centre de la UOC.
Una base de datos destinada a crecer con la aportación de la comunidad
De cara al futuro, los investigadores esperan que la comunidad científica contribuya a ampliar la base de datos, de modo que se convierta en una biblioteca colaborativa y de referencia para espectros Raman de biomoléculas.
"Todavía es poco común que en los artículos científicos se compartan los datos abiertamente, en especial en el ámbito de la espectroscopia Raman. Esta falta de acceso a datos limita considerablemente la investigación biomédica. Para que la IA pueda aplicarse con éxito, requiere grandes volúmenes de datos fiables y accesibles, y es aquí donde los proyectos de ciencia abierta tienen un papel clave", explica Marcelo Terán.
El objetivo es que, a medida que vaya ampliándose la base de datos, pueda impulsarse el entrenamiento de modelos de inteligencia artificial en el ámbito del análisis molecular de muestras biológicas. Esto abrirá la puerta a nuevas aplicaciones en diagnóstico y monitorización de enfermedades.
La UOC es, desde hace años, un referente en el campo de la ciencia abierta y promueve esta modalidad de trabajo entre su comunidad de investigadores con iniciativas como la Oficina de Ciencia Abierta y el Repositorio Institucional O2, que comparte en abierto todo el conocimiento originado por nuestra universidad.
Esta investigación de la UOC se enmarca en las misiones Tecnología ética y humana y Salud y bienestar planetario, y favorece el objetivo de desarrollo sostenible (ODS) de la ONU 3, Salud y bienestar.
Artículo relacionado
Terán, M., Ruiz, J. J., Loza-Alvarez, P., Masip, D. y Merino, D. Open Raman spectral library for biomolecule identification. En: Chemometrics and Intelligent Laboratory Systems. 2025. Vol. 264, 105476. Disponible en: https://doi.org/10.1016/j.chemolab.2025.105476
Investigación con impacto y vocación transformadora
En la UOC entendemos la investigación como una herramienta estratégica para avanzar hacia una sociedad de futuro más crítica, responsable e inconformista. Desde esta visión, desarrollamos una investigación aplicada, interdisciplinaria y conectada con los grandes retos sociales, tecnológicos y educativos.
Los más de 500 investigadores e investigadoras y los más de 50 grupos de investigación de la UOC trabajan alrededor de cinco unidades de investigación centradas en cinco misiones: educación a lo largo de la vida, tecnología ética y humana, transición digital y sostenibilidad, cultura para una sociedad crítica, y salud digital y bienestar planetario.
Además, la universidad impulsa la transferencia de conocimiento y el emprendimiento de la comunidad UOC con la plataforma Hubbik.
Más información: https://www.uoc.edu/es/investigacion
Journal
Chemometrics and Intelligent Laboratory Systems
Method of Research
Content analysis
Subject of Research
Not applicable
Article Title
Open Raman spectral library for biomolecule identification
Article Publication Date
15-Sep-2025
COI Statement
The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.