El aprendizaje automático permite que los huéspedes y vectores de infecciones virales misteriosas utilicen sus secuencias genómicas, lo que ofrece un método rápido para reducir el retraso entre el descubrimiento del virus, la investigación y la respuesta durante los brotes. Se conocen más de 200 especies de virus de ARN capaces de infectar a los humanos y son responsables de una gran variedad de enfermedades, que abarcan desde el resfriado común hasta el ébola, descubriéndose cada año especies nuevas. Los brotes de enfermedades infecciosas causadas por virus desconocidos tienen el potencial de propagarse con rapidez y convertirse en graves crisis de salud pública. Comprender los vectores y huéspedes naturales del virus (los animales en los que se originaron, como los roedores) y la forma en que se transmiten a los humanos, como por ejemplo mediante la picadura de una pulga infectada, puede ayudar a identificar qué poblaciones presentan un mayor riesgo de infección, ofreciendo una respuesta eficaz por parte de los responsables de salud pública. Sin embargo, la identificación de los orígenes animales de algunos patógenos puede requerir muchos años de estudios de campo y de laboratorio, lo que limita en gran medida los esfuerzos hacia la rapidez de control y prevención, en especial bajo condiciones de emergencia. Si bien la comprensión de la biología de un virus desconocido puede permanecer oscura durante años, su genoma se puede obtener rápidamente. Simon Babayan y sus colegas reunieron un conjunto de datos que contenía las secuencias genómicas de más de 500 virus ARN de cadena simple y lo utilizaron para crear un modelo capaz de predecir huéspedes y vectores virales aprovechando algoritmos de aprendizaje automático. Según Babayan et al., los virus estrechamente relacionados a menudo presentan huéspedes estrechamente relacionados y los rasgos de la composición del genoma viral pueden informar sobre las relaciones entre virus y huésped. Su modelo utilizó el aprendizaje automático para extraer las señales coevolutivas entre genomas virales relacionados genéticamente con huéspedes conocidos, identificando los rasgos genómicos que discriminan el hospedador y el tipo de vector. Los autores demuestran su capacidad para predecir estos factores mediante la identificación de un potencial huésped de mamífero de pezuña hendida y un vector de mosca para el mal conocido virus de Bas-Congo. En un artículo de Perspective relacionado, Mark Woolhouse discute las limitaciones del modelo de Mimica et al., si bien señala que el estudio "es un paso valioso y, con suerte, presagia avances adicionales en nuestra capacidad para extraer información valiosa para la salud pública directamente de secuencias de genoma del virus".
###
Journal
Science