banner
Hogar / Noticias / ViralCC recupera virus y genomas virales completos
Noticias

ViralCC recupera virus y genomas virales completos

Jun 04, 2024Jun 04, 2024

Nature Communications volumen 14, número de artículo: 502 (2023) Citar este artículo

3725 Accesos

20 altmétrico

Detalles de métricas

La introducción de la captura de conformación cromosómica de alto rendimiento (Hi-C) en la metagenómica permite reconstruir genomas ensamblados en metagenomas (MAG) de alta calidad a partir de comunidades microbianas. A pesar de los avances recientes en la recuperación de genomas de eucariotas, bacterias y arqueas utilizando mapas de contacto Hi-C, pocos de los métodos basados ​​en Hi-C están diseñados para recuperar genomas virales. Aquí presentamos ViralCC, una herramienta disponible públicamente para recuperar genomas virales completos y detectar pares de virus-huésped utilizando datos de Hi-C. En comparación con otros métodos basados ​​en Hi-C, ViralCC aprovecha la estructura de proximidad virus-huésped como fuente de información complementaria para las interacciones Hi-C. Utilizando conjuntos de datos metagenómicos de Hi-C simulados y reales de varios ecosistemas microbianos diferentes, incluidos el intestino humano, las heces de vaca y las aguas residuales, demostramos que ViralCC supera los métodos de agrupamiento basados ​​en Hi-C existentes, así como las herramientas de última generación. dedicado específicamente al binning viral metagenómico. ViralCC también puede revelar la estructura taxonómica de virus y pares de virus-huésped en comunidades microbianas. Cuando se aplica a un conjunto de datos metagenómicos Hi-C de aguas residuales reales, ViralCC construye una red fago-huésped, que se valida aún más mediante análisis de espaciadores CRISPR. ViralCC es un canal de código abierto disponible en https://github.com/dyxstat/ViralCC.

Los virus constituyen el organismo biológico más divergente y ubicuo de la Tierra con una abundancia global estimada de 1031 1. Los virus tienen enormes impactos en los ecosistemas como depredadores y/o parásitos dentro de las comunidades microbianas a través del ciclo lisogénico o lítico que infectan bacterias y arqueas2,3. Por ejemplo, los virus contribuyen significativamente al ciclo biogeoquímico del carbono y el nitrógeno en los hábitats acuáticos4,5 y están implicados en ciertas enfermedades como la enfermedad inflamatoria intestinal y la desnutrición aguda grave en los sistemas humanos6,7. Por lo tanto, el interés por la virómica ha aumentado espectacularmente en las últimas dos décadas.

Dado que el número de virus que se pueden cultivar tradicionalmente en el laboratorio es demasiado limitado para evaluar la diversidad viral8, la metagenómica, como estrategia de muestreo independiente del cultivo, se ha utilizado ampliamente para recuperar genomas virales e identificar los huéspedes de estos virus recién descubiertos. uno de los aspectos más difíciles del estudio de virus en comunidades microbianas9,10,11. La secuenciación metagenómica de escopeta del genoma completo (WGS) extrae directamente fragmentos genómicos de varias muestras ambientales, generando una gran cantidad de lecturas cortas que posteriormente se ensamblan en contigs12,13,14. Luego, los cóntigos virales metagenómicos se identifican a partir de conjuntos grandes en función de la composición de la secuencia, la similitud de la secuencia y/o la detección de proteínas virales15,16,17. Sin embargo, el ensamblaje del genoma viral a partir de lecturas de escopeta es un desafío18 y los cóntigos virales cortos pueden representar solo segmentos de genomas virales completos19. Los fragmentos virales incompletos tienen un impacto adverso significativo en los análisis posteriores, incluida la caracterización de la diversidad y abundancia viral subyacente, la predicción del huésped y la capacidad funcional20,21. Por lo tanto, la combinación viral metagenómica, definida como un proceso para agrupar contigs virales de la misma especie en genomas ensamblados en metagenoma viral (vMAG), es valiosa, especialmente para virus gigantes22.

La mayoría de las herramientas tradicionales de agrupamiento basadas en escopetas se desarrollan para recuperar genomas eucarióticos, bacterianos y arqueales23,24,25,26 e ignoran los desafíos asociados con los virus, como la falta de genes universales de copia única y el tamaño relativamente pequeño de los genomas virales. . Además, esas herramientas de agrupamiento que explotan el análisis de genes marcadores microbianos no son aplicables a los virus24,27,28. CoCoNet29 y vRhyme30 son dos métodos existentes dedicados específicamente a la combinación viral metagenómica. CoCoNet entrena una red neuronal utilizando características de composición y coocurrencia de contigs virales en muestras para predecir la probabilidad de que dos contigs virales se originen en el mismo genoma. vRhyme utiliza comparaciones del tamaño del efecto de cobertura de una o varias muestras para calcular las diferencias de cobertura entre contigs virales. Para procesar la información de composición de la secuencia, vRhyme primero entrena previamente modelos de clasificación supervisados ​​basados ​​en aprendizaje automático utilizando fragmentos del genoma. Luego, el vector de similitud de características de nucleótidos entre dos contigs virales se ingresa en los modelos de clasificación para predecir el valor de probabilidad de que los contigs virales se originen en el mismo genoma. Finalmente, vRhyme construye una red ponderada, donde cada nodo es un contig viral y se calcula un peso de borde dividiendo la diferencia de cobertura por el valor de probabilidad. Las redes se refinan aún más hasta convertirse en vMAG. Sin embargo, tanto CoCoNet como vRhyme pueden verse gravemente afectados cuando no hay suficientes muestras para construir perfiles de coabundancia confiables de contigs virales, es decir, perfiles que muestren qué contigs comparten valores de abundancia consistentes en múltiples muestras y, por lo tanto, es probable que provengan del mismo genoma. .

La captura metagenómica de conformación cromosómica de alto rendimiento (metagenómica Hi-C) se ha desarrollado en los últimos años para recuperar simultáneamente genomas ensamblados en metagenoma (MAG) y determinar pares virus-huésped a partir de una única muestra de comunidad microbiana31,32,33,34,35. 36,37. Combinado con la secuenciación de escopeta convencional, el Hi-C metagenómico aplica una técnica de ligadura de proximidad genómica para construir uniones quiméricas entre secuencias metagenómicas muy próximas dentro de la misma célula. Después de la secuenciación, se generan millones de pares de lecturas Hi-C y posteriormente se alinean con contigs ensamblados a partir de las lecturas de escopeta. Los contigs que pertenecen al mismo genoma muestran frecuencias de contacto Hi-C enriquecidas en comparación con aquellos de diferentes genomas31, lo que da como resultado docenas de genomas bacterianos casi completos recuperados mediante herramientas de agrupamiento basadas en Hi-C disponibles públicamente, como MetaTOR, bin3C y HiCBin38,39. ,40. Aunque la recuperación de genomas virales de alta calidad es vital y un requisito previo para los análisis posteriores, aparte de un servicio de reconstrucción de genoma patentado y comercial llamado ProxiPhage41, los métodos de agrupación basados ​​en Hi-C con canales de código abierto no están desarrollados para recuperar genomas virales. Por ejemplo, HiCBin requiere la anotación taxonómica de algunos contigs mediante TAXAassign (https://github.com/umerijaz/TAXAassign) para generar los contactos intraespecies en el paso de normalización42, mientras que TAXAassign difícilmente puede anotar contigs virales, lo que resulta en la incapacidad de HiCBin para agrupar contigs virales.

Además de las dificultades para recuperar vMAG, las herramientas para evaluar el rendimiento de la recuperación del genoma viral siguen siendo escasas en los experimentos metagenómicos de Hi-C. CheckV se ha utilizado ampliamente para estimar la integridad de los vMAG comparándolos con una gran base de datos seleccionada del NCBI GenBank y muestras ambientales43. Sin embargo, a diferencia del CheckM, que aprovecha los genes marcadores universales de copia única para evaluar tanto la integridad como la contaminación de los MAG procarióticos44, CheckV no puede estimar la contaminación de los vMAG ya que no existe un conjunto de genes marcadores disponibles para los virus21. CheckV también tiene una capacidad limitada para evaluar la finalización de vMAG, ya que agrupar aleatoriamente dos contigs virales generalmente aumenta la finalización. Además, aunque ya se han empleado métodos basados ​​en la simulación de contigs virales conocidos de genomas virales NCBI RefSeq45 para estimar los resultados de agrupamiento de los métodos basados ​​en escopeta29,30, no se pueden generalizar para evaluar los enfoques de agrupamiento basados ​​en Hi-C ya que se han realizado pocos estudios. realizado sobre el modelado de interacciones Hi-C para contigs virales. Por lo tanto, es imperativo diseñar una estrategia de evaluación comparativa sistemática e integral para la combinación viral metagenómica basada en Hi-C.

Para abordar el problema de la escasez de métodos de agrupación viral en experimentos metagenómicos de Hi-C, desarrollamos ViralCC, un método de agrupación basado en Hi-C dedicado a recuperar genomas virales completos y determinar pares virus-huésped. El proceso general de ViralCC se muestra en la Fig. 1. ViralCC no solo considera el gráfico de interacción Hi-C, sino que también presenta un gráfico de proximidad del host de contigs virales como fuente complementaria de información al mapa de interacción Hi-C. Luego se integran dos gráficos, seguidos de la agrupación de gráficos de Leiden46, para generar borradores de genomas virales. Comparamos ViralCC con VAMB26, CoCoNet29, vRhyme30, MetaTOR38 y bin3C39. Nuestros experimentos indicaron que ViralCC mejoró sustancialmente la integridad de CheckV de los contenedores genómicos virales en conjuntos de datos metagenómicos reales de Hi-C. Además, presentamos una estrategia sistemática para comparar el rendimiento de la recuperación del genoma viral en experimentos metagenómicos de Hi-C mediante la generación de conjuntos de datos metagenómicos simulados de Hi-C a partir de muestras reales. La verdad fundamental de todos los contigs virales simulados se conoce en conjuntos de datos simulados, mientras que las interacciones Hi-C entre contigs virales simulados se pueden obtener directamente de muestras reales sin simulación. Aprovechando conjuntos de datos metagenómicos simulados de Hi-C derivados de tres muestras reales, demostramos además que ViralCC superó a otros métodos de agrupación y recuperó genomas virales con mayor integridad y menor contaminación. Finalmente, demostramos que los pares virus-huésped se pueden determinar en función de los genomas virales recuperados.

El flujo de trabajo general de ViralCC para recuperar genomas virales de alta calidad y determinar pares de virus-huésped. Las lecturas de escopeta se ensamblan primero en contigs, a los que se alinean las lecturas de pares Hi-C. Posteriormente se identifican los contigs virales. Aprovechando los enlaces Hi-C y la estructura de proximidad virus-huésped para vincular contigs virales, ViralCC construye el gráfico de interacción Hi-C y el gráfico de proximidad del huésped. Después de integrar dos gráficos, ViralCC emplea la agrupación de Leiden para reconstruir borradores de genomas virales y, además, detecta los pares virus-huésped basándose en genomas virales recuperados y enlaces Hi-C.

CheckV evaluó todos los contigs virales detectados por VirSorter para seleccionar contigs individuales con alta integridad como supuestos genomas de referencia. Como resultado, se generaron 51 genomas de referencia putativos, con una longitud que oscilaba entre 11.410 pb y 194.784 pb a partir del conjunto de datos humanos; Se obtuvieron 11 genomas de referencia putativos de 11.452 pb a 42.000 pb del conjunto de datos fecales de vaca; y 17 supuestos genomas de referencia, que van desde 11,455 pb a 127,910 pb, se derivaron del conjunto de datos de aguas residuales (Tabla complementaria 1).

Luego construimos contigs virales simulados dividiendo los genomas virales putativos y obtuvimos 1010, 94 y 279 contigs virales simulados fragmentados de los tres conjuntos de datos, respectivamente (Tabla complementaria 1). Para cada conjunto de datos metagenómicos reales de Hi-C, se mezclaron contigs virales simulados con todos los contigs no virales (es decir, contigs que VirSorter no identifica como contigs virales), seguido de la alineación de las lecturas de extremos emparejados de Hi-C para construir el conjunto de datos metagenómicos simulados de Hi-C. En el texto principal se presentaron los análisis de la agrupación de contigs virales simulados en el conjunto de datos simulados del intestino humano. También proporcionamos resultados de evaluación comparativa sobre los conjuntos de datos simulados de aguas residuales y fecales de vaca simulados en la Nota complementaria 1.

Primero construimos el gráfico de interacción Hi-C \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}}}}} }}}}\) y el gráfico de proximidad del host \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}}} }}}}}}\) para 1010 contigs virales simulados del conjunto de datos simulados del intestino humano. Hay 2699 aristas en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}}}}}}}}} \). El parámetro k para \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}}\ ) se ajustó a 30, lo que significa que dos nodos contig virales cualesquiera con una ventaja en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{ {\rm{host}}}}}}}}}\) estaban vinculados a al menos los mismos 30 contigs de host mediante la interacción Hi-C. Esto resultó en 2698 aristas en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}}}}}}}} }\). Entre estos 2698 bordes en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}}}}}}}}} \), el 14,5% de los bordes eran bordes espurios, que se definieron como los bordes que unían dos contigs de diferentes genomas de referencia putativos en \({{{{{{{{\mathcal{G}}}}}}}} }_{{{{{{{{\rm{host}}}}}}}}}\). Luego integramos \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\) y \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{hic}}}}}}}}}\) en \ ({{{{{{{{\mathcal{G}}}}}}}}_{{{{{{{{\rm{int}}}}}}}}}\), que contenía 4397 bordes. Podríamos observar 1000 aristas comunes entre \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}} }}\) y \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}}}}}}}}} \), que representa alrededor del 37% del número total de aristas en cualquiera de los gráficos.

Aplicamos la agrupación de Leiden en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}}}}}}}}} }\), \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\ ), y \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{int}}}}}}}}}\) , respectivamente, y evaluaron los resultados de agrupación utilizando cuatro métricas de agrupación: puntuación F, ARI, NMI y homogeneidad (Tabla complementaria 2). \({{{{{{{{\mathcal{G}}}}}}}}_{{{{{{{{\rm{int}}}}}}}}}}\) superó a ambos \ ({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{\rm{hic}}}}}}}}}\) y \({ {{{{{{{\mathcal{G}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}}\) en términos de los cuatro agrupamientos métrica. También evaluamos la integridad y contaminación de cada vMAG (Tabla complementaria 3). Específicamente, se recuperaron 8 vMAG casi completos, 3 sustancialmente completos y 5 moderadamente completos basándose únicamente en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{ {{{\rm{hic}}}}}}}}}\), mientras que 12 vMAG casi completos y 2 vMAG sustancialmente completos se recuperaron basándose únicamente en \({{{{{{{{\mathcal{G}} }}}}}}}_{{{{{{{{\rm{host}}}}}}}}}\). Por el contrario, empleando el gráfico integrativo \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{int}}}}}}} }}\) para la agrupación podría reconstruir 26 vMAG casi completos, 2 sustancialmente completos y 4 moderadamente completos. La mejora del rendimiento de la agrupación mediante la integración de dos gráficos indicó que el gráfico de interacción Hi-C y el gráfico de proximidad del host eran complementarios entre sí al agrupar contigs virales.

ViralCC se comparó con VAMB, CoCoNet, vRhyme, bin3C y MetaTOR en el conjunto de datos simulados del intestino humano (ver Métodos). VAMB es una herramienta de agrupación general basada en escopeta, mientras que bin3C y MetaTOR son canalizaciones de agrupación generales basadas en Hi-C. CoCoNet y vRhyme son dos métodos de agrupación basados ​​en escopetas diseñados específicamente para agrupar partículas virales secuenciadas.

Como se muestra en la Fig. 2a, VAMB, CoCoNet, vRhyme, bin3C y MetaTOR lograron 0,198, 0,485, 0,366, 0,404 y 0,750 en términos de puntuación F, respectivamente, que ViralCC mejoró a 0,795. Las puntuaciones de ARI para contenedores virales producidos por VAMB, CoCoNet, vRhyme, bin3C y MetaTOR fueron 0,111, 0,471, 0,302, 0,274 y 0,744. Por el contrario, ViralCC aumentó la puntuación de IRA a 0,787. En cuanto al NMI, VAMB, CoCoNet, vRhyme, bin3C y MetaTOR obtuvieron 0,724, 0,742, 0,782, 0,817 y 0,928, mientras que ViralCC logró una puntuación de 0,929. ViralCC también mejoró la puntuación de homogeneidad a 0,921 desde 0,570, 0,723, 0,687, 0,691 y 0,911, lograda por VAMB, CoCoNet, vRhyme, bin3C y MetaTOR, respectivamente.

Comparación del rendimiento de la recuperación del genoma viral según (a) métricas de agrupamiento y (b) criterios de integridad y contaminación (Moderadamente completo: 50% ≤ integridad <70%, contaminación ≤ 10%; Sustancialmente completo: 70% ≤ integridad <90%, contaminación ≤ 10%; Casi completo: integridad ≥ 90%, contaminación ≤ 10%). ViralCC supera a otros métodos de agrupación en el conjunto de datos simulados del intestino humano. Los datos de origen se proporcionan como un archivo de datos de origen.

VAMB, CoCoNet, vRhyme, bin3C y MetaTOR pudieron recuperar 1, 5, 0, 5 y 22 vMAG casi completos, respectivamente, mientras que ViralCC aumentó este número a 26 (Fig. 2b). En total, ViralCC pudo recuperar 32 vMAG de alta calidad de 51 genomas de referencia, mientras que VAMB, CoCoNet, vRhyme, bin3C y MetaTOR pudieron reconstruir 7, 11, 7, 6 y 30 vMAG de alta calidad, respectivamente. Además, también descubrimos que ViralCC tuvo un mejor desempeño que otros contenedores en la recuperación de vMAG casi completos de grandes genomas virales putativos (Nota complementaria 2). En total, ViralCC superó a otros métodos de agrupación, ya que recuperó genomas virales con mayor integridad y menor contaminación según el conjunto de datos metagenómicos simulados de Hi-C. En particular, MetaTOR y ViralCC fueron comparables según el NMI y las puntuaciones de homogeneidad, lo que indica que ambos enfoques podrían recuperar contenedores de contig virales de alta pureza. Por otro lado, ViralCC logró un mejor rendimiento que MetaTOR en términos de puntuación F y ARI (Fig. 2a) al tiempo que recuperó contenedores más completos (Fig. 2b) del conjunto de datos metagenómicos simulados de Hi-C. Esto muestra la eficacia de combinar información de proximidad del host con información de interacción Hi-C.

VirSorter detectó 791, 1338 y 2757 contigs virales de muestras de intestino humano, heces de vaca y aguas residuales, respectivamente. Los contigs virales se agruparon utilizando diferentes métodos para los tres conjuntos de datos. Se estimó la integridad de CheckV de los contenedores virales para evaluar la calidad del agrupamiento. Nos referimos a los contenedores virales con una integridad de CheckV superior al 90% como borradores de genomas virales con finalización alta y denotamos contenedores con una integridad de CheckV superior al 50% como borradores de genomas virales con finalización media.

Para el conjunto de datos del intestino humano, ViralCC identificó 465 contenedores virales con tamaños que oscilaban entre 3001 pb y 307 395 pb, y produjo más borradores de genomas virales de finalización alta y media que cualquier otro método probado (Fig. 3a). Para el conjunto de datos fecales de vaca, ViralCC construyó 574 contenedores virales con tamaños que oscilaban entre 3002 pb y 157 462 pb. Generó sustancialmente más borradores de genomas virales de finalización media y alta que otros métodos, superando específicamente el número de borradores de genomas virales de alta finalización de VAMB, CoCoNet, vRhyme, bin3C y MetaTOR en 161%, 140%, 66,7%, 93,5%. y 62,1%, respectivamente (Fig. 3b). A partir del conjunto de datos de aguas residuales, ViralCC estableció 1240 contenedores virales con tamaños que van desde 3006 pb a 461 626 pb, y pudo reconstruir 32,8%, 103%, 141%, 175% y 75% más borradores de genomas de alta terminación en comparación con VAMB, CoCoNet, vRhyme. , bin3C y MetaTOR, respectivamente (Fig. 3c). ViralCC también recuperó notablemente más genomas virales en borrador con una finalización media.

Comparación de borradores de contenedores virales recuperados mediante diferentes herramientas de agrupamiento de acuerdo con el estándar de integridad CheckV en los conjuntos de datos de (a) intestino humano, (b) heces de vaca y (c) aguas residuales. ViralCC puede recuperar genomas virales más completos en comparación con VAMB, CoCoNet, vRhyme, bin3C y MetaTOR de las tres muestras metagenómicas reales de Hi-C. Los datos de origen se proporcionan como un archivo de datos de origen.

En total, los análisis de tres conjuntos de datos metagenómicos reales de Hi-C demostraron que ViralCC recuperó genomas virales más completos en comparación con VAMB, CoCoNet, vRhyme, bin3C y MetaTOR, lo que fue consistente con nuestras observaciones de los conjuntos de datos metagenómicos simulados de Hi-C. También construimos un modelo de agrupación aleatoria basado en el gráfico aleatorio de configuración47 como experimentos de control (Nota complementaria 3). El modelo asignó bordes aleatoriamente para que coincidieran con la secuencia de grados de los contigs virales en el gráfico integrativo. ViralCC superó al control aleatorio según los criterios de integridad de CheckV. Además, clasificamos los vMAG por el número de contigs virales en orden descendente. Si varios vMAG contenían la misma cantidad de contigs virales, se ordenaban por tamaño de contenedor en orden descendente. Los contigs en cada vMAG también se ordenaron según la longitud del contig en orden descendente. Luego trazamos los mapas de contacto Hi-C sin procesar (ver Métodos) de los diez vMAG principales para los tres conjuntos de datos con el índice de contig (Fig. 4) o el tamaño de contig (Fig. 1 complementaria) como unidad de eje, respectivamente. lo que confirmó la reconstrucción válida de los genomas virales. El número específico de contigs virales y el tamaño del contenedor de estos vMAG se muestran en las Tablas complementarias 4 a 6.

Mapas de calor de matrices de contacto Hi-C sin procesar de los diez principales vMAG de (a) intestino humano, (b) heces de vaca y (c) conjuntos de datos de aguas residuales con el índice contig como unidad de eje. Los vMAG se clasificaron primero según su número de contigs y luego los contigs dentro de cada vMAG se clasificaron según su tamaño. La barra de escala muestra el número de contactos Hi-C sin procesar entre contigs virales.

Finalmente, exploramos las relaciones entre la calidad de los conjuntos de datos Hi-C y el rendimiento de recuperación de vMAG. Se emplearon la relación 3D y el CI qc3C para medir la calidad de los conjuntos de datos Hi-C (ver Métodos). Específicamente, las proporciones 3D fueron 23,3 %, 38,3 % y 54,9 % para los conjuntos de datos de intestino humano, heces de vaca y aguas residuales, respectivamente (Tabla complementaria 7). Los puntos medios del IC qc3C para los tres conjuntos de datos fueron 5,938 %, 52,07 % y 30,66 %, respectivamente (Tabla complementaria 7). Aunque la mayor proporción 3D no significa necesariamente vínculos más informativos entre contigs36, aun así observamos que, en comparación con los métodos tradicionales de agrupación basados ​​en escopeta, la mejora del rendimiento de la agrupación por parte de ViralCC fue notable en conjuntos de datos metagenómicos con bibliotecas Hi-C de alta calidad.

Anotamos 191, 320 y 693 vMAG en total a nivel familiar para los conjuntos de datos de intestino humano, heces de vaca y aguas residuales, respectivamente. Descubrimos que 173 (90,6%) de 191 vMAG en la muestra de intestino humano, 265 (82,8%) de 320 vMAG en la muestra de heces de vaca y 592 (85,4%) de 693 vMAG en la muestra de aguas residuales contenían solo virus. contigs de la misma familia, lo que demuestra la alta pureza de los vMAG a nivel familiar.

Como se muestra en la Fig. 5, los vMAG estaban dominados por bacteriófagos con cola del orden Caudovirales y se encontraron vMAG pertenecientes a las familias Myoviridae, Siphoviridae y Podoviridae en las tres muestras48. Los bacteriófagos, principalmente Siphoviridae, dominaron las dos muestras intestinales49. En comparación con las otras muestras que estaban más dominadas por Siphoviridae, los vMAG Myoviridae y Siphoviridae tuvieron una abundancia similar en la muestra de aguas residuales, como se informó para ambientes acuáticos50,51,52,53.

Estadísticas de taxonomía de vMAG anotados en (a) intestino humano, (b) heces de vaca y (c) conjuntos de datos de aguas residuales. Los números en el gráfico indican la cantidad de vMAG que pertenecen a diferentes familias. Los datos de origen se proporcionan como un archivo de datos de origen.

Descubrimos pares de virus-huésped basados ​​en los vMAG recuperados por ViralCC y mostramos los resultados del conjunto de datos de aguas residuales en el texto principal a continuación. Los resultados de la detección de virus-huésped a partir de conjuntos de datos de intestino humano y heces de vaca se muestran en las Notas complementarias 4 y 5.

Para los contigs no virales, que se espera que sean en gran parte bacterianos, HiCBin generó 1253 MAG, que fueron evaluados por CheckM (v1.1.3, parámetro: linaje wf)44. Los resultados de la evaluación de calidad se muestran en la Tabla complementaria 8. Entre 1253 MAG, GTDB-TK54 pudo anotar sin ambigüedades 600 MAG y los resultados de la clasificación de taxonomía se visualizaron utilizando ITOL55 (Fig. 6a). Burkholderiales, Pseudomonadales, Lachnospirales, Bacteroidales y Oscillospirales fueron los órdenes predominantes en la muestra de aguas residuales. Burkholderiales y Pseudomonadales fueron órdenes comunes reportados en ambientes acuáticos56,57. Se informaron lacnospirales, bacteroidales y oscillospirales en los microbiomas intestinales58; es probable que se detecten en esta muestra de aguas residuales domésticas de unas 25.000 personas57.

( a ) Anotaciones taxonómicas de MAG recuperadas por HiCBin de la muestra de aguas residuales domésticas. Burkholderiales, Pseudomonadales, Lachnospirales, Bacteroidales y Oscillospirales fueron los órdenes predominantes. (b) El espectro de infección aparente de vMAG de la muestra de aguas residuales. Los vMAG pertenecientes a la familia Myoviridae se dirigieron principalmente a huéspedes del orden Burkholderiales y un gran número de vMAG de la familia Siphoviridae podrían infectar a las bacterias Bacteroidales. Los datos de origen se proporcionan como un archivo de datos de origen.

Un total de 1065 (85%) de 1253 MAG se asociaron con al menos un MAG viral. Luego exploramos el espectro de infección de vMAG anotados en hosts de diferentes órdenes (Fig. 6b). Observamos que los vMAG de la familia Myoviridae se dirigieron principalmente a huéspedes del orden Burkholderiales, lo que concuerda con hallazgos previos de que algunos fagos pertenecientes a la familia Myoviridae podrían lisar bacterias de Burkholderia59. Una gran cantidad de vMAG pertenecientes a la familia Siphoviridae podrían infectar a las bacterias Bacteroidales60. Además, observamos inesperadamente que 4 vMAG que aparentemente infectaban a miembros del orden Burkholderiales provenían de la familia Herpesviridae, de la que anteriormente se había informado que solo infectaba a animales, incluidos los seres humanos61. Se necesita más investigación para determinar si estos revelan una infección verdadera o si la ligadura de proximidad ocurrió en una situación sin infección (por ejemplo, extracelularmente).

Predijimos los espaciadores CRISPR en los MAG host utilizando PILER-CR (v1.06) 62 y se detectaron 925 espaciadores CRISPR. Luego, alineamos estos espaciadores con vMAG usando BLAST63 con los parámetros '-task blastn-short -evalue 1e-5'. Las alineaciones con puntuaciones de bits inferiores a 45 se filtraron aún más36. De esta manera, se encontraron 16 aciertos sólidos entre los MAG del huésped y los MAG del virus mediante el análisis de espaciadores CRISPR.

Entre esos 16 aciertos, 13 pares MAG virus-huésped (81,3%) también estaban asociados por los enlaces Hi-C. Notablemente, de acuerdo con el análisis del espaciador CRISPR, observamos que vMAG 1198 (familia: Siphoviridae) estaba asociado con dos MAG del huésped del orden Fusobacteriales, mientras que estos dos MAG del huésped fueron los únicos dos huéspedes asociados de vMAG 1198 predichos por las interacciones Hi-C.

ViralCC se ejecutó en un nodo informático de un procesador Intel Xeon E5-2665 de 2,40 GHz con 50.000 MB de RAM proporcionado por la plataforma Advanced Research Computing de la Universidad del Sur de California. ViralCC consumió 22,5 min, 76,6 min y 21,7 min de tiempo de funcionamiento en muestras de intestino humano, heces de vaca y aguas residuales, respectivamente.

ViralCC es un método de agrupación de código abierto basado en Hi-C para la recuperación del genoma viral. A diferencia de otras herramientas de agrupación basadas en Hi-C que utilizan únicamente mapas de contactos Hi-C. ViralCC explota un gráfico de proximidad del huésped basado en la estructura de proximidad del virus-hospedador como fuente complementaria de conexiones entre contigs virales. Demostramos que ViralCC superó a otras herramientas en conjuntos de datos metagenómicos reales de Hi-C según los criterios de integridad de CheckV. En particular, considerando que agrupar aleatoriamente contigs virales en vMAG no reduce la integridad de CheckV en comparación con la integridad de cada uno de los contigs individuales, es necesario construir un modelo de agrupación aleatoria como experimentos de control cuando la integridad de CheckV se utiliza como métrica de evaluación. Además, observamos que la mejora del rendimiento de la agrupación por parte de ViralCC fue significativa a partir de conjuntos de datos metagenómicos con bibliotecas Hi-C de alta calidad en comparación con los métodos de agrupación basados ​​en escopeta, lo que indica la importancia potencial de las bibliotecas Hi-C de buena calidad en la recuperación del genoma viral. .

Dado que la evaluación realizada por el software CheckV no es exhaustiva, presentamos una estrategia de evaluación comparativa sistemática para evaluar el rendimiento de agrupar contigs virales utilizando conjuntos de datos metagenómicos Hi-C simulados. Esperamos que esta estrategia de evaluación comparativa pueda facilitar la evaluación de cualquier herramienta de agrupación basada en Hi-C en estudios de recuperación del genoma viral. Sin embargo, también existen limitaciones y sesgos en la estrategia de evaluación comparativa. Dado que solo elegimos genomas virales que pueden ser recuperados por un único contig de toda la comunidad, nuestro método de evaluación comparativa inevitablemente subestima la verdadera diversidad de la comunidad de virus. La eficacia de la evaluación comparativa también es menos convincente si hay pocos genomas virales putativos. Además, aunque hemos mostrado la baja fracción de contactos espurios en el gráfico de proximidad del huésped utilizando los conjuntos de datos metagenómicos Hi-C simulados, no podemos obtener los resultados de los conjuntos de datos reales porque es un desafío conocer las verdaderas etiquetas de los contigs virales de los reales. conjuntos de datos. Finalmente, observamos que los tamaños de los supuestos genomas virales tienden a ser pequeños en el método de evaluación comparativa (Nota complementaria 6). Aunque todos los canales se tratan por igual en el mismo conjunto de contigs virales simulados derivados de los genomas virales putativos seleccionados, los tamaños de los genomas virales putativos deben tenerse en cuenta en la evaluación comparativa considerando que la recuperación completa de un genoma viral putativo más grande requiere un contenedor para agrupe correctamente más contigs virales en un solo contenedor de los conjuntos de datos simulados.

Además de la agrupación directa de contigs virales como analizamos aquí, entrenar un modelo de clasificación para distinguir los contenedores virales y los contenedores bacterianos etiquetados con seguridad también puede contribuir a proporcionar un conjunto candidato altamente enriquecido de contenedores virales a partir de datos masivos del metagenoma64. La recuperación del genoma viral, combinada con la ligadura de proximidad Hi-C, también arroja luz sobre los mecanismos de infección y revela interacciones virus-huésped completamente activas.

En comparación con un enfoque popular, el análisis de espaciadores CRISPR, que puede reflejar vínculos históricos entre virus y huéspedes65,66, los experimentos metagenómicos Hi-C pueden detectar pares activos de virus y huéspedes en un solo momento. Chen et al.67 utilizaron experimentos metagenómicos de Hi-C para validar los pares asociados virus-huésped predichos por CRISPR en muestras de lodo activado (AS) utilizando secuenciación Illumina y secuenciación Nanopore por separado. Validaron 11 de 21 y 16 de 28 pares asociados virus-huésped predichos por CRISPR basándose en muestras secuenciadas de Illumina y combinadas de Illumina/Nanopore, respectivamente, aprovechando los enlaces Hi-C. En nuestro estudio, validamos 13 de 16, 3 de 4 y 2 de 2 pares virus-huésped predichos por CRISPR en base a los conjuntos de datos de aguas residuales, intestino humano y heces de vaca, respectivamente (ver Resultados, Notas complementarias 4 y 5). Ambos estudios muestran claramente cómo los análisis de datos metagenómicos de Hi-C pueden ser una herramienta poderosa para recuperar pares de virus-huésped que de otro modo serían difíciles de determinar (por ejemplo, de organismos no cultivados). Cabe señalar que algunas asociaciones virus-huésped predichas por CRISPR indican asociaciones históricas que pueden no estar presentes en una muestra determinada, y Hi-C67 no puede detectar dichos pares. Y también hay que tener en cuenta que algunas asociaciones entre virus y bacterias que se desprenden de la ligadura por proximidad podrían ser el resultado de la proximidad del ADN bacteriano y viral por un mecanismo distinto de la infección; por lo tanto, resultados inesperados como nuestra aparente infección por herpesvirus de Burkholderiales deben validarse antes de sacar conclusiones extraordinarias.

En el futuro, será interesante explorar si los métodos de agrupamiento existentes pueden resolver virus estrechamente relacionados que residen en el mismo huésped bacteriano en función de las proximidades entre el virus y el huésped. Además, estudios recientes han descubierto que virus específicos tienen mecanismos que permiten que múltiples genomas virales infecten la misma célula huésped, lo que se denomina coinfección68. Aprovechar la ligadura de proximidad Hi-C para descubrir la existencia de coinfección de múltiples fagos dentro de la misma célula es otro tema potencial para futuras investigaciones.

Se emplearon tres conjuntos de datos metagenómicos reales de Hi-C, todos publicados previamente, para validar el rendimiento de la recuperación del genoma viral y descubrir pares virus-huésped. Aquí se repiten brevemente los experimentos de los artículos publicados anteriormente.

Este conjunto de datos se derivó del microbioma de un intestino humano y estaba compuesto por una biblioteca WGS (acceso NCBI: SRR6131123) y dos bibliotecas Hi-C separadas construidas por dos enzimas de restricción de cuatro cortadores, MluCI y Sau3AI (acceso NCBI: SRR6131122 y SRR6131124). )34. Se utilizó Illumina HiSeqX Ten para secuenciar las bibliotecas shotgun y Hi-C, creando lecturas de extremos emparejados de 151 pb. Las dos bibliotecas Hi-C constaban de 48,8 millones (biblioteca MluCI) y 41,7 millones (biblioteca Sau3AI) de pares de lectura, respectivamente. La secuenciación de la biblioteca WGS sin procesar produjo 250,9 millones de pares de lectura (relación Hi-C:shotgun = 0,36).

La muestra fecal de vaca se recolectó y procesó en el Centro de Investigación de Carne de Vacuno y Oveja del Rural College de Escocia69, generando una biblioteca de escopeta (acceso NCBI: ERX2333418) y dos bibliotecas Hi-C fragmentadas utilizando las enzimas de restricción Sau3AI o MluCI (acceso NCBI: ERX2548555 y ERX2548556). Después de secuenciar todas las bibliotecas mediante la plataforma Illumina HiSeqX a 150 pb, se obtuvieron 159,5 millones de lecturas de extremos emparejados en la biblioteca shotgun, mientras que las dos bibliotecas Hi-C contenían 86,2 millones (biblioteca Sau3AI) y 59,3 millones (biblioteca MluCI) de lecturas de extremos emparejados. , respectivamente (relación Hi-C:escopeta = 0,91).

En la muestra de aguas residuales (WW)57, la biblioteca shotgun (acceso NCBI: SRR8239393) se preparó utilizando el kit DNeasy PowerWater, mientras que la biblioteca Hi-C (acceso NCBI: SRR8239392) se produjo mediante un kit de preparación Hi-C patentado (Phase Genomics, Cª). Las enzimas de corte utilizadas en el experimento fueron Sau3AI y MluCI. Todos los conjuntos de lectura fueron secuenciados por HiSeq 4000 con una longitud de 150 pb. Hubo 269,3 millones y 95,3 millones de lecturas de extremos emparejados para los conjuntos de lecturas metagenómicas de escopeta WW y Hi-C, respectivamente (relación Hi-C:escopeta = 0,35).

Aplicamos bbduk de la suite BBTools (v37.25)70 para limpiar a fondo las bibliotecas de lectura WGS y Hi-C sin procesar (Nota complementaria 7). Las lecturas de escopeta procesadas se ensamblaron en contigs usando MEGAHIT (v1.2.9)13 con opciones '-min-contig-len 1000 -k-min 21 -k-max 141 -k-step 12 -merge-level 20, 0.95' (Suplementario Tabla 9). Luego, BWA MEM (v0.7.17)71 asignó las lecturas de extremo emparejado Hi-C procesadas a contigs ensamblados con el parámetro '-5SP'. Después de la alineación, eliminamos lecturas no asignadas, alineaciones secundarias, alineaciones suplementarias y alineaciones de baja calidad (puntuación de mapeo o longitud de coincidencia de nucleótidos <30). Se construyeron mapas de contacto Hi-C sin procesar entre dos contigs contando el número de pares de lecturas Hi-C alineados por separado con estos dos contigs.

VirSorter (v1.0.6)15 examinó contigs largos (≥ 3 kbp) ensamblados a partir de lecturas de escopeta con un parámetro predeterminado para identificar contigs virales. VirSorter logró la mejor puntuación de F1 en un estudio comparativo reciente72. Los cóntigs anotados como profagos se eliminaron de las secuencias virales (Tabla complementaria 10). Nos referimos a los contigs que VirSorter no identifica como posibles contigs de host.

Definimos el gráfico de interacción Hi-C para contigs virales como \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{hic}} }}}}}}}(V,{E}_{{{{{{{{\rm{hic}}}}}}}}})\), donde el vértice \({v}_{i }\in {{{{{{\mathcal{V}}}}}}}}\) representa el i-ésimo contig viral identificado y una arista \({e}_{ij}\in {{{ {{{{{\mathcal{E}}}}}}}}_{{{{{{{{\rm{hic}}}}}}}}}\) existe si vi y vj están vinculados por al menos un enlace Hi-C.

Además del gráfico de interacción Hi-C, también aprovechamos la estructura de proximidad virus-huésped para vincular contigs virales. Específicamente, definimos dos contigs virales como asociados por k contigs de host compartido si estos dos contigs virales están vinculados al menos a los mismos k contigs de host mediante la interacción Hi-C. Con base en esta métrica para medir el vínculo entre contigs virales, construimos el gráfico de proximidad del host para contigs virales, denotado por \({{{{{{{{\mathcal{G}}}}}}}}}_{{ {{{{{{\rm{host}}}}}}}}}(V,{E}_{{{{{{{\rm{host}}}}}}}}})\) , donde el vértice \({v}_{i}\in {{{{{{\mathcal{V}}}}}}}}\) todavía representa el i-ésimo contig viral identificado mientras existe un borde eij en \({{{{{{{{\mathcal{E}}}}}}}}_{{{{{{{\rm{host}}}}}}}}}\) si vi y vj están asociados mediante k contigs de host compartido. Formalmente, sea Hi el conjunto de contigs de host para el contig viral vi. Entonces, vi y vj están conectados en el gráfico de proximidad del host \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}} }}}}}}}\) si

donde \(\left|\cdot \right|\) denota la cardinalidad de un conjunto y el parámetro k aquí se determina automáticamente de modo que

donde \({k}_{\min }\) (predeterminado 4) es el límite inferior del parámetro k. Tenga en cuenta que la disminución de k relaja el requisito de existencia de una asociación por parte de contigs de host compartidos, lo que genera más aristas en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{ {{{{{\rm{host}}}}}}}}}\). Por lo tanto, en la fórmula (2), maximizar el número de aristas en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host} }}}}}}}}\) es equivalente a minimizar el valor de k. Aunque k más pequeño proporciona una mayor cantidad de conexiones para contigs virales en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host} }}}}}}}}\), el valor de k no puede ser demasiado pequeño, lo que puede introducir asociaciones falsas positivas debido al ruido experimental. Por lo tanto, dos restricciones que el número de aristas en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{host}}}} }}}}}\) es menor o igual que en \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{ hic}}}}}}}}}\) y k no es menor que \({k}_{\min }\) se utilizan para controlar el valor de k. Descubrimos que la gran mayoría de los bordes dentro del gráfico de proximidad del huésped vinculaban los contigs virales del mismo genoma en los tres conjuntos de datos metagenómicos simulados de Hi-C, lo que demuestra la confiabilidad del gráfico de proximidad del huésped (ver Resultados).

Hemos construido el gráfico de interacción Hi-C y el gráfico de proximidad del host para vincular contigs virales. Luego, nos gustaría integrar estos dos gráficos. Sea \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{int}}}}}}}}}(V,\ ,{E}_{{{{{{{\rm{int}}}}}}}})\) denota el gráfico integrativo final, donde el conjunto de vértices todavía representa todos los contigs virales y pertenece un borde eij el conjunto de bordes \({{{{{{{\mathcal{E}}}}}}}}}_{{{{{{{\rm{int}}}}}}}}}}\) si vi y vj están vinculados a través de cualquiera de los gráficos de interacción Hi-C \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm {hic}}}}}}}}}\) o el gráfico de proximidad del host \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{ \rm{host}}}}}}}}}\).

Agrupamos los contigs virales utilizando el algoritmo de agrupamiento de gráficos de Leiden46 basado en el gráfico integrativo \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm {En t}}}}}}}}}\). El algoritmo de Leiden es un algoritmo de detección de comunidades basado en modularidad. Se necesita un enfoque codicioso de tres etapas para optimizar la función de modularidad. Específicamente, en cada iteración, el algoritmo asigna cada nodo a una comunidad de modo que la función de modularidad aumentará después del movimiento local, seguido de refinar la partición en subcomunidades y agregar la red. Además, se selecciona una función de modularidad general basada en el modelo Potts de Reichardt y Bornholdt73 para que el algoritmo de Leiden supere el límite de resolución74 y se define como:

donde M es la matriz de adyacencia del gráfico \({{{{{{{{\mathcal{G}}}}}}}}}_{{{{{{{{\rm{int}}}}}} }}}\), c denota la comunidad de vértices virales, r es un parámetro de resolución, d representa el grado de vértices virales y n es el número total de aristas en el gráfico. El parámetro de resolución r se ajusta utilizando el coeficiente de silueta75 de los resultados de agrupación, que es una métrica de evaluación de agrupación popular sin etiquetas verdaderas que mide la cohesión y la separación de las agrupaciones. La resolución candidata que produce el coeficiente de silueta más alto se selecciona como el valor óptimo para la agrupación de Leiden.

Utilizamos una herramienta popular CheckV (v0.7.0)43 para estimar la calidad de integridad de los MAG virales recuperados de tres conjuntos de datos metagenómicos reales de Hi-C. Dado que CheckV se diseñó originalmente para evaluar la calidad de genomas virales de un solo contig, los contigs virales de cada vMAG se concatenaron en una secuencia única según lo requerido por CheckV. CheckV aplica dos algoritmos para calcular la integridad de vMAG según la identidad de aminoácidos (AAI) o el modelo oculto de Markov (HMM) (Nota complementaria 8). El enfoque basado en AAI informa un nivel de confianza de estimación basado en la calidad de la alineación con la base de datos del genoma CheckV y la longitud del contig, y se demuestra que las estimaciones de confianza alta y media son precisas y confiables43. Por lo tanto, combinamos los resultados estimados por dos enfoques para determinar la integridad de los vMAG. Específicamente, para cada vMAG, se utilizó una estimación de integridad basada en CheckV AAI si esta estimación se calificaba como de confianza media o alta. De lo contrario, se utilizó la estimación basada en HMM, si estaba disponible.

Aunque CheckV se ha utilizado ampliamente para evaluar el rendimiento de la agrupación de contigs virales, la incapacidad de evaluar la contaminación hace que la evaluación de CheckV sea menos completa en vMAG. Además, comparar la recuperación del genoma viral mediante simulación es un desafío, ya que se han realizado pocos estudios sobre el modelado de interacciones Hi-C para contigs virales. Para resolver estos problemas, presentamos una estrategia de evaluación comparativa para evaluar de manera integral el rendimiento de agrupación de herramientas basadas en Hi-C en contigs virales sin la necesidad de simular interacciones Hi-C para contigs virales.

En lugar de simular contigs virales utilizando genomas de referencia virales conocidos, diseñamos una estrategia para generar directamente contigs virales simulados con datos reales a partir de la muestra metagenómica real de Hi-C. Aunque los ensamblajes del genoma viral a partir de lecturas de escopeta suelen estar plagados de contigs insuficientemente largos, todavía hay algunos contigs únicos que pueden representar individualmente el genoma viral con una integridad relativamente alta. Por lo tanto, primero aplicamos CheckV a todos los contigs virales identificados. Los contigs por encima de 10.000 pb y marcados como de "alta calidad" o "completos" por CheckV se consideraron genomas virales relativamente completos y sirvieron como genomas de referencia putativos. Luego, simulamos directamente contigs virales simulados a partir de conjuntos de datos metagenómicos reales de Hi-C utilizando estos supuestos genomas de referencia. Específicamente, extrajimos subsecuencias de supuestos genomas de referencia en ventanas deslizantes de una longitud de 3 kpb que se mueven de izquierda a derecha sin superposiciones. Como resultado, los supuestos genomas de referencia se dividieron en fragmentos no superpuestos de 3 kpb. Los fragmentos en los bordes de supuestos genomas de referencia se retuvieron si tenían más de 1 kpb. Todos los contigs fragmentados se consideraron contigs virales simulados y se etiquetaron según los supuestos genomas de referencia de los que se originaron. Luego mezclamos los contigs virales simulados obtenidos con todos los contigs potenciales del huésped y alineamos los pares de lectura Hi-C con el conjunto de contigs mixto usando BWA MEM con el parámetro '-5SP' para crear un conjunto de datos Hi-C metagenómico simulado. De esta manera, generamos contigs virales simulados con datos reales y construimos interacciones Hi-C válidas sin simular los experimentos de Hi-C para contigs virales en un conjunto de datos metagenómicos Hi-C simulados. Posteriormente, pudimos validar el rendimiento de la agrupación basándose en conjuntos de datos metagenómicos simulados de Hi-C para enfoques de agrupación basados ​​en Hi-C, así como herramientas de agrupación basadas en escopetas.

Dado que se conocían las etiquetas verdaderas de todos los contigs virales simulados en el conjunto de datos metagenómicos simulados de Hi-C, empleamos cuatro métricas de evaluación integrales del rendimiento de la agrupación (Nota complementaria 9): puntuaciones de Fowlkes-Mallows (puntuaciones F), índice de Rand ajustado ( ARI), información mutua normalizada (NMI) y homogeneidad. Estas cuatro métricas se utilizaron para evaluar el rendimiento de la agrupación.

Además, definimos la integridad y contaminación de cada vMAG. Específicamente, para cada vMAG, sumamos las longitudes de los contigs de diferentes genomas de referencia por separado y asignamos el vMAG al genoma de referencia con la longitud de consulta más grande, indicada por L (q). También denotamos la longitud del genoma de referencia correspondiente como L (r) y nos referimos a la longitud total del vMAG como L (v). La integridad de un vMAG se define como \(\frac{L(q)}{L(r)}\) y la contaminación de un vMAG se define como \(\frac{L(v)-L(q)} {L(v)}\). Luego, asignamos los vMAG de alta calidad en tres rangos, es decir, casi completos (integridad ≥ 90 %, contaminación ≤ 10 %), sustancialmente completos (70 % ≤ integridad <90 %, contaminación ≤ 10 %) y moderadamente completos. (50% ≤ integridad <70%, contaminación ≤ 10%), que es similar a los criterios de evaluación CheckM44.

Como en 36, definimos los contactos Hi-C entre contigs como las lecturas Hi-C de extremos emparejados asignadas a diferentes contigs virales. Luego, la proporción 3D se calculó dividiendo el número de contactos Hi-C entre contiges por el número total de lecturas Hi-C de extremos emparejados alineadas con contigs virales. También realizamos un paso de control de calidad adicional en lecturas Hi-C de extremos emparejados procesadas usando qc3C (v0.5)76 en modo k-mer con parámetros predeterminados. Definimos el IC de qc3C como el intervalo de confianza del 95% de la proporción de secuencias de unión observadas consideradas como producto de la ligadura de proximidad estimada por el software qc3C. Los resultados detallados de qc3C para cada conjunto de datos se enumeran en Datos complementarios 1.

Primero empleamos DemoVir (https://github.com/feargalr/Demovir) para clasificar los contigs virales en el orden y los niveles taxonómicos familiares comparando genes en los contigs con la base de datos de proteínas virales seleccionada (https://figshare.com/articles/ NR_Viral_TrEMBL/5822166). Finalmente se anotaron los contigs cuyos genes se clasificaron consistentemente en la misma familia. Luego, definimos la familia vMAG como la familia a la que pertenecían la mayoría de los contigs en vMAG.

Todos los contigs no virales para cada muestra se agruparon usando HiCBin (v1.1.0)40 con parámetros predeterminados para generar MAG de host potenciales, que posteriormente fueron anotados por GTDB-TK (v2.1.0, versión: R207_v2)54 con parámetros predeterminados y el Los resultados de la clasificación taxonómica se visualizaron utilizando ITOL (v5)55. Los vMAG se asociaron con potenciales MAG de host si estaban vinculados por al menos dos pares de lectura Hi-C como en 77.

A diferencia de la técnica metagenómica Hi-C ampliamente utilizada que combina la secuenciación shotgun con la secuenciación Hi-C34,57,67,69,77, Marbouty et al.35 demostraron que meta3C, otro enfoque basado en ligadura de proximidad, permitía el ensamblaje y el andamiaje y, por lo tanto, utilizaba meta3C. lecturas en lugar de lecturas de escopeta para ensamblar contigs, que posteriormente se vincularon mediante lecturas de extremos emparejados Hi-C en sus experimentos recientes con muestras de intestino humano36. Nos referimos a estos conjuntos de datos como conjuntos de datos meta 3C/Hi-C. Además, validamos ViralCC en una muestra meta 3C/Hi-C del microbioma intestinal humano, que consistía en una biblioteca meta3C (acceso NCBI: SRR11853875) y dos bibliotecas Hi-C separadas (acceso NCBI: SRR13435230 y SRR13435231). Teniendo en cuenta la corta duración de las lecturas de Hi-C (35 pb), no descartamos ninguna lectura de Hi-C utilizando la opción de longitud mínima de bbduk70 ni recortamos las lecturas de Hi-C durante el paso de limpieza de lectura. En la Nota complementaria 10 se muestran más detalles sobre el procesamiento de datos y los resultados de la validación.

VAMB (v3.0.3)26 se ejecutó con la opción '-t 40'. vRhyme (v1.0.0)30, MetaTOR (v1.1.4)38 y bin3C (v0.1.1)39 se ejecutaron con parámetros predeterminados. Los archivos de cobertura de entrada de contigs virales para VAMB y vRhyme se generaron utilizando el script 'jgi_summarize_bam_contig_ Depths' proporcionado por MetaBAT2 (v2.12.1)25. Dado que CoCoNet29 eliminó los contigs que aparecen en una sola muestra, utilizamos el modo "composición" para recuperar los genomas virales. Los demás parámetros se establecieron en valores predeterminados.

No se utilizó ningún método estadístico para predeterminar el tamaño de la muestra. No se excluyeron datos de los análisis. Los experimentos no fueron aleatorios, excepto por el modelo de agrupamiento aleatorio donde los gráficos de configuración se construyeron asignando aleatoriamente bordes para que coincidan con la secuencia de grados de los contigs virales en gráficos integrativos. Los investigadores no estaban cegados a la asignación durante los experimentos y la evaluación de resultados.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Todos los conjuntos de datos utilizados en este estudio están disponibles públicamente en la base de datos NCBI Sequence Read Archive (http://www.ncbi.nlm.nih.gov/sra). El conjunto de datos del intestino humano está disponible con los códigos de acceso: biblioteca de escopeta SRR6131123, bibliotecas Hi-C SRR6131122 y SRR6131124. El conjunto de datos fecales de vaca utilizado en este estudio tiene códigos de acceso: biblioteca de escopeta ERX2333418, bibliotecas Hi-C ERX2548555 y ERX2548556. El conjunto de datos de aguas residuales está disponible con los códigos de acceso: biblioteca shotgun SRR8239393 y biblioteca Hi-C SRR8239392. El conjunto de datos meta 3C/Hi-C utilizado en este estudio está disponible con los códigos de acceso: biblioteca meta3C SRR11853875, bibliotecas Hi-C SRR13435230 y SRR13435231. Las bases de datos requeridas por VirSorter se pueden descargar en https://zenodo.org/record/1168727/files/virsorter-data-v2.tar.gz. La base de datos de referencia CheckV está disponible en https://portal.nersc.gov/CheckV/checkv-db-v1.0.tar.gz. La base de datos de referencia GTDB-TK se puede descargar en https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz. La base de datos de proteínas virales seleccionada para DemoVir está disponible en https://figshare.com/articles/NRViralTrEMBL/5822166. Los datos restantes están disponibles en el artículo, información complementaria o datos fuente. Los datos originales se proporcionan con este documento.

El software ViralCC está disponible gratuitamente en https://github.com/dyxstat/ViralCC bajo la licencia pública general GNU versión v3. El código ViralCC utilizado en este trabajo78 también está archivado en Zenodo en https://doi.org/10.5281/zenodo.7449911. Los scripts para procesar los datos intermedios y trazar figuras de nuestro artículo ViralCC están disponibles en https://github.com/dyxstat/Reproduce_ViralCC/tree/main/Scripts.

Breitbart, M. & Rohwer, F. ¿Aquí un virus, allí un virus, en todas partes el mismo virus? Tendencias Microbiol. 13, 278–284 (2005).

Artículo CAS Google Scholar

Gobler, CJ, Hutchins, DA, Fisher, NS, Cosper, EM y Saňudo-Wilhelmy, SA Liberación y biodisponibilidad de C, N, P Se y Fe después de la lisis viral de un crisófito marino. Limnol. Oceanogr. 42, 1492-1504 (1997).

Artículo ADS CAS Google Scholar

Suttle, CA Virus marinos: actores importantes en el ecosistema global. Nat. Rev. Microbiol. 5, 801–812 (2007).

Artículo CAS Google Scholar

Fuhrman, JA Virus marinos y sus efectos biogeoquímicos y ecológicos. Naturaleza 399, 541–548 (1999).

Artículo ADS CAS Google Scholar

Jiao, N. y col. Producción microbiana de materia orgánica disuelta recalcitrante: almacenamiento de carbono a largo plazo en el océano global. Nat. Rev. Microbiol. 8, 593–599 (2010).

Artículo CAS Google Scholar

Norman, JM y cols. Alteraciones específicas de la enfermedad en el viroma entérico en la enfermedad inflamatoria intestinal. Celda 160, 447–460 (2015).

Artículo CAS Google Scholar

Reyes, A. et al. Viromas del ADN intestinal de gemelos de Malawi discordantes para la desnutrición aguda grave. Proc. Nacional. Acad. Ciencia. Estados Unidos 112, 11941–11946 (2015).

Artículo ADS CAS Google Scholar

Páez-Espino, D. et al. Descubriendo el viroma de la Tierra. Naturaleza 536, 425–430.

Artículo ADS CAS Google Scholar

Emerson, JB y cols. Ecología viral del suelo ligada al huésped a lo largo de un gradiente de deshielo del permafrost. Nat. Microbiol. 3, 870–880 (2018).

Artículo CAS Google Scholar

Gregory, AC y cols. Macrodiversidad y microdiversidad viral del ADN marino de polo a polo. Celda 177, 1109-1123 (2019).

Artículo CAS Google Scholar

Gregory, AC y cols. La base de datos de viromas intestinales revela patrones de diversidad de viromas dependientes de la edad en el intestino humano. Microbio huésped celular. 28, 724–740 (2020).

Artículo CAS Google Scholar

Albertsen, M. y col. Secuencias del genoma de bacterias raras no cultivadas obtenidas mediante agrupación de cobertura diferencial de múltiples metagenomas. Nat. Biotecnología. 31, 533–538 (2013).

Artículo CAS Google Scholar

Li, D., Liu, C.-M., Luo, R., Sadakane, K. y Lam, T.-W. MEGAHIT: una solución ultrarrápida de un solo nodo para el ensamblaje metagenómico grande y complejo mediante un gráfico sucinto de Bruijn. Bioinformática 31, 1674-1676 (2015).

Artículo CAS Google Scholar

Nurk, S., Meleshko, D., Korobeynikov, A. y Pevzner, PA metaSPAdes: un nuevo ensamblador metagenómico versátil. Genoma Res. 27, 824–834 (2017).

Artículo CAS Google Scholar

Roux, S., Enault, F., Hurwitz, BL & Sullivan, MB VirSorter: extracción de señales virales a partir de datos genómicos microbianos. PeerJ 3, e985 (2015).

Artículo de Google Scholar

Ren, J., Ahlgren, NA, Lu, YY, Fuhrman, JA y Sun, F. VirFinder: una nueva herramienta basada en k-mer para identificar secuencias virales a partir de datos metagenómicos ensamblados. Microbioma 5, 69 (2017).

Artículo de Google Scholar

Kieft, K., Zhou, Z. y Anantharaman, K. VIBRANT: recuperación automatizada, anotación y curación de virus microbianos y evaluación de la función de la comunidad viral a partir de secuencias genómicas. Microbioma 8, 90 (2020).

Artículo CAS Google Scholar

Smits, SL et al. Ensamblaje de genomas virales a partir de metagenomas. Frente. Microbiol. 5, 714 (2014).

Artículo de Google Scholar

García-López, R., Vázquez-Castellanos, JF & Moya, A. Fragmentación y variación de cobertura en ensamblajes de metagenomas virales y su efecto en los cálculos de diversidad. Frente. Bioeng. Biotecnología. 3, 141 (2015).

Artículo de Google Scholar

Vázquez-Castellanos, JF, García-López, R., Pérez-Brocal, V., Pignatelli, M. & Moya, A. Comparación de diferentes herramientas de ensamblaje y anotación en el análisis de comunidades metagenómicas virales simuladas en el intestino. BMC Genomics 15, 37 (2014).

Artículo de Google Scholar

Roux, S. y col. Información mínima sobre el genoma de un virus no cultivado (MIUViG). Nat. Biotecnología. 37, 29–37 (2019).

Artículo CAS Google Scholar

Schulz, F. y col. Ventajas y límites del ensamblaje metagenómico y binning de un virus gigante. mSystems 5, e00048–20 (2020).

Artículo CAS Google Scholar

Alneberg, J. y col. Agrupación de contigs metagenómicos por cobertura y composición. Nat. Métodos 11, 1144-1146 (2014).

Artículo CAS Google Scholar

Wu, Y.-W., Tang, Y.-H., Tringe, SG, Simmons, BA & Singer, SW MaxBin: un método de agrupación automatizado para recuperar genomas individuales a partir de metagenomas utilizando un algoritmo de maximización de expectativas. Microbioma 2, 26 (2014).

Artículo CAS Google Scholar

Kang, DD y cols. MetaBAT2: un algoritmo de agrupamiento adaptativo para una reconstrucción genómica sólida y eficiente a partir de ensamblajes de metagenomas. PeerJ 7, e7359 (2019).

Artículo de Google Scholar

Nissen, JN y cols. Combinación y ensamblaje de metagenomas mejorados mediante codificadores automáticos variacionales profundos. Nat. Biotecnología. 39, 555–560 (2021).

Artículo CAS Google Scholar

Lin, H.-H. y Liao, Y.-C. Agrupación precisa de contigs metagenómicos mediante secuencias de agrupamiento automatizadas utilizando información de firmas genómicas y genes marcadores. Ciencia. Rep. 6, 24175 (2016).

Artículo ADS CAS Google Scholar

Sieber, CM y cols. Recuperación de genomas a partir de metagenomas mediante una estrategia de desreplicación, agregación y puntuación. Nat. Microbiol. 3, 836–843 (2018).

Artículo CAS Google Scholar

Arisdakessian, CG, Nigro, OD, Steward, GF, Poisson, G. & Belcaid, M. CoCoNet: una herramienta eficaz de aprendizaje profundo para la combinación de metagenomas virales. Bioinformática 37, 2803–2810 (2021).

Artículo CAS Google Scholar

Kieft, K., Adams, A., Salamzade, R., Kalan, L. y Anantharaman, K. vRhyme permite la combinación de genomas virales a partir de metagenomas. Ácidos nucleicos res. 50, e83 (2022).

Artículo CAS Google Scholar

Burton, JN, Liachko, I., Dunham, MJ y Shendure, J. Deconvolución a nivel de especie de conjuntos de metagenomas con mapas de probabilidad de contacto basados ​​en Hi-C. G3 (Bethesda) 4, 1339–1346 (2014).

Artículo de Google Scholar

Beitel, CW y cols. Deconvolución a nivel de cepa y plásmido de un metagenoma sintético mediante la secuenciación de productos de ligadura de proximidad. PeerJ 2, e415 (2014).

Artículo de Google Scholar

Marbouty, M. y col. La captura de conformación cromosómica metagenómica (meta3C) revela la diversidad de la organización cromosómica en los microorganismos. eLife 3, e03318 (2014).

Artículo de Google Scholar

Press, MO et al. La deconvolución Hi-C de un microbioma intestinal humano produce borradores de genomas de alta calidad y revela interacciones plásmido-genoma. bioRxiv (2017). https://doi.org/10.1101/198713.

Marbouty, M., Baudry, L., Cournac, A. y Koszul, R. Andamiaje de genomas bacterianos y sondeo de interacciones huésped-virus en el microbioma intestinal mediante ensayo de ligadura de proximidad (captura de cromosomas). Ciencia. Adv. 3, e1602105 (2017).

ADS del artículo Google Scholar

Marbouty, M., Thierry, A., Millot, GA y Koszul, R. La red de infección por fagos-bacterias MetaHiC revela fagos cíclicos activos del intestino humano sano. eLife 10, e60608 (2021).

Artículo CAS Google Scholar

Du, Y. & Sun, F. HiFine: integración de métodos basados ​​en Hi-C y basados ​​en escopeta para refinar la combinación de contigs metagenómicos. Bioinformática 38, 2973–2979 (2022).

Artículo CAS Google Scholar

Baudry, L., Foutel-Rodier, T., Thierry, A., Koszul, R. y Marbouty, M. MetaTOR: un proceso computacional para recuperar contenedores metagenómicos de alta calidad de bibliotecas de ligadura de proximidad (yo) intestinal de mamíferos. Frente. Gineta. 10, 753 (2019).

Artículo CAS Google Scholar

DeMaere, MZ & Darling, AE bin3C: explotación de datos de secuenciación Hi-C para resolver con precisión genomas ensamblados en metagenomas. Genoma Biol 20, 46 (2019).

Artículo de Google Scholar

Du, Y. & Sun, F. HiCBin: agrupación de contigs metagenómicos y recuperación de genomas ensamblados en metagenomas utilizando mapas de contacto Hi-C. Genoma Biol 23, 63 (2022).

Artículo CAS Google Scholar

Uritskiy, G. et al. Reconstrucción precisa del genoma viral y asignación de huésped con secuenciación de ligadura de proximidad. bioRxiv (2021). https://doi.org/10.1101/2021.06.14.448389.

Du, Y., Laperriere, SM, Fuhrman, J. & Sun, F. Normalización de datos metagenómicos Hi-C y detección de contactos espurios mediante regresión binomial negativa inflada a cero. J. Computación. Biol. 29, 106-120 (2022).

Artículo CAS Google Scholar

Nayfach, S. et al. CheckV evalúa la calidad y la integridad de los genomas virales ensamblados en metagenomas. Nat. Biotecnología. 39, 578–585 (2021).

Artículo CAS Google Scholar

Parks, DH, Imelfort, M., Sknnerton, CT, Hugenholtz, P. & Tyson, GW CheckM: evaluación de la calidad de los genomas microbianos recuperados de aislados, células individuales y metagenomas. Genoma Res. 25, 1043-1055 (2015).

Artículo CAS Google Scholar

O'Leary, NA et al. Base de datos de secuencias de referencia (RefSeq) en NCBI: estado actual, expansión taxonómica y anotación funcional. Ácidos nucleicos res. 44, D733–D745 (2016).

Artículo de Google Scholar

Traag, VA, Waltman, L. & Van Eck, Nueva Jersey De Lovaina a Leiden: garantizar comunidades bien conectadas. Ciencia. Rep. 9, 5233 (2019).

Artículo ADS CAS Google Scholar

Newman, ME La estructura y función de redes complejas. SIAM Rev. 45, 167–256 (2003).

Artículo ADS MATEMÁTICAS Google Scholar

Ackermann, H.-W. 5500 fagos examinados en el microscopio electrónico. Arco. Virol. 152, 227–243 (2007).

Artículo CAS Google Scholar

Beller, L. & Matthijnssens, J. Lo que (no) se sabe sobre la dinámica del viroma intestinal humano en la salud y la enfermedad. actual. Opinión. Virol. 37, 52–57 (2019).

Artículo de Google Scholar

Williamson, SJ y cols. La expedición global de muestreo oceánico Sorcerer II: caracterización metagenómica de virus dentro de muestras microbianas acuáticas. Más uno 3, e1456 (2008).

ADS del artículo Google Scholar

Thurber, RV Conocimientos actuales sobre la biodiversidad y la biogeografía de los fagos. actual. Opinión. Microbiol. 12, 582–587 (2009).

Artículo CAS Google Scholar

Hurwitz, BL & Sullivan, MB El Virome del Océano Pacífico (POV): un conjunto de datos metagenómicos virales marinos y grupos de proteínas asociados para la ecología viral cuantitativa. PLoS One 8, e57355 (2013).

Artículo ADS CAS Google Scholar

Jasna, V., Parvathi, A. & Dash, A. Diversidad genética y funcional de virus de ADN bicatenario en un estuario monzónico tropical, India. Ciencia. Rep. 8, 16036 (2018).

ADS del artículo Google Scholar

Chaumeil, P.-A., Mussig, AJ, Hugenholtz, P. & Parks, DH GTDB-Tk: un conjunto de herramientas para clasificar genomas con la base de datos de taxonomía del genoma. Bioinformática 36, ​​1925-1927 (2020).

CAS Google Académico

Letunic, I. & Bork, P. Interactive Tree Of Life (iTOL) v5: una herramienta en línea para la visualización y anotación de árboles filogenéticos. Ácidos nucleicos res. 49, W293–W296 (2021).

Artículo CAS Google Scholar

Feng, W.-W., Liu, J.-F., Gu, J.-D. y Mu, B.-Z. Comunidad reductora de nitrato en el agua de producción de tres yacimientos de petróleo y sus respuestas a diferentes fuentes de carbono reveladas por el gen codificante de la nitrato-reductasa (napA). En t. Biodegradación del biodeterioro 65, 1081–1086 (2011).

Artículo CAS Google Scholar

Stalder, T., Press, MO, Sullivan, S., Liachko, I. y Top, EM Vinculación del resistoma y el plasmidoma con el microbioma. ISME J. 13, 2437–2446 (2019).

Artículo de Google Scholar

Gubert, C. y col. Las interacciones gen-ambiente-intestino en ratones con enfermedad de Huntington están asociadas con la modulación ambiental del microbioma intestinal. iCiencia 25, 103687 (2022).

Artículo ADS CAS Google Scholar

Yordpratum, U., Tattawasart, U., Wongratanacheewin, S. y Sermswan, RW Nuevos bacteriófagos líticos del suelo que lisan Burkholderia pseudomallei. Microbiol FEMS. Letón. 314, 81–88 (2011).

Artículo CAS Google Scholar

Ogilvie, LA y cols. Disección genómica basada en firmas de metagenomas intestinales humanos para extraer secuencias virales subliminales. Nat. Comunitario. 4, 2420 (2013).

ADS del artículo Google Scholar

Mettenleiter, TC, Klupp, BG y Granzow, H. Conjunto de herpesvirus: una actualización. Resolución de virus. 143, 222–234 (2009).

Artículo CAS Google Scholar

Edgar, RC PILER-CR: identificación rápida y precisa de repeticiones CRISPR. BMC Bioinformática 8, 18 (2007).

Artículo de Google Scholar

Johnson, M. y col. NCBI BLAST: una mejor interfaz web. Ácidos nucleicos res. 36, W5-W9 (2008).

Artículo CAS Google Scholar

Johansen, J. y col. Combinación del genoma de entidades virales a partir de datos metagenómicos masivos. Nat. Comunitario. 13, 965 (2022).

Artículo ADS CAS Google Scholar

Puschnik, AS, Majzoub, K., Ooi, YS & Carette, JE Una caja de herramientas CRISPR para estudiar las interacciones virus-huésped. Nat. Rev. Microbiol. 15, 351–364 (2017).

Artículo CAS Google Scholar

Hille, F. y col. La biología de CRISPR-Cas: hacia atrás y hacia adelante. Celda 172, 1239-1259 (2018).

Artículo CAS Google Scholar

Chen, Y., Wang, Y., Paez-Espino, D., Polz, MF & Zhang, T. Los virus procarióticos impactan a los microorganismos funcionales en la eliminación de nutrientes y el ciclo del carbono en plantas de tratamiento de aguas residuales. Nat. Comunitario. 12, 5398 (2021).

Artículo ADS CAS Google Scholar

Sanjuán, R. & Thoulouze, M.-I. Por qué los virus a veces se dispersan en grupos. Evolución del virus. 5, vez014 (2019).

Artículo de Google Scholar

Stewart, RD y cols. Ensamblaje de 913 genomas microbianos a partir de secuenciación metagenómica del rumen de vaca. Nat. Comunitario. 9, 870 (2018).

ADS del artículo Google Scholar

Bushnell, B. BBMap: un alineador rápido, preciso y con reconocimiento de empalmes. Tecnología. Rep., Laboratorio Nacional Lawrence Berkeley (LBNL), Berkeley, CA (Estados Unidos) (2014).

Li, H. Alineación de lecturas de secuencias, secuencias de clones y contigs de ensamblaje con BWA-MEM. ArXiv (2013). https://doi.org/10.48550/arXiv.1303.3997.

Glickman, C., Hendrix, J. & Strong, M. Estudio de simulación y evaluación comparativa de herramientas de identificación de secuencias contiguas virales. Bioinformática BMC 22, 329 (2021).

Artículo CAS Google Scholar

Reichardt, J. & Bornholdt, S. Mecánica estadística de detección comunitaria. Física. Rev. E 74, 016110 (2006).

ADS del artículo Google Scholar

Fortunato, S. & Barthelemy, M. Límite de resolución en la detección comunitaria. Proc. Nacional. Acad. Ciencia. Estados Unidos 104, 36–41 (2007).

Artículo ADS CAS Google Scholar

Rousseeuw, PJ Silhouettes: una ayuda gráfica para la interpretación y validación del análisis de conglomerados. J. Computación. Aplica. Matemáticas. 20, 53–65 (1987).

Artículo MATEMÁTICAS Google Scholar

DeMaere, MZ & Darling, AE qc3C: control de calidad sin referencias para datos de secuenciación Hi-C. Computación PLoS. Biol. 17, e1008839 (2021).

Artículo ADS CAS Google Scholar

Kent, AG, Vill, AC, Shi, Q., Satlin, MJ y Brito, IL Transferencia generalizada de genes móviles de resistencia a antibióticos dentro de microbiomas intestinales individuales revelada a través de Hi-C bacteriano. Nat. Comunitario. 11, 4379 (2020).

Artículo ADS CAS Google Scholar

Du, Y., Fuhrman, JA & Sun, F. ViralCC recupera genomas virales completos y pares virus-huésped a partir de datos metagenómicos de Hi-C. Zenodo (2022). https://doi.org/10.5281/zenodo.7449911.

Descargar referencias

La investigación está parcialmente financiada por subvenciones de los NIH (R01GM120624 y R01GM131407), la subvención n.º 549943 de la Fundación Simons y NSF EF-2125142. YD cuenta con el apoyo de la beca Viterbi.

Departamento de Biología Cuantitativa y Computacional, Universidad del Sur de California, Los Ángeles, CA, EE. UU.

Yuxuan Du y Fengzhu Sun

Departamento de Ciencias Biológicas, Universidad del Sur de California, Los Ángeles, CA, EE. UU.

Jed A. Fuhrman

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

YD y FS concibieron las ideas y diseñaron el estudio. JF aportó ideas sobre el análisis de datos metagenómicos de Hi-C y pares de virus-huésped. YD implementó los métodos, llevó a cabo los análisis computacionales y redactó el manuscrito. FS, JF e YD modificaron y finalizaron el artículo.

Correspondencia a Fengzhu Sun.

Los autores declaran no tener conflictos de intereses.

Nature Communications agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Du, Y., Fuhrman, JA & Sun, F. ViralCC recupera genomas virales completos y pares virus-huésped a partir de datos metagenómicos de Hi-C. Nat Comuna 14, 502 (2023). https://doi.org/10.1038/s41467-023-35945-y

Descargar cita

Recibido: 22 de octubre de 2022

Aceptado: 09 de enero de 2023

Publicado: 31 de enero de 2023

DOI: https://doi.org/10.1038/s41467-023-35945-y

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.