un modelo metabólico consensus S. cerevisiae Yeast8 y su ecosistema para sondear exhaustivamente el metabolismo celular

seguimiento de los cambios del modelo con control de versiones

Se utilizaron Git y GitHub para desarrollar levadura-gema de manera rastreable. Git se utiliza para rastrear cualquier cambio de yeast-GEM, que se almacena en línea en un repositorio de GitHub (Fig. 1)., La estructura del repositorio yeast-GEM en GitHub contiene los siguientes tres directorios principales:

(1) ComplementaryData, que contiene la anotación de la base de datos relacionada y los datos fisiológicos utilizados para las actualizaciones de yeast-GEM. Estos datos generalmente se almacenan como valores separados por tabulación (.tsv) para facilitar el seguimiento de los cambios; (2) Complementarycripts, que contiene todos los scripts utilizados para actualizar yeast-GEM; (3) ModelFiles, que contiene diferentes formatos de yeast-GEM para varias aplicaciones. El.txt y.,los formatos YML (YAML) hacen que sea conveniente visualizar cualquier cambio en los clientes locales de GitHub o Git. El.el formato xml (SBML) facilita la importación del modelo a través de diferentes cajas de herramientas y lenguajes de programación.

como paso estándar, se necesita un commit al actualizar yeast-GEM. Para facilitar la comprensión de las confirmaciones, se utilizan mensajes semánticos de confirmación (Fig. 1c). Para permitir el desarrollo de modelos paralelos, se utilizan diferentes ramas de yeast-GEM, incluyendo una rama ‘master’ y una rama ‘devel’ (desarrollo)., Los desarrolladores, e incluso otras personas de la comunidad, pueden crear nuevas ramas desde la rama de desarrollo para introducir sus cambios, y luego solicitar que se fusionen de nuevo a través de pull-requests. Estos cambios solo se fusionan con la rama de desarrollo, y a su vez los cambios en la rama de desarrollo se fusionan periódicamente con la rama maestra, que contiene las versiones estables del modelo.,

procedimientos generales utilizados para estandarizar la anotación de metabolitos y reacciones

para las reacciones recién añadidas, sus ID de MetaNetX se obtuvieron de acuerdo con una búsqueda directa en la base de datos de MetaNetX56 utilizando el nombre del metabolito relacionado o la información del número CE. Los ID de MetaNetX también se obtuvieron mediante mapeo de ID de reacción de las bases de datos Kegg35, Rhea57 y BioCyc33. La reversibilidad de la reacción se corrigió con base en las bases de datos BioCyc y Bigg58. También se utilizaron IDs de MetaNetX para obtener el número CE de las reacciones correspondientes., Como la base de datos de MetaNetX no tiene la información del nombre de la reacción, el nombre de cada nueva reacción se obtuvo basándose en el mapeo de ID de reacción en las bases de datos de KEGG, ModelSeed y BioCyc.

la anotación del compartimiento de nuevas reacciones se perfeccionó sobre la base de la información de las bases de datos UNIPROT36 y SGD32. La anotación del subsistema se obtuvo en primer lugar de KEGG35, y si no se encontraron subsistemas allí, se utilizó información de BioCyc o Reactome34 en su lugar. Si la reacción no tenía relaciones génicas, asumimos que ocurrió en el citoplasma.,

para todos los metabolitos contenidos en las reacciones añadidas recientemente, los IDs de MetaNetX relacionados se obtuvieron en base a la reacción Metanetx IDs. Si no están disponibles, se obtuvieron mediante asignación de ID basada en ID de KEGG o ID de ChEBI. Una vez obtenidos los ID del metabolito MetaNetX, se obtuvieron la carga, la fórmula, los ID de KEGG y los ID de ChEBI para el metabolito correspondiente basándose en la anotación de metabolitos en MetaNetX.,

actualización del modelo de Levada7 a Levada8

En primer lugar, todas las anotaciones relativas al metabolito ID de ChEBI y ID de KEGG (tabla suplementaria 8) Se corrigieron en la última versión de la gema de consenso de levadura (Versión 7.6) con base en la anotación del metabolito disponible en KEGG y ChEBI59. Además, se añadieron varios genes de iSce92631 que no estaban incluidos en la levadura 7.6, al igual que todos los genes relacionados con los procesos metabólicos y el transporte en SGD, BioCyc, Reactome, KEGG y UniProt. Las principales bases de datos utilizadas para la curación de modelos se pueden encontrar en el cuadro complementario 9.,

en los experimentos Biolog, la cepa S288c se cultivó en 190 fuentes de carbono, 95 fuentes de nitrógeno, 59 fuentes de fósforo y 35 fuentes de azufre. El resultado mostró que el S288c podía crecer con 28 fuentes de carbono, 44 fuentes de nitrógeno, 48 fuentes de fósforo y 19 fuentes de azufre. Sobre la base de estos resultados se añadieron nuevas reacciones esenciales para hacer que el modelo sea capaz de predecir el crecimiento en los sustratos relacionados., Mientras tanto, todos los datos metabolómicos contenidos en la base de datos ymdb (metabolitos medidos) y la última investigación metabolómica (tabla suplementaria 10) se recogieron y compararon con los de la gema de levadura. Se dio una anotación estándar para todos estos metabolitos y se diseñó una tubería para agregar los metabolitos a la GEM sin traer nuevos metabolitos sin salida. Los procedimientos detallados en la curación de modelos están disponibles en los métodos complementarios.

validación del modelo con diversas fuentes de datos experimentales

para comparar la cobertura de metabolitos, se analizó la base de datos YMDB60., Hay 2024 metabolitos para la levadura, de los cuales 871 se midieron en S. cerevisiae. Para cada metabolito, se asignó el ID de ChEBI y el ID de KEGG, y en base a ellos se comparó el ID de MetaNetX correspondiente. Para los metabolitos de Levada7 y Levada8, también se obtuvo el ID MetaNetX de cada metabolito basándose en el mapeo del ID.

la calidad del modelo se evalúa en función de la precisión (EC. 1) y el coeficiente de correlación de Matthews (MCC)61 (EC. 2). La precisión varía de 0 (peor precisión) a 1 (mejor precisión)., El MCC varía de -1 (desacuerdo total entre predicción y observación) a + 1 (predicción perfecta).

{{\mathrm {accuracy}} = \frac {{{\mathrm {TP}} + {\mathrm {TN}}}} {{{\mathrm {TP}} + {\mathrm {TN}} + {\mathrm {ft}} + {\mathrm {fn}}}} $ $
(1)

para el análisis, se utilizó la lista de genes esenciales del proyecto de deleción de levadura, disponible en http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, que se generó a partir de experimentos con un medio completo. La precisión y el CCM se calcularon como se describió anteriormente.,

el crecimiento aeróbico y anaeróbico simulado bajo condiciones limitadas de glucosa y nitrógeno fueron comparados con los datos de referencia62. El siguiente procedimiento fue empleado para simular el crecimiento de quimiostatos en condiciones de glucosa limitada. En primer lugar, establecer el límite inferior de las reacciones de absorción de glucosa y O2 utilizando valores experimentales. Los flujos de absorción de glucosa y oxígeno son negativos y, por lo tanto, los límites inferiores se fijan para representar las tasas máximas de absorción. En segundo lugar, maximizar la tasa de crecimiento.,

en cuanto a las condiciones de nitrógeno limitado, dado que el contenido de proteínas en la biomasa disminuye drásticamente bajo condiciones de nitrógeno limitado, la composición de la biomasa se reescaló de acuerdo con las condiciones de referencia63, luego estableció el límite inferior medido para las reacciones de absorción de NH3 y O2 utilizando valores experimentales y finalmente maximizó la tasa de crecimiento.

visualización de levaduras 8

Los mapas de levaduras-GEM se dibujaron para cada subsistema utilizando cellDesigner 4.438 (suplemento Fig. 5). Los scripts R internos se utilizaron para producir el mapa de cada subsistema automáticamente basado en Yeast8., Posteriormente, el diseño del gráfico se ajustó manualmente en cellDesigner 4.4 para mejorar su calidad y todo el mapa de levadura en formato SBGN se pudo encontrar en https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

generación de ecYeast8

el modelo ecYeast8 se generó basado en la última versión de Gecko toolbox, disponible en https://github.com/SysBioChalmers/GECKO. Para cada reacción, el algoritmo consulta todos los valores de kcat necesarios de la base de datos BRENDA 64, de acuerdo con la anotación génica y un conjunto jerárquico de criterios, dando prioridad a la especificidad del sustrato y del organismo.,ded a las reacciones de acuerdo a:

$$- \frac{1}{{k_{{\mathrm{cat}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + e_{\mathrm{i}} = 0$$
(3)

$$0 \le e_{\mathrm{i}} \le \left$$
(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{cat}}}^{{\mathrm{ij}}} \cdot \left$$
(5)

donde vj representa el flujo a través de la reacción de j, ei representa la cantidad de enzima asignados para la reacción j, Ei representa la concentración total de enzima yo, y kcat representa el mayor volumen de ventas de la cantidad disponible para la enzima i y la reacción de j., El procedimiento detallado para generar ecYeast8 se puede encontrar en el material complementario del documento GECKO 26.

simulaciones con ecYeast8

para predecir la tasa máxima de crecimiento bajo diferentes fuentes de carbono y nitrógeno utilizando ecYeast8, se utilizó el siguiente procedimiento. En primer lugar, eliminar cualquier limitación relativa a las tasas de absorción de las fuentes de carbono y nitrógeno. A continuación, establezca medios mínimos compuestos por las fuentes de carbono y nitrógeno relacionadas. Por último, simular una maximización de la tasa de crecimiento, mediante la cual se fija el valor óptimo para la posterior minimización del uso total de proteínas., Esto proporciona una distribución de flujo parsimoniosa.

para la FVA comparativa entre Levada8 y una ecYeast8, la tasa de crecimiento máxima y las tasas óptimas de captación de glucosa obtenidas con ecYeast8 se utilizan como valor fijo y límite superior, respectivamente, en la GEM original con el fin de realizar una comparación justa de la variabilidad del flujo para el mismo fenotipo de crecimiento.

Los coeficientes de control de flujo (FCCs) se definen como una relación entre un cambio relativo en el flujo de interés y un cambio relativo en el kcat correspondiente de 0.,1%, que puede ser descrito por:

donde vb y vup son el flujo original y los nuevos flujos respectivamente cuando el kcat se incrementa en 0.1%.

Re-anotación del pan-genoma del proyecto de secuenciación del genoma de levadura 1011

para construir el modelo pan de levadura (panYeast8), se ha consultado La última investigación genómica de Peter et al40. En el estudio de Peter, se habían secuenciado y analizado 1011 genomas de cepas de levadura. Se obtuvo un pan-genoma de todas estas cepas, compuesto por 6081 ORF no redundantes de S., cerevisiae s288c reference genome, and 1715 non-reference ORFs (nrORFs) from the other strains. Para los 7796 ORF, se dio un panID para cada uno de ellos. En comparación, 4940 ORF se conservan en todas estas cepas, mientras que 2846 ORF son variables en todas estas cepas. La anotación de 6081 ORFs no redundantes se puede tomar directamente de la última anotación del genoma de S. cerevisiae S288C, mientras que las reacciones relacionadas entre genes y proteínas (GPR) se pueden obtener directamente de Levada8.

como se menciona en el artículo de Peter hay 774 nrorf con los genes ortolog de S. cerevisiae s288c genome40., El análisis de blast, junto con la anotación génica de KEGG web service35 y EggNOG web service65, fueron empleados para verificar y mejorar la relación ortológica original. Para evaluar cualitativamente las relaciones génicas ortológicas, se realizó el análisis bidireccional de impacto de explosión (BBH) utilizando Diamond66. Aquí finalmente se eligió el mejor resultado en el análisis de HBB con una pidentidad superior al 80% y se preparó para una formulación panYeast8.

para buscar nuevas reacciones confiables conectadas con nrorf, se utilizaron los resultados de anotación de Kegg y el servicio Web EggNOG., De acuerdo con la solicitud de formato para los dos servicios web, los archivos de proteína fasta de pan-genoma se cargaron en KEGG (https://www.genome.jp/tools/kaas/) y EggNOG (http://eggnogdb.embl.de/#/app/emapper). Para la anotación KEGG, se utilizó un método de asignación BBH (bidireccional best hit) con los parámetros predeterminados. Para la anotación de ponche de huevo, se utilizó el HMMER con los parámetros predeterminados. En la anotación de ponche de huevo, cada proteína se asignará a Ko ID y BiGG reaction ID, mientras que para la anotación de Kegg, cada proteína se le dará un único ko ID., Así que si el KO ID de una proteína es diferente entre KEGG y ponche de huevo, entonces el KO ID dado por KEGG será preferido en el análisis posterior. Si el KO ID fue dado para una proteína por ponche de huevo, pero no en KEGG, entonces esta anotación también se utilizará para la anotación pan-genoma. Cuando se obtienen los ID de KO, las listas de KOs de nrORFs se comparan con los ORFs de referencia. Posteriormente se extrajeron nuevos ID de KO para los nrORFs. Después de esto, se obtuvo el rxnID basado en el mapeo KO-rxnID de la base de datos KEGG.,

generación de panYeast8, coreYeast8 y gemas específicas de la cepa

para los genes ortólogos (por ejemplo, el gen C) obtenidos a partir de la anotación pan-genoma, pueden combinarse sobre la base de la función del gen de referencia (por ejemplo, el gen a) en el modelo original de acuerdo con las siguientes reglas: (1) Si A O B catalizan la misma isoenzima, la regla GPR podría cambiarse a «A O B O C» En panYeast8; (2) Si A y B pertenecen a un complejo, la regla GPR debe actualizarse de «A y B» A » (A y B) O (C y B)». En segundo lugar, 51 nuevas reacciones con 13 nuevos genes se fusionaron en panYeast8., En cuanto a la identidad de los genes en el modelo, con el fin de reducir el caos, se mantuvieron los identificadores de genes originales y los nombres de genes de la levadura original8, mientras que para los genes recién añadidos, se utilizaron los panidos definidos en el trabajo de Peter9 para representar el nombre del gen.

genes colapsados en el pan-genoma, pero podrían encontrarse en la gema de levadura, y serán reemplazados por los genes ortolog correspondientes definidos en el pan-genoma. los ssgem para 1011 cepas fueron reconstruidos en base a panYeast8 junto con la lista de genes específicos de cepas relacionadas (suplemento Fig. 6a)., Se desarrolló una función Matlab para generar modelos específicos de deformación automáticamente. Basado en la información actual de la existencia del gen, si falta un gen de un complejo, entonces la reacción se elimina; y si falta un gen de dos isoenzimas, entonces la reacción se mantendrá, aunque el GPRs se actualizará para eliminar el gen faltante. Después de la reconstrucción de 1011 ssGEMs, coreYeast8 fue generado basado en reacciones comunes, genes, y metabolitos a través de los 1011 ssGEMs.,

clasificación de cepas basada en PCA, árbol de decisión y análisis de clústeres

el análisis jerárquico de clústeres basado en la existencia de reacciones en ssGEMs para cepas de levadura se basa en el paquete R D dendextend (https://CRAN.R-project.org/package = dendextend). Para el análisis de PCA de la existencia de genes basados en cepas (o reacción) en ssGEMs, R function-prcomp se ha utilizado en este artículo. La clasificación del árbol de decisión de las cepas de acuerdo con la tasa de crecimiento máximo en diferentes fuentes de carbono se llevó a cabo utilizando el paquete R R rpart (https://cran.r-project.org/web/packages/rpart/)., Para la sintonización de hiperparámetros, se utilizaron dos paquetes R: ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) y mlr (https://CRAN.R-project.org/package=mlr).

colección de estructura proteica para proYeast8DB

para establecer los modelos de estructura proteica 3D para todos los genes de la levadura Gem (y algunos genes metabólicos no incluidos en la levadura actual8), se descargaron todas las estructuras proteicas de S. cerevisiae S288C de la base de datos SWISS-MODEL67 (https://Swissmodel.expasy.org) el 20 de julio de 2018., El número total es de aproximadamente 20332 archivos PDB, incluidos los 8109 archivos PDB de homología de modelado (PDB_homo) y 12223 archivos PDB experimentales (PDB_ex). Mientras tanto, todo el PDB_ex de S. cerevisiae s288c almacenado en la base de datos RCSB PDB54 se descargó. También se descargaron las secuencias proteicas contenidas en cada PDB_ex. Las dos fuentes anteriores de archivos PDB se fusionaron para obtener la completa base de datos de archivos PDB para S. cerevisiae S288C. con la lista de genes metabólicos de S. cerevisiae S288C para consultar la base de datos de archivos PDB, la mayoría de los genes, con la excepción de aproximadamente 217 proteínas (en Levada8.,3) se puede encontrar en los archivos PDB relacionados. Para llenar este vacío, el servicio web SWISS-MODEL fue utilizado para construir el PDB_homo para 217 proteínas. Como resultado, cada una de las proteínas metabólicas podría tener al menos un archivo PDB. Todas las anotaciones de proteínas originales, como la secuencia de residuos y la longitud de la proteína, fueron descargadas de la base de datos SGD.

Una vez recolectados los archivos PDB, los parámetros de PDB fueron extraídos y calculados para el análisis de calidad., En cuanto al PDB_homo, se obtuvieron los parámetros por defecto del ftp de la base de datos SWISS-MODEL, e incluyeron el ID de proteína UniProt, la longitud de proteína, el ID de PDB relacionado (conectado con chainID), las fuentes de estructura, Las coordenadas de los residuos de proteínas cubiertos con estructuras PDB, la cobertura, la resolución y QMEAN., En cuanto a PDB_homo, además de los parámetros predeterminados anteriores de la base de datos del modelo suizo, se obtuvo un mayor número de parámetros analizando los archivos Atom PDB_homo proporcionados por el modelo suizo con un script python interno, que incluía los métodos utilizados para obtener los archivos PDB, la plantilla del modelo, el estado de proteína oliga, el GMQE, QMN4, identidad de secuencia (SID) y similitud de secuencia (SIM). En resumen, cada PDB_homo contiene 18 parámetros para un análisis de calidad PDB adicional.

algunos de los parámetros PDB_ex, como coverage y template ID también se pueden encontrar en la base de datos SWISS-MODEL., Los otros parámetros importantes como resolución, ligandos y estado oliga se obtuvieron analizando archivos PDB_ex de la base de datos PDB de RCSB usando (https://github.com/williamgilpin/pypdb). El chainID de cada PDB_ex se descargó de la base de datos SIFTS68.

análisis de calidad de la estructura 3D de la proteína

como una proteína podría conectarse con varios archivos PDB en diferentes niveles de calidad, es esencial filtrar el PDB de baja calidad. En este trabajo, se utilizaron principalmente cuatro parámetros de importación, que son identidad de secuencia (SI), similitud de secuencia (SS), resolución y QMEAN, para clasificar el PDB_homo., Usando una distribución normal simple para describir todos estos parámetros de PDB_homo, se puede hacer una prueba de puntuación Z para calcular el valor umbral para el valor p establecido en 0.1. El valor de corte de la identidad de secuencia, la similitud de secuencia, la resolución y QMEAN son 17.58, 0.25, 3.8 Å y -6.98 respectivamente. Como se indica en la base de datos del modelo Suizo, sin embargo, un PDB_homo con el QMEAN menor que -4 es de baja calidad. Para asegurar PDB_homo de mayor calidad en este trabajo, los parámetros críticos se restablecen de la siguiente manera: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31 y resolución ≤ 3.4 Å.,

para verificar si existe un espacio en los archivos PDB_ex, se descargaron todas las secuencias de residuos de las bases de datos PDB para cada cadena de un archivo PDB. En algunos puntos, sin embargo, las secuencias de residuos proporcionadas por las bases de datos del PDB no eran consistentes con las secuencias de residuos contenidas en la estructura. Para resolver este problema, se utilizó un Biopython package69 para obtener secuencias de residuos para cada cadena de un archivo PDB. A continuación, todas las secuencias de residuos se volaron con secuencias de proteínas originales para s., cerevisiae s288c de SGD con la ayuda de Diamond66 para comprobar si existían lagunas (desajustes o mutaciones) en las secuencias de residuos de PDB_ex en comparación con las secuencias de residuos originales. El PDB_ex se ha elegido con los umbrales: pidentity = 100 y resolución ≤ 3.4 Å; de lo contrario, se utilizará un PDB_homo de la base de datos SWISS-MODEL.

establecer relaciones de dominio proteico, gen, proteína y reacciones (dGRPs)

en este trabajo, La base de datos Pfam32.070 (https://pfam.xfam.org/) se utilizó principalmente para anotar la información de dominio de proteínas de S., cerevisiae S288C. Si una estructura cubierto todos los residuos de un dominio dado, fue asignado a ese dominio. Para cada dominio, se resumieron las coordenadas de inicio y fin, el nombre, la descripción de la función del dominio, el tipo de dominio, e_value, el ID del PDB relacionado y el ID de la proteína. De acuerdo con el GPRs de la Levada8, se pudo obtener la relación entre el ID del gen y el ID de la reacción. Después de esto, la información del dominio podría conectarse con cada par de genes y reacciones basadas en el mapeo de ID.,

SNP collection and relative coordinates mapping

Starting from the vcf file provided by the recent 1011 yeast strains genomes sequencing projects40 the homocigous SNP from the massive data file (Supplementary Fig. 10a) se extrajeron en primer lugar. Los SNPs de baja calidad total con profundidad siendo < 2.,0, mapping quality < 40, genotype quality <30, and Genotype depth < 5 were filtered out based on a series of standard parameters according to the Broad Institute Genome analysis Toolkit (GATK)71.

después de la filtración, se puede obtener el SNP confiable para cada cepa. Además, los datos contienen el nombre de la cepa de cada SNP, cromosoma, coordenadas, ref y base de nucleótidos alt., En la fase de anotación, el tipo SNP y los nombres de genes relacionados se anotaron en base a las coordenadas y la información de anotación del genoma de referencia S. cerevisiae s288c (versión R64-1-1) de NCBI. Si el SNP no se ubicaba en la zona CDS del gen, se clasificaba como un tipo de ‘integral’. Si no esta clasificación, de lo contrario se le dio un gen sistemático nombre, consistente con el formato de nombre del gen en Levada8., Sobre la base de la información de anotación de SNP anterior, solo se eligieron aquellos que pertenecen a los genes metabólicos (lista de genes en la Levada8 y algunos otros genes metabólicos no contenidos en la Levada8 hasta ahora). De acuerdo con la información de anotación SNP y las secuencias de proteínas de los genes relacionados, los SNPs se clasifican como el ssnp (polimorfismo de nucleótido único sinónimo) y nssnp (polimorfismo de nucleótido único no sinónimo). Se calcularon los números relativos de sSNPs y nsSNPs para cada gen, que es igual al total de sSNPs o nsSNPs dividido por la longitud de proteína relacionada.,

antes del mapeo, se deben calcular las coordenadas de los residuos mutados de cada nsSNP. En primer lugar, las coordenadas relativas de los residuos mutados en la secuencia proteica original se pueden obtener sobre la base de las coordenadas de nsSNP en el cromosoma. Después de esto, de acuerdo con el mapeo de coordenadas entre las secuencias de proteínas originales y las coordenadas relativas de residuos en la estructura de proteínas, Las coordenadas relativas de los residuos mutados en las estructuras de proteínas pueden estimarse y usarse en el siguiente cálculo.,

método de grupos para calcular los valores p de archivos PDB enriquecidos con mutaciones

en referencia al método de Kamburov45, una puntuación WAP para calcular las distancias entre pares entre residuos mutados para una estructura de proteína 3D.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{q}},{\mathrm{r}}} {n_{\mathrm{q}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{q,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$
(7)

Donde dq,i en este artículo se define como la distancia Euclidiana (en Å) entre α carbones de cualquiera de los dos residuos mutados., t se define como un umbral de distancia «suave», que equivale a 6 Å. nq y nr son los números normalizados de muestras contiene las mutaciones usando la función sigmoidal Hill:

n n_{\mathrm{q}} = \frac{{n_{\mathrm{q}}^m}}{{\theta ^m + n_{\mathrm{q}}^m}} $ $
(8)

donde nQ Es el número de muestras con una mutación missense que afecta al residuo Q de la proteína y θ = 2 y m = 3 son parámetros de la función Hill que controlan el punto crítico (centro) y la inclinación de la función sigmoide, respectivamente., Se utilizó la Fórmula (2) para normalizar el número de muestras contenido en las mutaciones de residuos q y r, las cuales pueden evitar el impacto de residuos mutados más frecuentes en las muestras. Una descripción detallada de cada fórmula se puede encontrar en el artículo 45 de Kamburov.

el método de grupos se puede dividir en cuatro pasos. En primer lugar, prepare la información necesaria del SNP y la información de la estructura de una proteína. En segundo lugar, con el número de mutaciones normalizadas en posiciones específicas, calcular las puntuaciones WAP de las muestras., A continuación, suponiendo que la distribución uniforme de mutaciones a través de los residuos de proteínas cubre la estructura dada, calcular cada puntuación WAP en 104 aleatorizaciones para obtener la distribución nula. Durante el proceso de muestreo, el número de mutaciones de residuos que ocurren en ubicaciones aleatorias se mantuvo igual que los valores originales. Por último, Calcule el valor de P de cola derecha en la distribución nula para las estructuras proteicas mutadas dadas basándose en la puntuación WAP original y en todas las puntuaciones WAP muestreadas., El valor de P de la cola derecha se define como el número de muestras con puntajes WAP mayores que el WAP original, dividido por el número total de muestras.

para proteínas con valor de P menor que 0,05 del grupo de cepas «Bioethonal» y «Wine», se realizó el análisis de enriquecimiento GO utilizando DAVID6.7 servicio web on-line72.

análisis de Hotspot de mutación nssnp

la tubería de análisis de hotspot para levadura se refiere principalmente a Niu et al.’s work49. Toda la información de SNP y estructura (similar al método de análisis de grumos) se preparó para un grupo de cepas con fenotipos específicos., Antes de realizar el análisis de conglomerados, los residuos mutados pareados de significación fueron filtrados de acuerdo a la referencia49. Estos importantes residuos pareados deben cumplir los tres criterios siguientes: la distancia entre dos residuos debe ser menor de 10 Å para todos los análisis de conglomerados intramoleculares; los dos residuos deben estar separados por al menos 20 residuos en la secuencia proteica original; y un método de permutación debe ser utilizado para calcular el valor de P para cada residuo Pareado (EC. 9), con un umbral fijado en 0,05.,

p p\; {\mathrm{value}} = \frac{{n_1}}{{n_2}}

(9)

donde n1 es el número de residuos emparejados con la distancia menor que la de los residuos emparejados de Target y N2 es el número total de residuos emparejados.

Una vez obtenidos los residuos apareados de significación, los clusters formados por residuos apareados se obtuvieron con base en la teoría de grafos no dirigidos, que se realizó utilizando la función ‘descomponer.graph ‘del paquete R igraph (https://igraph.org/)., Para cada cluster, su cercanía puede ser calculada usando la función de ‘ cercanía.residual ‘ del paquete R entiserve73. El principio detallado también podría encontrarse en la investigación original49. Como último paso, cuando se estimó un clúster, el valor de P se calculó en base a la canalización de análisis de conglomerados en este trabajo.

predicción de la función de mutaciones

prueba de crecimiento utilizando Biolog con diferentes fuentes de sustrato

se utilizó el sistema de microarray de fenotipo (PM) para probar el crecimiento en todas las fuentes de carbono, nitrógeno, fósforo y sulfuro74., Se probaron un total de 190 fuentes de carbono, 95 fuentes de nitrógeno, 95 fuentes de fósforo y azufre. Los procedimientos de PM Para S. cerevisiae S288C se basaron en el protocolo de la versión de levadura del sistema PM.

perfiles de crecimiento en diferentes medios

se combinaron un total de 14 fuentes de carbono y 23 fuentes de nitrógeno mediante experimentos ortogonales. Cada fuente de carbono y fuente de nitrógeno utilizados en el medio fueron los mismos C-mol y n-Mol como la glucosa (20 g L-1 glucosa)y sulfato de amonio (7,5 g L−1 (NH4) 2SO4), respectivamente. Para todas las demás fuentes de sustrato, se utilizó el mismo medio mínimo (14.,4 g L−1 KH2PO4, 0,5 g L-1 MgSO4∙7H2O, trazas metálicas y soluciones vitamínicas) 75. Las cepas se cultivaron en placas de 96 pocillos, y el rendimiento de crecimiento se determinó con Growth Profiler 960 (Enzyscreen B. V., Heemstede, Países Bajos). La tasa de crecimiento específico máximo (µmax) se calculó con el paquete R—growthrates (https://github.com/tpetzoldt/growthrates).

análisis estadístico

para la comparación de dos grupos en este trabajo, se utilizó una prueba de suma de rangos de Wilcoxon de dos colas.,

resumen de informes

Más información sobre el diseño de la investigación está disponible en el resumen de informes de Investigación de Nature vinculado a este artículo.

Share

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *