Un consensus S. cerevisiae modèle métabolique Yeast8 et de son écosystème globale pour sonder le métabolisme cellulaire | Nature Communications

le Suivi des changements de modèle avec le contrôle de version

Git et GitHub ont été utilisés pour développer de levure-GEM de manière traçable. Git est utilisé pour suivre les changements de yeast-GEM, qui sont stockés en ligne dans un dépôt GitHub (fig. 1)., La structure du dépôt yeast-GEM sur GitHub contient les trois répertoires principaux suivants:

(1) ComplementaryData, qui contient l’annotation de base de données associée et les données physiologiques utilisées pour les mises à jour yeast-GEM. Ces données sont généralement stockées sous forme de valeur séparée par des tabulations (.tsv) pour faciliter le suivi des modifications; (2) ComplementaryScripts, qui contient tous les scripts utilisés pour mettre à jour yeast-GEM; (3) ModelFiles, qui contient différents formats de yeast-GEM pour diverses applications. Le.txt et.,les formats YML (YAML) permettent de visualiser facilement les modifications apportées aux clients locaux GitHub ou Git. Le.le format xml (SBML) facilite l’importation du modèle dans différentes boîtes à outils et langages de programmation.

en tant qu’étape standard, un commit est nécessaire lors de la mise à jour de yeast-GEM. Pour rendre les commits faciles à comprendre, des messages de commit sémantiques sont utilisés (fig. 1c). Pour permettre le développement de modèles parallèles, différentes branches de yeast-GEM sont utilisées, y compris une branche « master » et une branche « devel » (développement)., Les développeurs, et même d’autres personnes de la communauté, peuvent créer de nouvelles branches à partir de la branche de développement pour introduire leurs modifications, puis demander de les fusionner via des pull-requests. Ces modifications ne sont fusionnées qu’avec la branche de développement et, à leur tour, les modifications de la branche de développement sont fusionnées périodiquement avec la branche maître, qui contient les versions stables du modèle.,

procédures générales utilisées pour standardiser l’annotation des métabolites et des réactions

pour les réactions nouvellement ajoutées, leurs identifiants MetaNetX ont été obtenus grâce à une recherche directe dans la base de données MetaNetX56 en utilisant les informations relatives au nom du métabolite ou au numéro CE. Les ID MetaNetX ont également été obtenus par cartographie des ID de réaction à partir des bases de données KEGG35, Rhea57 et BioCyc33. La réversibilité de la réaction a été corrigée sur la base des bases de données BioCyc et Bigg58. Les identifiants MetaNetX ont également été utilisés pour obtenir le numéro CE des réactions correspondantes., Comme la base de données MetaNetX ne contient pas les informations sur le nom de la réaction, le nom de chaque nouvelle réaction a été obtenu sur la base de la cartographie de l’ID de réaction dans les bases de données de KEGG, ModelSeed et BioCyc.

l’annotation par compartiment des nouvelles réactions a été affinée à partir des informations des bases de données UNIPROT36 et SGD32. L’annotation de sous-système a d’abord été obtenue à partir de KEGG35, et si aucun sous-système n’y a été trouvé, les informations de BioCyc ou Reactome34 ont été utilisées à la place. Si la réaction n’avait pas de relations génétiques, nous avons supposé qu’elle se produisait dans le cytoplasme.,

pour tous les métabolites contenus dans les réactions nouvellement ajoutées, les ID de Métanetx associés ont été obtenus sur la base des ID de Métanetx de réaction. S’ils ne sont pas disponibles, ils ont été obtenus par mappage D’ID basé sur les ID de KEGG ou les ID de ChEBI. Une fois les identifiants MetaNetX du métabolite obtenus, les identifiants charge, formule, KEGG et ChEBI ont été obtenus pour le métabolite correspondant en fonction de l’annotation des métabolites dans MetaNetX.,

mise à jour du modèle de Yeast7 à Yeast8

tout d’abord, toutes les annotations concernant les métabolites ChEBI IDs et KEGG IDs (tableau supplémentaire 8) ont été corrigées dans la dernière version du consensus GEM of yeast (version 7.6) sur la base de l’annotation métabolite disponible dans KEGG et ChEBI59. De plus, plusieurs gènes d’iSce92631 qui n’étaient pas inclus dans la levure 7.6 ont été ajoutés, comme tous les gènes liés aux processus métaboliques et au transport dans SGD, BioCyc, Reactome, KEGG et UniProt. Les principales bases de données utilisées pour la conservation des modèles se trouvent dans le tableau supplémentaire 9.,

dans les expériences Biolog, la souche S288c a été cultivée sur 190 sources de carbone, 95 sources d’azote, 59 sources de phosphore et 35 sources de soufre. Le résultat a montré que S288c pouvait se développer sur 28 sources de carbone, 44 sources d’azote, 48 sources de phosphore et 19 sources de soufre. Sur la base de ces résultats, de nouvelles réactions essentielles ont été ajoutées pour rendre le modèle capable de prédire la croissance sur les substrats connexes., Pendant ce temps, Toutes les données métabolomiques contenues dans la base de données YMDB (métabolites mesurés) et les dernières recherches métabolomiques (tableau supplémentaire 10) ont été recueillies et comparées à celles de la levure GEM. Une annotation standard a été donnée pour tous ces métabolites et un pipeline a été conçu pour ajouter les métabolites dans le GEM sans apporter de nouveaux métabolites sans issue. Les procédures détaillées de la conservation des modèles sont disponibles dans les méthodes supplémentaires.

validation du modèle avec diverses sources de données expérimentales

pour comparer la couverture des métabolites, la base de données YMDB60 a été analysée., Il existe 2024 métabolites pour la levure, parmi lesquels 871 ont été mesurés chez S. cerevisiae. Pour chaque métabolite, ChEBI ID et KEGG ID ont été attribués, et sur la base de ceux-ci, L’ID MetaNetX correspondant a été apparié. Pour les métabolites de Yeast7 et Yeast8, L’ID MetaNetX de chaque métabolite a également été obtenu sur la base de la cartographie ID.

La qualité du modèle est ensuite évaluée en fonction de la précision (Eq. 1) et le Coefficient de corrélation de Matthews (MCC)61 (Eq. 2). La précision varie de 0 (pire précision) à 1 (meilleure précision)., MCC varie de -1 (désaccord total entre la prédiction et l’observation) à + 1 (prédiction parfaite).

$ $ {\mathrm{accuracy}} = \frac{{{\mathrm{TP}}} + {{{\mathrm {TN}}} {{{\mathrm{TN}} + {\mathrm{TN}} + {\mathrm{ft}} + {\mathrm {FN}}}}

(1)

pour effectuer une analyse de L’essentialité des gènes, nous avons utilisé la liste des gènes essentiels du projet de délétion de levure, disponible àhttp://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, qui a été générée à partir d’expériences utilisant un milieu complet. La précision et la MCC ont été calculées comme décrit ci-dessus.,

la croissance aérobie et anaérobie simulée dans des conditions limitées en glucose et en azote a été comparée aux données de référence62. La procédure suivante a été utilisée pour simuler la croissance du chimiostat dans des conditions limitées en glucose. Tout d’abord, définissez la limite inférieure des réactions d’absorption du glucose et de L’O2 à l’aide de valeurs expérimentales. Les flux d’absorption du Glucose et de l’oxygène sont négatifs et, par conséquent, les limites inférieures sont fixées pour représenter les taux d’absorption maximaux. Deuxièmement maximiser le taux de croissance.,

en ce qui concerne les conditions limitées en azote, étant donné que la teneur en protéines dans la biomasse diminue considérablement dans des conditions limitées en azote, la composition de la biomasse a été redimensionnée selon les conditions de référence63, puis a fixé la limite inférieure telle que mesurée pour les réactions d’absorption de NH3 et

Visualisation de Yeast8

Les cartes de yeast-GEM ont été établies pour chaque sous-système à l’aide de cellDesigner 4.438 (fig. 5). Des scripts R internes ont été utilisés pour produire automatiquement la carte de chaque sous-système sur la base de Yeast8., Ensuite, la disposition du graphique a été ajustée manuellement dans cellDesigner 4.4 pour améliorer sa qualité et la carte de levure entière au format SBGN a pu être trouvée dans https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

génération d’ecYeast8

le modèle ecYeast8 a été généré sur la base de la dernière version de la boîte à outils GECKO, disponible àhttps://github.com/SysBioChalmers/GECKO. Pour chaque réaction, l’algorithme interroge toutes les valeurs kcat nécessaires à partir de la base de données BRENDA 64, en fonction de l’annotation génétique et d’un ensemble hiérarchique de critères, en donnant la priorité à la spécificité du substrat et de l’organisme.,ded réactions de la fonction:

$$- \frac{1}{{k_{{\mathrm{cat}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + f_{\mathrm{i}} = 0$$

(3)

$$0 \le e_{\mathrm{i}} \le \left$$

(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{cat}}}^{{\mathrm{ij}}} \cdot \left$$

(5)

où vj représente le flux à travers la réaction de j, ei représente la quantité d’enzyme alloué pour la réaction j, Ei représente la concentration totale d’enzyme j’, et kcat représente le plus haut chiffre d’affaires nombre disponible de l’enzyme de je et de la réaction de j., La procédure détaillée pour générer ecYeast8 se trouve dans le matériel supplémentaire du papier GECKO 26.

Simulations avec ecYeast8

pour prédire le taux de croissance maximal sous différentes sources de carbone et d’azote à l’aide d’ecYeast8, la procédure suivante a été utilisée. Tout d’abord, éliminer toute contrainte relative aux taux d’absorption des sources de carbone et d’azote. Ensuite, définissez un milieu minimal composé des sources de carbone et d’azote associées. Enfin, simulez une maximisation du taux de croissance, la valeur optimale étant fixée pour une minimisation postérieure de l’utilisation totale de protéines., Cela fournit une distribution de flux parcimonieuse.

pour la FVA comparative entre Yeast8 et un ecYeast8, le taux de croissance maximal et les taux optimaux d’absorption du glucose obtenus avec ecYeast8 sont utilisés comme valeur fixe et limite supérieure, respectivement, dans le GEM original afin d’effectuer une comparaison équitable de la variabilité du flux pour le même phénotype de croissance.

Les coefficients de contrôle de Flux (FCCs) sont définis comme un rapport entre une variation relative du flux d’intérêt et une variation relative du kcat correspondant de 0.,1%, qui peut être décrit par:

où vb et vup sont respectivement le flux d’origine et les nouveaux flux lorsque le kcat est augmenté de 0,1%.

ré-annotation du pan-génome du projet de séquençage du génome de la levure 1011

pour construire le Modèle pan de la levure (panYeast8), les dernières recherches en génomique de Peter et al ont consulté40. Dans L’étude de Peter, 1011 génomes de souches de levure avaient été séquencés et analysés. Un pan-génome a été obtenu à partir de toutes ces souches, constitué par 6081 ORF non redondants de S., cerevisiae s288c génome de référence, et 1715 ORF Non-référence (nrorf) des autres souches. Pour les 7796 ORF, un panID a été donné pour chacun d’eux. En comparaison, 4940 ORF sont conservés dans toutes ces souches tandis que 2846 ORF sont des variables dans toutes ces souches. L’annotation des ORF 6081 non redondantes peut être prise directement à partir de la dernière annotation du génome s288c de S. cerevisiae, tandis que les réactions gènes–protéines (GPR) connexes peuvent être obtenues directement à partir de Yeast8.

comme mentionné dans L’article de Peter, il existe 774 nrorf avec les gènes ortholog du génome S. cerevisiae s288c40., L’analyse blast, ainsi que l’annotation génétique de KEGG web service35 et EggNOG web service65, ont été utilisées pour vérifier et améliorer la relation ortholog originale. Pour évaluer qualitativement les relations entre les gènes ortholog, L’analyse bi-directionnelle blast hit (BBH) a été menée à L’aide de Diamond66. Ici, les meilleurs résultats de L’analyse BBH avec une pidentité supérieure à 80% ont finalement été choisis et préparés pour une formulation panYeast8.

pour poursuivre la recherche de nouvelles réactions fiables liées aux nrORFs, les résultats d’annotation de KEGG et du service Web de lait de poule ont été utilisés., Selon la demande de format pour les deux services web, les fichiers FASTA protéiques de pan-genome ont été téléchargés sur KEGG (https://www.genome.jp/tools/kaas/) et le lait de poule (http://eggnogdb.embl.de/#/app/emapper). Pour L’annotation KEGG, une méthode D’affectation BBH (bidirectionnelle best hit) avec les paramètres par défaut a été utilisée. Pour l’annotation de lait de poule, le HMMER avec les paramètres par défaut a été utilisé. Dans l’annotation de lait de poule, chaque protéine sera mappée sur KO ID et BiGG reaction ID tandis que pour L’annotation KEGG, chaque protéine recevra un KO ID unique., Donc, si L’ID KO pour une protéine est différent entre KEGG et le lait de poule, alors L’ID KO donné par KEGG sera préféré dans l’analyse ultérieure. Si L’ID KO a été donné pour une protéine par le lait de poule, mais pas dans le KEGG, alors cette annotation sera également utilisée pour l’annotation pan-génome. Lorsque les ID KO sont obtenus, les listes de KOs des nrORFs sont comparées aux ORF de référence. De nouveaux ID KO pour les nrorf ont ensuite été extraits. Par la suite, le rxnID a été obtenu sur la base du mappage KO-RXNID de la base de données KEGG.,

génération de Panyeast8, de coreYeast8 et de gemmes spécifiques à la souche

pour les gènes ortholog (par exemple gène C) obtenus à partir de l’annotation pan-génome, ils peuvent être fusionnés en fonction de la fonction du gène de référence (par exemple gène A) dans le modèle original selon les règles suivantes: (1) Si b appartient à un complexe, la règle GPR doit être mise à jour de ‘A et b’ en ‘(a et B) ou(C et b)’. Deuxièmement, 51 nouvelles réactions avec 13 nouveaux gènes ont été fusionnées dans panYeast8., En ce qui concerne l’identité des gènes dans le modèle, afin de réduire le chaos, les ID de gènes originaux et les noms de gènes de la levure originale8 ont été conservés, tandis que pour les gènes nouvellement ajoutés, les panides définis dans le travail de Peter 9 ont été utilisés pour représenter le nom du gène.

des gènes se sont effondrés dans le pan-génome, mais pourraient être trouvés dans le GEM de levure, et seront remplacés par les gènes ortholog correspondants définis dans le pan-génome. les ssGEMs pour 1011 souches ont été reconstruits sur la base de panYeast8 avec la liste des gènes spécifiques des souches apparentées (fig. 6a)., Une fonction Matlab a été développée pour générer automatiquement des modèles spécifiques à la souche. Basé sur l’information actuelle d’existence de gène, si un gène d’un complexe est manquant, alors la réaction est enlevée; et si un gène de deux isoenzymes est manquant, alors la réaction sera gardée, bien que le GPRs soit mis à jour pour enlever le gène manquant. Après la reconstruction de 1011 ssGEMs, coreYeast8 a été généré sur la base de réactions, de gènes et de métabolites communs à travers les 1011 ssGEMs.,

classification des souches basée sur la PCA, l’arbre de décision et l’analyse en grappes

l’analyse hiérarchique en grappes basée sur l’existence de réactions dans les ssGEMs pour les souches de levure est basée sur le package R package dendextend (https://CRAN.R-project.org/package = dendextend). Pour l’analyse PCA de l’existence de gènes (ou de réactions) basés sur des souches dans ssGEMs, la fonction R-prcomp a été utilisée dans cet article. La classification par arbre de décision des souches en fonction du taux de croissance maximal sur différentes sources de carbone a été réalisée à l’aide du package R R rpart (https://cran.r-project.org/web/packages/rpart/)., Pour le réglage des hyperparamètres, deux paquets R—ParamHelpers (https://CRAN.R-project.org/package=ParamHelpers) et mlr (https://CRAN.R-project.org/package = mlr) ont été utilisés.

Protein structure collection for proYeast8DB

pour établir les modèles de structure protéique 3D pour tous les gènes de la levure GEM (et quelques gènes métaboliques non inclus dans la levure actuelle8), toutes les structures protéiques de S. cerevisiae s288c de la base de données Swiss-MODEL 67 (https://Swissmodel.expasy.org) , Le nombre total est d’environ 20332 fichiers PDB, y compris les 8109 fichiers PDB d’homologie de modélisation (PDB_homo) et 12223 fichiers PDB expérimentaux (PDB_ex). Pendant ce temps, tous les PDB_ex de S. cerevisiae S288C stockés dans la base de données RCSB PDB54 ont été téléchargés. Les séquences protéiques contenues dans chaque PDB_ex ont également été téléchargées. Les deux sources ci-dessus de fichiers PDB ont été fusionnées pour obtenir la base de données complète des fichiers PDB pour S. cerevisiae s288c. avec la liste des gènes métaboliques de S. cerevisiae s288c pour interroger la base de données des fichiers PDB, la plupart des gènes, à l’exception d’environ 217 protéines (dans Yeast8.,3) pourrait être trouvé dans les fichiers PDB associés. Pour combler cette lacune, le service web SWISS-MODEL a également été utilisé pour construire le PDB_homo pour 217 protéines. En conséquence, chacune des protéines métaboliques pourrait avoir au moins un fichier PDB. Toutes les annotations originales sur les protéines, comme la séquence des résidus et la longueur des protéines, ont été téléchargées à partir de la base de données SGD.

Une fois les fichiers PDB collectés, les paramètres des PDB ont été extraits et calculés pour l’analyse de la qualité., En ce qui concerne le PDB_homo, les paramètres par défaut du ftp de la base de données SWISS-MODEL ont été obtenus et comprenaient l’ID UniProt de la protéine, la longueur de la protéine, L’ID PDB associé (connecté à chainID), les sources de structure, les coordonnées des résidus de protéines recouverts de structures PDB, la couverture, la résolution et QMEAN., Quant à PDB_homo, outre les paramètres par défaut ci-dessus de la base de données SWISS-MODEL, un plus grand nombre de paramètres ont été obtenus en analysant les fichiers Atom PDB_homo fournis par le SWISS-MODEL avec un script python interne, qui comprenait les méthodes utilisées pour obtenir les fichiers PDB, le modèle de modèle, l’état de la protéine oliga, le GMQE, QMN4, sequence identity (SID) et sequence similarity (SIM). En résumé, chaque PDB_homo contient 18 paramètres pour une analyse de qualité PDB ultérieure.

certains paramètres de PDB_ex, comme la couverture et l’ID de modèle peuvent également être trouvés dans la base de données SWISS-MODEL., Les autres paramètres importants comme la résolution, les ligands et l’état oliga ont été obtenus en analysant les fichiers PDB_ex de la base de données RCSB PDB en utilisant (https://github.com/williamgilpin/pypdb). Le chainID pour chaque PDB_ex a été téléchargé à partir de la base de données SIFTS68.

analyse de la qualité de la structure 3D des protéines

comme une protéine peut être connectée à plusieurs fichiers PDB de différents niveaux de qualité, il est essentiel de filtrer les PDB de faible qualité. Dans ce travail, principalement quatre paramètres d’importation, qui sont sequence identity (SI), sequence similarity (SS), resolution, et QMEAN, ont été utilisés pour classer le PDB_homo., En utilisant une simple distribution normale pour décrire tous ces paramètres de PDB_homo, un test de score Z peut être effectué pour calculer la valeur seuil pour la valeur P définie à 0.1. La valeur de coupure de l’identité de séquence, la similitude de séquence, la résolution et QMEAN sont respectivement de 17,58, 0,25, 3,8 Å et -6,98. Comme indiqué dans la base de données SWISS-MODEL, cependant, un PDB_homo avec le QMEAN inférieur à -4 est de mauvaise qualité. Pour assurer PDB_homo de meilleure qualité dans ce travail, les paramètres critiques sont réinitialisés comme suit: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31 et résolution ≤ 3.4 Å.,

afin de vérifier s’il existe une lacune dans les fichiers PDB_ex, toutes les séquences de résidus des bases de données PDB pour chaque chaîne d’un fichier PDB ont été téléchargées. À certains moments, cependant, les séquences de résidus fournies par les bases de données APB n’étaient pas compatibles avec les séquences de résidus contenues dans la structure. Pour résoudre ce problème, un Package69 Biopython a été utilisé pour obtenir des séquences de résidus pour chaque chaîne d’un fichier PDB. Ensuite, toutes les séquences de résidus ont été dynamitées avec des séquences protéiques originales pour S., cerevisiae S288C De SGD à L’aide de Diamond66 afin de vérifier s’il existait des lacunes (inadéquations ou mutations) dans les séquences de résidus de PDB_ex par rapport aux séquences de résidus d’origine. Le PDB_ex a été choisi avec les seuils: pidentity = 100 et resolution ≤ 3.4 Å; sinon un PDB_homo de SWISS-MODEL database sera utilisé.

établissement des relations entre le domaine protéique, le gène, la protéine et les réactions (dGRPs)

dans ce travail, La base de données Pfam32.070 (https://pfam.xfam.org/) a été principalement utilisée pour annoter les informations de domaine des protéines de S., cerevisiae S288C. si une structure couvrait tous les résidus d’un domaine donné, elle était assignée à ce même domaine. Pour chaque domaine, les coordonnées de début et de fin, le nom, la description de la fonction de domaine, le type de domaine, e_value, L’ID PDB associé et l’ID de protéine ont tous été résumés. Selon le GPRs de Yeast8, la relation entre gene ID et reaction ID pourrait être obtenue. Par la suite, les informations de domaine pourraient être connectées à chaque paire de gènes et de réactions en fonction du mappage D’ID.,

collecte de SNP et cartographie des coordonnées relatives

à partir du fichier vcf fourni par les récents projets de séquençage des génomes de souches de levures 101140 le SNP homozygote du fichier de données massives (fig. supplémentaire. 10a) ont d’abord été extraites. Les SNP de faible qualité totale avec profondeur étant < 2.,0, Qualité de cartographie<40, qualité de génotype< 30, et profondeur de génotype<5 ont été filtrés sur la base d’une série de paramètres standard selon le Broad Institute Genome analysis Toolkit (GATK)71.

Après filtration, le SNP fiable peut être obtenu pour chaque souche. Les données contiennent en outre le nom de la souche, le chromosome, les coordonnées, La référence et la base nucléotidique alt de chaque SNP., Au cours de la phase d’annotation, le type SNP et les noms de gènes associés ont été annotés en fonction des coordonnées et des informations d’annotation du génome de référence S. cerevisiae S. cerevisiae s288c (version R64-1-1) du NCBI. Si le SNP n’était pas situé sur la zone du gène CDS, il était classé comme un type « INTEGÉNIQUE ». Si ce n’est pas cette classification, on lui a autrement donné un nom systématique de gène, compatible avec le format de nom de gène dans Yeast8., Sur la base des informations D’annotation SNP ci-dessus, seuls ceux appartenant aux gènes métaboliques (liste des gènes dans Yeast8 et certains autres gènes métaboliques Non contenus dans Yeast8 jusqu’à présent) ont été choisis. Selon les informations D’annotation SNP et les séquences protéiques des gènes associés, les SNP sont classés comme sSNP (polymorphisme nucléotidique unique synonyme) et nssnp (polymorphisme nucléotidique unique non synonymique). Le nombre relatif de sSNPs et de nsSNPs pour chaque gène a été calculé, ce qui est égal au nombre total de sSNPs ou de nsSNPs divisé par la longueur de protéine connexe.,

avant de cartographier, les coordonnées des résidus mutés de chaque nsSNP doivent être calculées. Premièrement, les coordonnées relatives des résidus mutés sur la séquence protéique originale peuvent être obtenues en fonction des coordonnées de nsSNP sur le chromosome. Par la suite, en fonction de la cartographie des coordonnées entre les séquences protéiques d’origine et les coordonnées relatives des résidus dans la structure des protéines, les coordonnées relatives des résidus mutés dans les structures protéiques peuvent être estimées et utilisées dans le calcul suivant.,

méthode des agrégats pour calculer les valeurs p des fichiers PDB enrichis par mutation

se référant à la méthode de Kamburov45, un score WAP pour calculer les distances par paire entre les résidus mutés pour une structure 3D protéique.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{q}},{\mathrm{r}}} {n_{\mathrm{q}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{q,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$

(7)

Où dq,r de cet article est défini comme la distance Euclidienne (en Å) entre α atomes de carbone de deux résidus mutés., t est défini comme un seuil de distance « doux », qui est égal à 6 Å. nq et nr sont les nombres normalisés d’échantillons contenant les mutations en utilisant la fonction de Colline sigmoïdale suivie:

$ $ n_{\mathrm{Q}} = \frac{{n_{\mathrm{Q}}^M}}{{\THETA ^m + n_{\mathrm{Q}}^M}}

(8)

où nQ Est le nombre d’échantillons avec une mutation Missense impactant le résidu Q de la protéine et θ = 2 et M = 3 sont des paramètres de la fonction Hill contrôlant le point critique (centre) et la pente de la fonction sigmoïde, respectivement., La Formule (2) a été utilisée pour normaliser le nombre d’échantillons contenus dans les mutations de résidus q et r, qui peuvent toutes deux éviter l’impact de résidus mutés plus fréquents dans les échantillons. Une description détaillée de chaque formule peut être trouvée dans l’article de Kamburov45.

la méthode des agrégats peut être divisée en quatre étapes. Tout d’abord, préparez les informations SNP nécessaires et les informations de structure d’une protéine. Deuxièmement, avec le nombre de mutations normalisées se produisant dans des positions spécifiques, calculez les scores WAP des échantillons., Ensuite, en supposant que la distribution uniforme des mutations à travers les résidus de protéines couvre la structure donnée, calculez chaque score WAP dans 104 randomisations pour obtenir la distribution nulle. Au cours du processus d’échantillonnage, le nombre de mutations de résidus se produisant dans des endroits aléatoires a été maintenu le même que les valeurs initiales. Enfin, calculez la valeur p à queue droite dans la distribution null pour les structures protéiques mutées données en fonction du score WAP original et de tous les scores WAP échantillonnés., La valeur p à queue droite est définie comme le nombre d’échantillons avec des scores WAP plus grands que le score WAP original, divisé par le nombre total d’échantillons.

pour les protéines dont la valeur P est inférieure à 0,05 provenant des groupes de souches « Bioéthonale” et « vin”, une analyse d’enrichissement GO à L’aide du service Web en ligne72 de DAVID6.7 a été réalisée.

analyse des points chauds de la mutation nsSNP

Le pipeline d’analyse des points chauds pour la levure se réfère principalement à Niu et al.’s work49. Toutes les informations SNP et structure (similaires à la méthode D’analyse de CLUMPS) ont été préparées pour un groupe de souches avec des phénotypes spécifiques., Avant d’effectuer l’analyse en grappes, les résidus appariés mutés significatifs ont été filtrés selon la référence49. Ces résidus appariés importants devraient répondre aux trois critères suivants: la distance entre deux résidus devrait être inférieure à 10 Å pour toutes les analyses de clusters intramoléculaires; les deux résidus devraient être séparés par au moins 20 résidus dans la séquence protéique originale; et une méthode de permutation devrait être utilisée pour calculer la valeur P pour chaque résidu apparié (Eq. 9), avec un seuil fixé à 0,05.,

$ $ P\;{\mathrm{value}} = \frac{{n_1}}{{n_2}}

(9)

où N1 est le nombre de résidus appariés dont la distance est inférieure à celle des résidus appariés de la cible et N2 est le nombre total de résidus appariés.

Une fois que les résidus appariés de signification ont été obtenus, les grappes composées de résidus appariés ont été obtenues sur la base de la théorie des graphes non orientés, qui a été réalisée en utilisant la fonction ‘décomposer.graphe ‘du paquet R iaph (https://igraph.org/)., Pour chaque cluster, sa proximité peut être calculée en utilisant la fonction de ‘proximité.résiduel ‘ du paquet r entiserve73. Le principe détaillé pourrait également être trouvé dans la recherche originale49. À la dernière étape, lorsqu’un cluster a été estimé, la valeur P a été calculée en fonction du pipeline D’analyse des agrégats dans ce travail.

prédiction de la fonction des mutations

test de croissance à L’aide de Biolog avec différentes sources de substrat

le système de microréseaux phénotypiques (PM) a été utilisé pour tester la croissance sur toutes les sources de carbone, d’azote, de phosphore et de soufre74., Au total, 190 sources de carbone, 95 sources d’azote, 95 sources de phosphore et de soufre ont été testées. Les procédures relatives aux particules de S. cerevisiae s288c étaient basées sur le protocole de la version levure du système de particules.

profil de croissance dans différents milieux

au total, 14 sources de carbone et 23 sources d’azote ont été combinées par des expériences orthogonales. Toutes les sources de carbone et d’azote utilisées dans le milieu étaient les mêmes mole-C et n−mole que le glucose (20 g L−1 glucose) et le sulfate d’ammonium (7,5 g L-1 (NH4)2SO4), respectivement. Pour toutes les autres sources de substrat, le même milieu minimal a été utilisé (14.,4 G L−1 KH2PO4, 0,5 g L-1 MgSO4∙7H2O, solutions de métaux traces et de vitamines) 75. Des souches ont été cultivées dans des plaques de 96 puits, et les performances de croissance ont été déterminées avec Growth Profiler 960 (Enzyscreen B. V., Heemstede, Pays-Bas). Le taux de croissance spécifique maximal (µmax) a été calculé avec les taux de croissance du paquet R (https://github.com/tpetzoldt/growthrates).

analyse statistique

pour la comparaison de deux groupes dans ce travail, un test de somme de rang de Wilcoxon à deux queues a été utilisé.,

Résumé du rapport

de plus amples renseignements sur la conception de la recherche sont disponibles dans le résumé du rapport de recherche sur la Nature lié à cet article.