Un consenso S. cerevisiae metabolica modello Yeast8 e del suo ecosistema completo per sondare il metabolismo cellulare | Nature Communications

un modello di Monitoraggio dei cambiamenti con il controllo di versione

Git e GitHub sono stati utilizzati per sviluppare lievito-GEMMA in un modo tracciabile. Git viene utilizzato per tenere traccia di eventuali modifiche di lievito-GEM, che sono memorizzati on-line in un repository GitHub (Fig. 1)., La struttura del repository di lievito-GEMMA su GitHub contiene le seguenti tre directory principali:

(1) ComplementaryData, che contiene l’annotazione del database correlato e i dati fisiologici utilizzati per gli aggiornamenti di lievito-GEMMA. Questi dati sono generalmente memorizzati come valore separato da tabulazioni (.tsv) per facilitare il monitoraggio delle modifiche; (2) ComplementaryScripts, che contiene tutti gli script utilizzati per aggiornare lievito-GEM; (3) ModelFiles, che contiene diversi formati di lievito-GEM per varie applicazioni. Il.txt e.,i formati yml (YAML) rendono conveniente visualizzare eventuali modifiche nei client locali GitHub o Git. Il.il formato xml (SBML) semplifica l’importazione del modello tra diverse toolbox e linguaggi di programmazione.

Come passo standard, è necessario un commit durante l’aggiornamento di yeast-GEM. Per rendere i commit facili da capire, vengono utilizzati messaggi di commit semantici (Fig. 1c). Per consentire lo sviluppo parallelo del modello, vengono utilizzati diversi rami di gemma di lievito, tra cui un ramo “master” e un ramo “devel” (sviluppo)., Gli sviluppatori e anche altre persone della comunità possono creare nuovi rami dal ramo di sviluppo per introdurre le loro modifiche e quindi richiedere di unirli nuovamente tramite pull-request. Queste modifiche vengono unite solo al ramo di sviluppo e, a loro volta, le modifiche nel ramo di sviluppo vengono unite periodicamente al ramo master, che contiene le versioni stabili del modello.,

Procedure generali utilizzate per standardizzare l’annotazione dei metaboliti e delle reazioni

Per le reazioni appena aggiunte, i loro ID MetaNetX sono stati ottenuti in base a una ricerca diretta nel database MetaNetX56 utilizzando il nome del metabolita correlato o le informazioni sul numero CE. Gli ID MetaNetX sono stati ottenuti anche mediante mappatura degli ID di reazione dai database KEGG35, Rhea57 e BioCyc33. La reversibilità della reazione è stata corretta sulla base dei database BioCyc e bigg58. MetaNetX IDs sono stati utilizzati anche per ottenere il numero CE per le reazioni corrispondenti., Poiché il database MetaNetX non ha le informazioni sul nome della reazione, il nome di ogni nuova reazione è stato ottenuto in base alla mappatura dell’ID di reazione nei database di KEGG, ModelSeed e BioCyc.

L’annotazione del compartimento delle nuove reazioni è stata perfezionata sulla base delle informazioni provenienti dai database UniProt36 e SGD32. L’annotazione del sottosistema è stata ottenuta in primo luogo da KEGG35 e, se non sono stati trovati sottosistemi, sono state utilizzate informazioni da BioCyc o Reactome34. Se la reazione non ha avuto relazioni geniche, abbiamo ipotizzato che si sia verificata nel citoplasma.,

Per tutti i metaboliti contenuti nelle reazioni appena aggiunte, i MetaNetX ID correlati sono stati ottenuti sulla base della reazione MetaNetX IDs. Se non disponibili, sono stati ottenuti mediante mappatura ID basata su ID KEGG o ID ChEBI. Una volta ottenuto il metabolita MetaNetX IDs, la carica, formula, KEGG IDs e ChEBI IDs sono stati ottenuti per il metabolita corrispondente sulla base di metaboliti annotazione in MetaNetX.,

Aggiornamento del modello da Yeast7 a Yeast8

In primo luogo, tutte le annotazioni riguardanti l’ID del metabolita ChEBI e l’ID di KEGG (Tabella supplementare 8) sono state corrette nell’ultima versione del GEM di consenso del lievito (versione 7.6) sulla base dell’annotazione del metabolita disponibile in KEGG e ChEBI59. Inoltre, sono stati aggiunti diversi geni dicee92631 che non erano inclusi nel lievito 7.6, come con tutti i geni relativi ai processi metabolici e al trasporto in SGD, BioCyc, Reactome, KEGG e UniProt. Le principali basi di dati utilizzate per la cura dei modelli sono riportate nella tabella complementare 9.,

Negli esperimenti Biolog, il ceppo S288c è stato coltivato su 190 fonti di carbonio, 95 fonti di azoto, 59 fonti di fosforo e 35 fonti di zolfo. Il risultato ha mostrato che S288c potrebbe crescere su 28 fonti di carbonio, 44 fonti di azoto, 48 fonti di fosforo e 19 fonti di zolfo. Sulla base di questi risultati sono state aggiunte nuove reazioni essenziali per rendere il modello in grado di predire la crescita sui substrati correlati., Nel frattempo, tutti i dati di metabolomics contenuti nel database YMDB (metabolites misurati) e l’ultima ricerca di metabolomics (Tabella supplementare 10) sono stati raccolti e confrontati con quello in GEMMA del lievito. È stata fornita un’annotazione standard per tutti questi metaboliti e una pipeline è stata progettata per aggiungere i metaboliti nella GEMMA senza portare nuovi metaboliti senza uscita. Le procedure dettagliate nella cura del modello sono disponibili nei Metodi supplementari.

Convalida del modello con varie fonti di dati sperimentali

Per confrontare la copertura dei metaboliti, è stato analizzato il database YMDB60., Ci sono 2024 metaboliti per il lievito, tra cui 871 sono stati misurati in S. cerevisiae. Per ciascun metabolita, sono stati assegnati ChEBI ID e KEGG ID, e sulla base di essi è stato abbinato il corrispondente MetaNetX ID. Per i metaboliti da Lievito7 e Lievito8, è stata ottenuta anche la MetaNetX ID di ciascun metabolita sulla base della mappatura ID.

La qualità del modello viene quindi valutata in base alla precisione (Eq. 1) e il coefficiente di correlazione di Matthews (MCC)61 (Eq. 2). La precisione varia da 0 (peggiore precisione) a 1 (migliore precisione)., MCC varia da -1 (disaccordo totale tra previsione e osservazione) a + 1 (previsione perfetta).

$${\mathrm{Precisione}} = \frac{{{\mathrm{TP}} + {\mathrm{TN}}}}{{{\mathrm{TP}} + {\mathrm{TN}} + {\mathrm{FT}} + {\mathrm{FN}}}}$$

(1)

condurre l’essenzialità del gene analisi, abbiamo utilizzato il gene essenziale elenco dal Lievito Cancellazione del Progetto, disponibile presso http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, che è stato generato da esperimenti utilizzando un terreno completo. Precisione e MCC sono stati calcolati come descritto sopra.,

La crescita aerobica e anaerobica simulata in condizioni di glucosio limitato e azoto limitato è stata confrontata con i dati di riferimento62. La seguente procedura è stata utilizzata per simulare la crescita di chemostat in condizioni di glucosio limitato. In primo luogo impostare il limite inferiore delle reazioni di assorbimento di glucosio e O2 utilizzando valori sperimentali. I flussi di assorbimento di glucosio e ossigeno sono negativi e pertanto i limiti inferiori sono fissati per rappresentare i tassi massimi di assorbimento. In secondo luogo massimizzare il tasso di crescita.,

Per quanto riguarda le condizioni di azoto limitato, poiché il contenuto proteico nella biomassa diminuisce drasticamente in condizioni di azoto limitato, la composizione della biomassa è stata ridimensionata in base alle condizioni di riferimento63, quindi impostare il limite inferiore misurato per le reazioni di assorbimento di NH3 e O2 utilizzando valori sperimentali e infine massimizzare il tasso di crescita.

Visualizzazione del Lievito8

Le mappe di yeast-GEM sono state disegnate per ogni sottosistema utilizzando cellDesigner 4.438 (Fig. 5). Gli script R interni sono stati utilizzati per produrre automaticamente la mappa di ciascun sottosistema in base a Yeast8., Successivamente, il layout del grafico è stato regolato manualmente in cellDesigner 4.4 per migliorarne la qualità e l’intera mappa del lievito in formato SBGN è stata trovata in https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

Generazione di ecYeast8

Il modello ecYeast8 è stato generato in base all’ultima versione di GECKO toolbox, disponibile suhttps://github.com/SysBioChalmers/GECKO. Per ogni reazione, l’algoritmo interroga tutti i valori kcat necessari dal database BRENDA 64, secondo l’annotazione genica e un insieme gerarchico di criteri, dando priorità alla specificità del substrato e dell’organismo.,ded a reazioni secondo:

$$- \frac{1}{{k_{{\mathrm{cat}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + e_{\mathrm{i}} = 0$$

(3)

$$0 \le e_{\mathrm{i}} \le \left$$

(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{cat}}}^{{\mathrm{ij}}} \cdot \left$$

(5)

dove vj rappresenta il flusso attraverso la reazione j, ei rappresenta la quantità di enzima stanziati per la reazione di j, Ei rappresenta la concentrazione totale di enzima io, e kcat, rappresenta il più alto numero di turnover disponibili per l’enzima io e la reazione j., La procedura dettagliata per generare ecYeast8 si trova nel materiale supplementare del documento GECKO26.

Simulazioni con ecYeast8

Per prevedere il tasso di crescita massimo sotto diverse fonti di carbonio e azoto utilizzando ecYeast8, è stata utilizzata la seguente procedura. In primo luogo eliminare eventuali vincoli per i relativi tassi di assorbimento delle fonti di carbonio e azoto. Successivamente, impostare supporti minimi costituiti dalle relative fonti di carbonio e azoto. Infine, simulare una massimizzazione del tasso di crescita, in cui il valore ottimale è fissato per la minimizzazione posteriore dell’utilizzo totale di proteine., Ciò fornisce una distribuzione parsimoniosa del flusso.

Per l’FVA comparativo tra il Lievito8 e un ecYeast8, il tasso di crescita massimo e i tassi di assorbimento ottimale del glucosio ottenuti con ecYeast8 sono utilizzati rispettivamente come valore fisso e limite superiore nel GEM originale al fine di effettuare un confronto equo della variabilità del flusso per lo stesso fenotipo di crescita.

I coefficienti di controllo del flusso (FCC) sono definiti come un rapporto tra una variazione relativa del flusso di interesse e una variazione relativa del corrispondente kcat di 0.,1%, che può essere descritto da:

dove vb e vup sono rispettivamente il flusso originale e i nuovi flussi quando il kcat è aumentato dello 0,1%.

Ri-annotazione del pan-genoma dal 1011 lievito genome-sequencing project

Per costruire il modello pan di lievito (panYeast8), l’ultima ricerca genomica di Peter et al ha consultato40. Nello studio di Peter, 1011 ceppi di lievito genomi erano stati sequenziati e analizzati. Un pan-genoma è stato ottenuto da tutti questi ceppi, costituito da 6081 ORFs non ridondanti da S., genoma di riferimento di cerevisiae S288C e 1715 ORFs non di riferimento (nrORFs) dagli altri ceppi. Per il 7796 ORFs, un panID è stato dato per ciascuno di essi. In confronto, 4940 ORF sono conservati in tutti questi ceppi mentre 2846 ORF sono variabili in tutti questi ceppi. L’annotazione di 6081 ORFs non ridondanti può essere presa direttamente dall’ultima annotazione del genoma di S. cerevisiae S288C, mentre le reazioni gene–proteina-correlate (GPR) possono essere ottenute direttamente da Yeast8.

Come menzionato nell’articolo di Peter ci sono 774 NRORF con i geni ortolog da S. cerevisiae S288C genome40., L’analisi blast, insieme all’annotazione genica di KEGG web service35 e Zabaione web service65, sono stati impiegati per verificare e migliorare la relazione ortolog originale. Per valutare qualitativamente le relazioni geniche ortolog, l’analisi bi-direzionale blast hit (BBH) è stata ulteriormente condotta utilizzando Diamond66. Qui il miglior successo nell’analisi BBH con pidentity superiore all ‘ 80% è stato finalmente scelto e preparato per una formulazione panYeast8.

Per cercare ulteriormente nuove reazioni affidabili collegate a NRORF, sono stati utilizzati i risultati delle annotazioni di KEGG e del servizio Web zabaione., Secondo la richiesta di formato per i due servizi web, i file protein fasta di pan-genome sono stati caricati su KEGG (https://www.genome.jp/tools/kaas/) e zabaione (http://eggnogdb.embl.de/#/app/emapper). Per l’annotazione KEGG, è stato utilizzato un metodo di assegnazione BBH (bi-directional best hit) con i parametri predefiniti. Per l’annotazione zabaione, è stato utilizzato l’HMMER con i parametri predefiniti. Nell’annotazione dello zabaione, ogni proteina verrà mappata su KO ID e BiGG reaction ID mentre per l’annotazione di KEGG, ad ogni proteina verrà assegnato un ID KO univoco., Quindi se l’ID KO per una proteina è diverso tra KEGG e zabaione, allora l’ID KO dato da KEGG sarà preferito nell’ulteriore analisi. Se l’ID KO è stato dato per una proteina da zabaione, ma non in KEGG, allora questa annotazione verrà utilizzata anche per l’annotazione pan-genoma. Quando vengono ottenuti gli ID KO, gli elenchi di KOS da NRORF vengono confrontati con gli ORF di riferimento. Nuovi ID KO per i NRORF sono stati successivamente estratti. In seguito a ciò, rxnID è stato ottenuto sulla base della mappatura KO-rxnID dal database di KEGG.,

Generazione di panYeast8, coreYeast8 e ceppo specifico Gemme

Per ortholog geni (ad esempio, il gene C) ottenuto da pan-annotazione del genoma, possono essere uniti in base al gene di riferimento (ad esempio, Un gene) funzione nel modello originale, secondo le seguenti regole: (1) se A o B catalizzare lo stesso isoenzima, il GPR regola potrebbe essere cambiato in ” A o B o C’ in panYeast8; (2) se A e B appartengono a un complesso, il GPR regola dovrebbe essere aggiornato “A e B” in ” (A e B) o (C e B)”. In secondo luogo, 51 nuove reazioni con 13 nuovi geni sono state fuse in panYeast8., Per quanto riguarda l’identità dei geni nel modello, al fine di ridurre il caos, sono stati mantenuti gli ID genici originali e i nomi genici del lievito Originale8, mentre per i geni appena aggiunti, i panIDi definiti nell’opera di Peter 9 sono stati utilizzati per rappresentare il nome del gene.

Geni collassati in pan-genoma, ma potrebbe essere trovato in GEMMA lievito, e saranno sostituiti con i corrispondenti geni ortolog definiti in pan-genoma. Gli SSGEM per i ceppi 1011 sono stati ricostruiti sulla base di panYeast8 insieme alla lista dei geni specifici dei ceppi correlati (Fig. 6 bis)., Una funzione Matlab è stata sviluppata per generare automaticamente modelli specifici di deformazione. Sulla base delle attuali informazioni sull’esistenza del gene, se manca un gene da un complesso, la reazione viene rimossa; e se manca un gene da due isoenzimi, la reazione verrà mantenuta, anche se il GPRs verrà aggiornato per rimuovere il gene mancante. Dopo la ricostruzione di 1011 ssGEMs, coreYeast8 è stato generato basato sulle reazioni, sui geni e sui metaboliti comuni attraverso 1011 ssGEMs.,

Classificazione dei ceppi basata su PCA, decision tree e cluster analysis

L’analisi gerarchica dei cluster basata sull’esistenza della reazione in ssGEMs per i ceppi di lievito si basa su R package d dendextend (https://CRAN.R-project.org/package = dendextend). Per l’analisi PCA di ceppi basati gene (o reazione) esistenza in ssGEMs, R funzione-prcomp è stato utilizzato in questo articolo. La classificazione ad albero decisionale dei ceppi in base al tasso di crescita massimo su diverse fonti di carbonio è stata effettuata utilizzando il pacchetto R r rpart (https://cran.r-project.org/web/packages/rpart/)., Per l’ottimizzazione degli iperparametri, sono stati utilizzati due pacchetti R: ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) e mlr (https://CRAN.R-project.org/package=mlr).

Protein structure collection for proYeast8DB

Per stabilire i modelli di struttura della proteina 3D per tutti i geni della GEMMA del lievito (e alcuni geni metabolici non inclusi nel lievito attuale8), tutte le strutture proteiche di S. cerevisiae S288C dal database SWISS-MODEL 67 (https://Swissmodel.expasy.org) sono state scaricate il 20 luglio 2018., Il numero totale è di circa 20332 file PDB compresi i 8109 file PDB di omologia di modellazione (PDB_homo) e 12223 file PDB sperimentali (PDB_ex). Nel frattempo tutti i PDB_ex di S. cerevisiae S288C memorizzati nel database RCSB PDB54 sono stati ulteriormente scaricati. Sono state scaricate anche le sequenze proteiche contenute in ciascun PDB_ex. Le due fonti di cui sopra di file PDB sono stati uniti per ottenere il database completo di file PDB per S. cerevisiae S288C. Con la lista metabolica gene di S. cerevisiae S288C per interrogare database di file PDB, la maggior parte dei geni, con l’eccezione di circa 217 proteine (in Yeast8.,3) potrebbe essere trovato nei relativi file PDB. Per colmare questa lacuna, il servizio web modello SVIZZERO è stato ulteriormente utilizzato per costruire il PDB_homo per 217 proteine. Di conseguenza, ciascuna delle proteine metaboliche potrebbe avere almeno un file PDB. Tutte le annotazioni originali delle proteine, come la sequenza dei residui e la lunghezza delle proteine, sono state scaricate dal database SGD.

Una volta raccolti i file PDB, i parametri dei PDB sono stati estratti e calcolati per l’analisi della qualità., Per quanto riguarda il PDB_homo, sono stati ottenuti i parametri predefiniti dall’ftp del database del modello SVIZZERO, e inclusi l’ID UniProt della proteina, la lunghezza della proteina, il relativo ID PDB (collegato a chainID), le fonti di struttura, le coordinate dei residui di proteine coperti da strutture PDB, la copertura, la risoluzione e QMEAN., Per quanto riguarda PDB_homo, oltre ai parametri predefiniti di cui sopra dal database SWISS-MODEL, un numero maggiore di parametri è stato ottenuto analizzando i file PDB_homo atom forniti dal modello SVIZZERO con uno script python interno, che includeva i metodi utilizzati per ottenere i file PDB, il modello del modello, lo stato della proteina oliga, GMQE, QMN4, sequence identity (SID) e sequence similarity (SIM). In sintesi, ogni PDB_homo contiene 18 parametri per ulteriori analisi della qualità del PDB.

Alcuni dei parametri PDB_ex, come copertura e ID modello possono essere trovati anche dal database SWISS-MODEL., Gli altri parametri importanti come la risoluzione, i ligandi e lo stato oliga sono stati ottenuti analizzando i file PDB_ex dal database RCSB PDB usando (https://github.com/williamgilpin/pypdb). Il chainID per ogni PDB_ex è stato scaricato dal database sift68.

Analisi della qualità della struttura 3D della proteina

Poiché una proteina potrebbe essere collegata a diversi file PDB in diversi livelli di qualità, è essenziale filtrare il PDB di bassa qualità. In questo lavoro, principalmente quattro parametri di importazione, che sono sequence identity (SI), sequence similarity (SS), resolution e QMEAN, sono stati utilizzati per classificare il PDB_homo., Usando una semplice distribuzione normale per descrivere tutti questi parametri di PDB_homo, è possibile eseguire un test del punteggio Z per calcolare il valore di soglia per il valore P impostato su 0.1. Il valore di cut-off dell’identità di sequenza, la somiglianza di sequenza, la risoluzione e QMEAN sono rispettivamente 17.58, 0.25, 3.8 Å e -6.98. Come indicato nel database del modello SVIZZERO, tuttavia, un PDB_homo con QMEAN inferiore a -4 è di bassa qualità. Per garantire PDB_homo di qualità superiore in questo lavoro, i parametri critici vengono ripristinati come segue: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31 e Resolution ≤ 3.4 Å.,

Per verificare se esiste una lacuna nei file PDB_ex, sono state scaricate tutte le sequenze di residui dai database PDB per ogni catena di un file PDB. In alcuni punti, tuttavia, le sequenze di residui fornite dai database PDB non erano coerenti con le sequenze di residui contenute nella struttura. Per risolvere questo problema, è stato utilizzato un Biopython package69 per ottenere sequenze di residui per ogni catena di un file PDB. Successivamente, tutte le sequenze di residui sono state fatte saltare con sequenze proteiche originali per S., cerevisiae S288C di SGD con l’aiuto di Diamond66 per verificare se esistessero lacune (disallineamenti o mutazioni) nelle sequenze di residui di PDB_ex rispetto alle sequenze di residui originali. Il PDB_ex è stato scelto con le soglie: pidentity = 100 e risoluzione ≤ 3.4 Å; altrimenti verrà utilizzato un PDB_homo dalla banca dati SWISS-MODEL.

Stabilire relazioni di dominio proteico, gene, proteina e reazioni (dGRPs)

In questo lavoro, il database Pfam32.070 (https://pfam.xfam.org/) è stato utilizzato principalmente per annotare le informazioni di dominio delle proteine da S., cerevisiae S288C. Se una struttura copriva tutti i residui di un dato dominio, veniva assegnata proprio a quel dominio. Per ciascun dominio sono state riassunte le coordinate di inizio e fine, il nome, la descrizione della funzione del dominio, il tipo di dominio, e_value, il relativo ID PDB e l’ID della proteina. Secondo il GPRs di Yeast8, è possibile ottenere la relazione tra gene ID e reaction ID. A seguito di ciò, le informazioni sul dominio potrebbero essere collegate a ciascuna coppia di geni e reazioni in base alla mappatura ID.,

SNP collection and relative coordinates mapping

A partire dal file vcf fornito dal recente 1011 lieviti ceppi genomi sequencing projects40 il SNP omozigote dal file di dati massive (Fig. 10a) sono stati prima estratti. Gli SNP di bassa qualità totale con profondità <2.,0, mapping quality < 40, genotype quality < 30, e Genotype depth <5 sono stati filtrati sulla base di una serie di parametri standard secondo il Broad Institute Genome analysis Toolkit (GATK)71.

Dopo la filtrazione, è possibile ottenere l’affidabile SNP per ogni ceppo. I dati contengono inoltre il nome del ceppo di ogni SNP, il cromosoma, le coordinate, il ref e la base del nucleotide alt., Nella fase di annotazione, il tipo SNP e i nomi dei geni correlati sono stati ulteriormente annotati in base alle coordinate e alle informazioni di annotazione del genoma di riferimento di S. cerevisiae S. cerevisiae S288C (versione R64-1-1) da NCBI. Se l’SNP non si trovava sulla zona CDS del gene, è stato classificato come un tipo di ‘INTEGENIC’. Se non questa classificazione, è stato altrimenti dato un nome sistematico del gene, coerente con il formato del nome del gene in Yeast8., Sulla base delle informazioni di annotazione SNP di cui sopra sono stati scelti solo quelli appartenenti ai geni metabolici (elenco dei geni in Yeast8 e alcuni altri geni metabolici non contenuti in Yeast8 fino ad ora). Secondo le informazioni di annotazione SNP e le sequenze proteiche dei geni correlati, gli SNP sono classificati come SSNP (sinonymous single nucleotide polymorphism) e nsSNP (nonsynonymous single nucleotide polymorphism). Sono stati calcolati i numeri relativi di sSNPs e nsSNPs per ciascun gene, che è uguale al totale sSNPs o nsSNPs diviso per la lunghezza della proteina correlata.,

Prima di mappare, è necessario calcolare le coordinate dei residui mutati da ciascun nsSNP. In primo luogo, le coordinate relative dei residui mutati sulla sequenza proteica originale possono essere ottenute in base alle coordinate di nsSNP sul cromosoma. In seguito a ciò, in base alla mappatura delle coordinate tra le sequenze proteiche originali e le coordinate relative dei residui nella struttura delle proteine, le coordinate relative dei residui mutati nelle strutture proteiche possono essere stimate e utilizzate nel seguente calcolo.,

Metodo CLUMPS per calcolare i valori p dei file PDB arricchiti da mutazioni

Riferendosi al metodo di Kamburov45, un punteggio WAP per calcolare le distanze a coppie tra residui mutati per una struttura proteica 3D.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{d}},{\mathrm{r}}} {n_{\mathrm{d}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{q,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$

(7)

Dove dq,r in questo articolo è definito come la distanza Euclidea (in Å) tra α carboni di due residui mutati., t è definita come una soglia di distanza “morbida”, che equivale a 6 Å. nq e nr sono normalizzati numero di campioni contiene le mutazioni utilizzando il seguito sigmoidale Collina funzione:

$$n_{\mathrm{d}} = \frac{{N_{\mathrm{d}}^m}}{{\theta ^m + N_{\mathrm{d}}^m}}$$

(8)

Dove Nq è il numero di campioni con una mutazione missenso impatto residuo q di proteine e θ = 2 e m = 3 sono i parametri della Collina funzione di controllo del punto critico (al centro) e la pendenza della funzione sigmoidea, rispettivamente., La formula (2) è stata utilizzata per normalizzare il numero di campioni contenuti nelle mutazioni dei residui q e r, entrambe in grado di evitare l’impatto di residui mutati più frequenti nei campioni. Una descrizione dettagliata di ciascuna formula può essere trovata nell’articolo di Kamburov45.

Il metodo CLUMPS può essere diviso in quattro passaggi. In primo luogo, preparare le informazioni SNP necessarie e strutturare le informazioni di una proteina. In secondo luogo, con il numero di mutazione normalizzato che si verifica in posizioni specifiche, calcolare i punteggi WAP dei campioni., Successivamente, supponendo che la distribuzione uniforme delle mutazioni attraverso i residui proteici copra la struttura data, calcolare ogni punteggio WAP in 104 randomizzazioni per ottenere la distribuzione nulla. Durante il processo di campionamento, il numero di mutazione dei residui che si verificano in luoghi casuali è stato mantenuto lo stesso dei valori originali. Infine, calcolare il valore P della coda giusta nella distribuzione null per le strutture proteiche mutate date in base al punteggio WAP originale e a tutti i punteggi WAP campionati., Il valore P a coda destra è definito come il numero di campioni con punteggi WAP superiori al punteggio WAP originale, diviso per il numero totale di campioni.

Per le proteine con valore P inferiore a 0,05 da ceppi gruppo di “Bioetonale” e “Vino”, analisi GO-arricchimento utilizzando DAVID6.7 servizio web on-line72 è stata effettuata.

Analisi hotspot della mutazione nsSNP

La pipeline di analisi hotspot per il lievito si riferisce principalmente a Niu et al.’s work49. Tutte le informazioni SNP e struttura (simile al metodo di analisi CLUMPS’) sono stati preparati per un gruppo di ceppi con fenotipi specifici., Prima di effettuare l’analisi del cluster, i residui accoppiati mutati di significatività sono stati filtrati in base al riferimento49. Questi importanti residui accoppiati dovrebbero soddisfare i tre criteri seguenti: la distanza tra due residui dovrebbe essere inferiore a 10 Å per tutte le analisi dei cluster intramolecolari; i due residui dovrebbero essere separati da almeno 20 residui nella sequenza proteica originale; e un metodo di permutazione dovrebbe essere utilizzato per calcolare il valore P per ciascun residuo accoppiato (Eq. 9), con una soglia impostata a 0,05.,

P P\;{\mathrm{value}} = \frac{{n_1}}{{n_2}}

(9)

Dove n1 è il numero di residui accoppiati con la distanza minore di quella nei residui accoppiati di target e n2 è il numero totale di residui accoppiati.

Una volta ottenuti i residui accoppiati di significatività, i cluster costituiti da residui accoppiati sono stati ottenuti sulla base della teoria dei grafi non orientati, che è stata realizzata utilizzando la funzione ‘decompose.grafico ‘dal pacchetto R igraph (https://igraph.org/)., Per ogni cluster, la sua vicinanza può essere calcolata utilizzando la funzione di ‘ vicinanza.residuo ‘ dal pacchetto R entiserve73. Il principio dettagliato potrebbe essere trovato anche nella ricerca originale49. Come ultimo passaggio, quando è stato stimato un cluster, il valore P è stato calcolato in base alla pipeline di analisi dei CLUSTER in questo lavoro.

Funzione di predizione delle mutazioni

Test di crescita utilizzando Biolog con diverse fonti di substrato

Il sistema Phenotype MicroArray (PM) è stato utilizzato per testare la crescita su tutte le fonti di carbonio, azoto, fosforo e solforo74., Sono state testate 190 fonti di carbonio, 95 fonti di azoto, 95 fonti di fosforo e zolfo. Le procedure PM per S. cerevisiae S288C erano basate sul protocollo della versione Lievito del sistema PM.

Profilo di crescita in diversi media

Un totale di 14 fonti di carbonio e 23 fonti di azoto sono state combinate da esperimenti ortogonali. Ogni fonte di carbonio e fonte di azoto utilizzati nel mezzo erano la stessa C-mole e N−mole come glucosio (20 g L−1 glucosio) e solfato di ammonio (7,5 g L-1 (NH4)2SO4), rispettivamente. Per tutte le altre fonti di substrato, è stato utilizzato lo stesso mezzo minimo (14.,4 g L−1 KH2PO4, 0,5 g L−1 MgSO4∙7H2O, tracce di metallo e soluzioni vitaminiche) 75. I ceppi sono stati coltivati in piastre a 96 pozzetti e le prestazioni di crescita sono state determinate con Growth Profiler 960 (Enzyscreen BV, Heemstede, Paesi Bassi). Il tasso di crescita specifico massimo (µmax) è stato calcolato con il pacchetto R—growthhrates (https://github.com/tpetzoldt/growthrates).

Analisi statistica

Per il confronto di due gruppi in questo lavoro, è stato utilizzato un test di Wilcoxon rank sum a due code.,

Reporting summary

Ulteriori informazioni sul design della ricerca sono disponibili nel Reporting Summary di Nature Research collegato a questo articolo.