Um consenso de S. cerevisiae modelo metabólico Yeast8 e seu ecossistema de forma abrangente sondagem metabolismo celular

Acompanhamento de mudanças do modelo com controle de versão

o Git e o GitHub foram usadas para desenvolver o fermento-GEM em uma forma rastreável. Git é usado para rastrear quaisquer alterações de fermento-GEM, que são armazenados online em um repositório GitHub (Supplementary Fig. 1)., A estrutura do repositório de leveduras-gemas no GitHub contém os seguintes três diretórios principais:

(1) ComplementaryData, que contém a anotação da base de dados relacionada e dados fisiológicos utilizados para atualizações de leveduras-gemas. Estes dados são geralmente armazenados como um valor separado por tabulações (.tsv) formato para o acompanhamento mais fácil das alterações; (2) ComplementaryScripts, que contém todos os scripts usados para atualizar o fermento-GEM; (3) ModelFiles, que contém diferentes formatos de fermento-GEM para várias aplicações. O.txt and.,os formatos YML (YAML) tornam conveniente visualizar quaisquer alterações nos clientes locais do GitHub ou do Git. O.o formato xml (SBML) faz com que seja fácil importar o modelo através de diferentes caixas de ferramentas e linguagens de programação.

Como um passo padrão, um commit é necessário ao atualizar levedura-gema. Para tornar os commits fáceis de entender, são usadas mensagens semânticas de commit (Fig. suplementar. 1c). Para permitir o desenvolvimento de modelos paralelos, são utilizados diferentes ramos de fermento-gema, incluindo um ramo “mestre” e um ramo “devel” (desenvolvimento)., Os desenvolvedores, e até mesmo outras pessoas da comunidade, podem criar novos ramos do ramo de desenvolvimento para introduzir suas mudanças, e, em seguida, pedir para fundi-los de volta através de pull-requests. Estas mudanças só são fundidas para o ramo de desenvolvimento, e por sua vez as mudanças no ramo de desenvolvimento são fundidas periodicamente para o ramo mestre, que contém as versões estáveis do modelo.,os procedimentos gerais utilizados para normalizar a anotação de metabolitos e reacções

para as novas reacções adicionadas, as suas identificações MetaNetX foram obtidas de acordo com uma pesquisa directa na base de dados MetaNetX56 utilizando o nome do metabolito ou a informação relativa ao número CE. Os IDs MetaNetX também foram obtidos por mapeamento de ID de reação a partir das bases de dados KEGG35, Rhea57 e BioCyc33. A reversibilidade da reação foi corrigida com base nas bases de dados Biocic e Bigg58. Foram também utilizados IDs MetaNetX para obter o número CE para as reacções correspondentes., Como a base de dados MetaNetX não tem a informação do nome da reação, o nome de cada nova reação foi obtido com base no mapeamento ID da reação em bases de dados de KEGG, ModelSeed e BioCyc.a anotação de novas reacções no compartimento foi refinada com base em informações das bases de dados UniProt36 e SGD32. A anotação do subsistema foi obtida primeiramente a partir de KEGG35, e se não foram encontrados subsistemas lá, foram usadas informações de BioCyc ou Reactome34. Se a reacção não teve relações genéticas, assumimos que ocorreu no citoplasma.,

para todos os metabolitos contidos em reacções recém-adicionadas, as identificações MetaNetX relacionadas foram obtidas com base nas identificações MetaNetX da reacção. Se não estiverem disponíveis, foram obtidos por mapeamento ID baseado em IDs KEGG ou IDs ChEBI. Uma vez obtido o metabolito MetaNetX IDs, obtiveram-se a carga, a fórmula, as identidades KEGG e as identidades ChEBI para o metabolito correspondente com base na anotação dos metabolitos no MetaNetX.,

o Modelo de atualização de Yeast7 para Yeast8

em Primeiro lugar, todas as anotações sobre metabólito ChEBI Identificações e KEGG (Identificações Complementares Tabela 8) foram corrigidos na versão mais recente do consenso de GEMA de levedura (versão 7.6), com base no metabólito anotação disponíveis no KEGG e ChEBI59. Além disso, vários genes de iSce92631 que não foram incluídos na levedura 7.6 foram adicionados, como com todos os genes relacionados com o metabolismo e transporte em SGD, BioCyc, Reactome, KEGG e UniProt. As principais bases de dados utilizadas para a Curação de modelos encontram-se no quadro complementar 9.,nas experiências Biolog, a estirpe S288c foi cultivada em 190 fontes de carbono, 95 fontes de azoto, 59 fontes de fósforo e 35 fontes de enxofre. O resultado mostrou que o S288c poderia crescer em 28 fontes de carbono, 44 fontes de nitrogênio, 48 fontes de fósforo e 19 fontes de enxofre. Com base nestes resultados foram adicionadas novas reações essenciais para tornar o modelo capaz de prever o crescimento nos substratos relacionados., Entretanto, todos os dados metabolómicos contidos na base de dados YMDB (metabolitos medidos) e na última investigação Metabolómica (tabela suplementar 10) foram recolhidos e comparados com os dados contidos na gema de levedura. Foi dada uma anotação padrão para todos estes metabolitos e foi concebida uma conduta para adicionar os metabolitos na gema sem trazer quaisquer novos metabolitos sem saída. Os métodos complementares dispõem de procedimentos detalhados de Curação de modelos.

validação do modelo com diversas fontes de dados experimentais

para comparar a cobertura dos metabolitos, foi analisada a base de dados YMDB 60., Existem 2024 metabolitos para a levedura, dos quais 871 foram medidos na S. cerevisiae. Para cada metabolito, foi atribuído o ID de ChEBI e o ID de KEGG, e com base neles o ID de MetaNetX correspondente foi correspondido. Para os metabolitos do Yeast7 e do Yeast8, o ID MetaNetX de cada metabolito foi também obtido com base no mapeamento ID.

A qualidade do modelo é então avaliada com base na precisão (Eq. 1)e o coeficiente de correlação (MCC)61 (Eq. 2). A precisão varia de 0 (pior precisão) a 1 (melhor precisão)., A MCC varia entre -1 (desacordo total entre Previsão e observação) e + 1 (previsão perfeita).

$${\mathrm{Rigor}} = \frac{{{\mathrm{TP}} + {\mathrm{TN}}}}{{{\mathrm{TP}} + {\mathrm{TN}} + {\mathrm{FT}} + {\mathrm{FN}}}}$$
(1)

A conduta do gene essencialidade análise, foi utilizado o gene essencial lista de Levedura Exclusão do Projeto, disponível em: http://www-sequence.stanford.edu/group/yeast_deletion_project/downloads.html, que foi gerado a partir de experimentos usando um completo médio. A precisão e a MCC foram calculadas como descrito acima.,o crescimento aeróbico e anaeróbico simulado em condições limitadas à glucose e ao azoto foram comparados com o data62 de referência. Utilizou-se o procedimento seguinte para simular o crescimento do quimiostato em condições limitadas de glucose. Em primeiro lugar, definir o limite inferior das reacções de absorção de glucose e O2 utilizando valores experimentais. Os fluxos de absorção de Glucose e oxigénio são negativos e, por conseguinte, os limites inferiores são fixados para representar as taxas máximas de absorção. Em segundo lugar, maximizar a taxa de crescimento.,

Como para o nitrogênio condições limitadas, desde que o teor de proteínas em biomassa cai drasticamente em nitrogênio condições limitadas, a biomassa composição foi redimensionado de acordo com a referência conditions63, em seguida, defina o limite inferior como medida para NH3 e O2 absorção de reações utilizando valores experimentais e, finalmente, maximizar a taxa de crescimento.

visualização do Yeast8

os mapas da gema-levedura foram desenhados para cada subsistema usando o cellDesigner 4.438 (Fig. suplementar. 5). Scripts R internos foram usados para produzir o mapa de cada sub-sistema automaticamente baseado em Yeast8., Posteriormente, o layout do grafo foi ajustado manualmente em cellDesigner 4.4 para melhorar a sua qualidade e todo o mapa de levedura em formato SBGN poderia ser encontrado em https://github.com/SysBioChalmers/Yeast-maps/tree/master/SBMLfiles.

Generation of ecYeast8

The ecYeast8 model was generated based on the latest release of the GECKO toolbox, available at https://github.com/SysBioChalmers/GECKO. Para cada reação, o algoritmo questiona todos os valores necessários do kcat a partir da base de dados BRENDA 64, De acordo com a anotação de genes e um conjunto hierárquico de critérios, dando prioridade à especificidade de substrato e organismo.,ded para reações de acordo com:

$$- \frac{1}{{k_{{\mathrm{cat}}}^{{\mathrm{ij}}}}}v_{\mathrm{j}} + e_{\mathrm{i}} = 0$$
(3)

$$0 \le e_{\mathrm{i}} \le \left$$
(4)

$$v_{\mathrm{j}} \le k_{{\mathrm{cat}}}^{{\mathrm{ij}}} \cdot \left$$
(5)

onde vj representa o fluxo através da reação j, ei representa a quantidade de enzima alocados para a reação j, Ei representa a concentração total de enzima eu, e kcat representa o maior volume de negócios número disponível para enzima eu e reação j., O procedimento detalhado para gerar ecYeast8 pode ser encontrado no material suplementar do GECKO paper26.

simulações com ecYeast8

para prever a taxa máxima de crescimento sob diferentes fontes de carbono e azoto utilizando ecYeast8, foi utilizado o procedimento seguinte. Em primeiro lugar, eliminar quaisquer restrições às respectivas taxas de absorção das fontes de carbono e azoto. Em seguida, definir meios mínimos constituídos pelas fontes de carbono e nitrogênio relacionadas. Por último, simular uma maximização da taxa de crescimento, através da qual o valor ideal é fixado para a minimização posterior da utilização total de proteínas., Isto fornece uma distribuição parsimonious do fluxo.para o FVA comparativo entre o Yeast8 e o ecYeast8, a taxa máxima de crescimento e as taxas óptimas de absorção de glucose obtidas com o ecYeast8 são utilizadas como valor fixo e limite superior, respectivamente, na GEM original, a fim de efectuar uma comparação equitativa da variabilidade do fluxo para o mesmo fenótipo de crescimento.os coeficientes de controlo de fluxos (CFC) são definidos como uma relação entre uma alteração relativa no fluxo de interesse e uma alteração relativa no correspondente kcat de 0.,1%, que pode ser descrito por:

onde vb e vup são o fluxo original e novos fluxos, respectivamente, quando o kcat é aumentada em 0,1%.

re-anotação do pan-genoma a partir do projecto de sequenciação do genoma da levedura de 1011

para construir o Modelo pan de levedura (panYeast8), a última investigação Genómica de Peter et al consultou40. No estudo de Peter, 1011 estirpes de levedura genomas tinham sido sequenciadas e analisadas. Foi obtido um pan-genoma de todas estas estirpes, constituído por 6081 ORFs não redundantes de S., genoma de referência cerevisiae S288C e ORFs Não-referência 1715 (nrORFs) das outras estirpes. Para os 7796 ORFs, um panID foi dado para cada um deles. Por comparação, 4940 ORFs são conservados em todas estas estirpes, enquanto 2846 ORFs são variáveis em todas estas estirpes. A anotação de 6081 ORFs não redundantes pode ser retirada diretamente da última anotação do genoma de S. cerevisiae S288C, enquanto que as reações genéticas-proteicas relacionadas (GPR) podem ser obtidas diretamente do Yeast8.tal como mencionado no artigo de Peter, existem 774 nrORFs com os genes ortolog de S. cerevisiae S288C genome40., A análise da explosão, juntamente com a anotação genética do Kegg web service35, e EggNOG web service65, foram empregados para verificar e melhorar a relação ortholog original. Para avaliar as relações do gene ortolog qualitativamente, a análise BBH (BBH) bidirecional foi realizada usando Diamond66. Aqui, o melhor êxito na análise BBH com uma densidade superior a 80% foi finalmente escolhido e preparado para uma formulação panYeast8.

para pesquisar novas reações confiáveis relacionadas com nrORFs, os resultados da anotação da KEGG e do serviço Web EggNOG foram usados., De acordo com o pedido de formato para os dois serviços web, os arquivos fasta proteína do pan-genoma foram enviados para KEGG (https://www.genome.jp/tools/kaas/) e EggNOG (http://eggnogdb.embl.de/#/app/emapper). Para a anotação do KEGG, foi usado um método de atribuição BBH (bidireccional melhor hit) com os parâmetros padrão. Para a anotação EggNOG, o HMMER com os parâmetros padrão foi usado. Na anotação EggNOG, cada proteína será mapeada para KO ID e BiGG reaction ID, enquanto para a anotação KEGG, cada proteína será dada uma única KO ID., Então, se o KO ID de uma proteína é diferente entre KEGG e EggNOG, então o KO ID dado por KEGG será preferido na análise posterior. Se o ID KO foi dado para uma proteína por EggNOG, mas não em KEGG, então esta anotação também será usada para a anotação pan-genoma. Quando os ids KO são obtidos, as listas de KOs de nrORFs são comparadas com os ORFs de referência. Foram posteriormente extraídos novos ids de KO para os nrORFs. Depois disso, o rxnID foi obtido com base no mapeamento KO-rxnID a partir da base de dados KEGG.,

Geração de panYeast8, coreYeast8 e a deformação específica Gemas

Para ortholog genes (e.g. gene C) obtido a partir do pan-de anotação de genoma, que pode ser mesclado com base no gene de referência (por exemplo, o gene A) função no modelo original de acordo com as seguintes regras: (1) se A ou B catalisar a mesma isoenzima, o GPR regra poderia ser alterado para “A ou B ou C’, em panYeast8; (2) se A e B pertencem a um complexo, o GPR regra deve ser atualizado a partir de ‘A e B’ para ‘(A e B) ou (C e B)’. Em segundo lugar, 51 novas reações com 13 novos genes foram fundidas em panYeast8., Quanto à identidade dos genes no modelo, a fim de reduzir o caos, as identificações dos genes originais e nomes dos genes do Yeast8 original foram mantidos, enquanto para os genes recém-adicionados, os panídeos definidos no trabalho de Peter 9 foram usados para representar o nome do gene.

genes colapsados no pan-genoma, mas podem ser encontrados na gema da levedura, e serão substituídos pelos correspondentes genes ortolog definidos no pan-genoma. ssGEMs para 1011 estirpes foram reconstruídas com base no panYeast8, juntamente com a lista de genes específicos das estirpes relacionadas (Figo suplementar. 6a)., Uma função Matlab foi desenvolvida para gerar modelos específicos de estirpe automaticamente. Com base na informação atual sobre a existência do gene, se um gene de um complexo está faltando, então a reação é removida; e se um gene de duas isoenzimas está faltando, então a reação será mantida, embora o GPRs será atualizado para remover o gene em falta. Após a reconstrução de 1011 ssGEMs, o coreYeast8 foi gerado com base em reações comuns, genes e metabolitos ao longo dos 1011 ssGEMs.,

classificação de estirpes com base na PCA, árvore de decisão e análise de aglomerado

a análise hierárquica de aglomerado com base na existência de reacção em ssGEMs para estirpes de levedura é baseada no pacote R–dendextend (https://CRAN.R-project.org/package = dendextend). Para a análise APC da existência de genes (ou de reacção) de estirpes em ssGEMs, a função R-prcomp foi utilizada neste artigo. A classificação das estirpes por árvore de decisão de acordo com a taxa máxima de crescimento em diferentes fontes de carbono foi realizada utilizando o pacote R–rpart (https://cran.r-project.org/web/packages/rpart/)., Para os hiperparâmetros tuning, R dois pacotes—ParamHelpers (https://CRAN.R-project.org/package = ParamHelpers) e mlr (https://CRAN.R-project.org/package=mlr) foram mais utilizados.

estrutura de Proteínas coleção para proYeast8DB

Para estabelecer a estrutura 3D de proteínas modelos para todos os genes de levedura GEM (e alguns metabólica genes não incluído no atual Yeast8), todas as estruturas de proteínas de S. cerevisiae S288C do SWISS-MODEL database67 (https://Swissmodel.expasy.org), em 20 de julho de 2018, foram baixados., O número total é de cerca de 20332 ficheiros PDB, incluindo os 8109 ficheiros PDB (PDB_homo) e 12223 ficheiros PDB (PDB_ex) experimentais. Enquanto isso, todos os PDB_ex de S. cerevisiae S288C armazenados na base de dados RCSB PDB54 foram baixados. As sequências de proteínas contidas em cada PDB_ex também foram baixadas. As duas fontes acima de ficheiros PDB foram fundidas para obter a base de dados completa de ficheiros PDB para S. cerevisiae S288C.com a lista de genes metabólicos de S. cerevisiae S288C para consultar a base de dados de ficheiros PDB, a maioria dos genes, com excepção de cerca de 217 proteínas (no Yeast8.,3) pode ser encontrado nos arquivos PDB relacionados. Para preencher esta lacuna, o serviço Web modelo suíço foi ainda usado para construir o PDB_homo para 217 proteínas. Como resultado, cada proteína metabólica pode ter pelo menos um arquivo PDB. Todas as anotações de proteínas originais, como a sequência de resíduos e o comprimento da proteína, foram baixadas da base de dados SGD.

Uma vez que os arquivos do PDB foram coletados, os parâmetros do PDBs foram extraídos e calculados para a análise da qualidade., Como para o PDB_homo, os parâmetros padrão do ftp do SUÍÇO-banco de dados do MODELO foram obtidos, e incluiu a proteína UniProt IDENTIFICAÇÃO, a proteína de comprimento, o PDB ID (conectado com chainID), a estrutura de fontes, as coordenadas de proteínas resíduos cobertos com PDB estruturas, a cobertura, a resolução, e QMEAN., Como para PDB_homo, além do acima parâmetros padrão SUIÇO-MODELO de banco de dados, um número maior de parâmetros foram obtidos pela análise de PDB_homo átomo arquivos fornecidos pelo SWISS-MODEL com um script python, que incluiu os métodos usados para obter os ficheiros PDB, o modelo, a proteína oliga estado, o GMQE, QMN4, seqüência de identidade (SID), e a sequência de similaridade (SIM). Em resumo, cada PDB_homo contém 18 parâmetros para uma análise mais aprofundada da Qualidade Do ao.

alguns dos parâmetros PDB_ex, como cobertura e ID de modelo também podem ser encontrados na base de dados SWISS-MODEL., Os outros parâmetros importantes como resolução, ligandos e oliga state foram obtidos por análise de arquivos PDB_ex a partir do banco de dados PDB RCSB PDB usando (https://github.com/williamgilpin/pypdb). O chainID para cada PDB_ex foi baixado da base de dados SIFTS68.

análise da qualidade da estrutura de proteína 3D

como uma proteína pode ser conectada com vários arquivos PDB em diferentes níveis de qualidade, é essencial filtrar o PDB de baixa qualidade. Neste trabalho, principalmente quatro parâmetros de importação, que são identidade de sequência (SI), similaridade de sequência (SS), resolução, e QMEAN, foram usados para classificar o PDB_homo., Usando uma distribuição normal simples para descrever todos estes parâmetros de PDB_homo, um teste de pontuação Z pode ser feito para calcular o valor limiar para o valor P definido em 0.1. O valor de corte da identidade da sequência, a similaridade da sequência, resolução e QMEAN são 17.58, 0.25, 3.8 Å e -6.98 respectivamente. Como indicado na base de dados SWISS-MODEL, No entanto, um PDB_homo com o QMEAN menor que -4 é de baixa qualidade. Para assegurar uma maior qualidade da PDB_homo neste trabalho, os parâmetros críticos são redefinidos do seguinte modo: QMEAN ≥ -4, SI ≥ 0.25, SS ≥ 0.31, e resolução ≤ 3.4 Å.,

A fim de verificar se existe uma lacuna nos ficheiros PDB_ex, todas as sequências de resíduos das bases de dados PDB para cada cadeia de um ficheiro PDB foram transferidas. Em alguns pontos, contudo, as sequências de resíduos fornecidas pelas bases de dados do PDB não eram consistentes com as sequências de resíduos contidas na estrutura. Para resolver este problema, uma biopython package69 foi usada para obter sequências de resíduos para cada cadeia de um arquivo PDB. Em seguida, todas as sequências de resíduos foram explodidas com sequências de proteínas originais para S., cerevisiae S288C da SGD com o auxílio de Diamond66, a fim de verificar se existiam lacunas (desfasamentos ou mutações) nas sequências de resíduos da PDB_ex quando comparadas com as sequências de resíduos originais. O PDB_ex foi escolhido com os limiares: identity = 100 e resolução ≤ 3.4 Å; caso contrário, será usado um PDB_homo de base de dados modelo suíço.neste trabalho, a base de dados Pfam32.0 (https://pfam.xfam.org/) foi usada principalmente para anotar a informação do domínio de proteínas de S., cerevisiae S288C. se uma estrutura cobria todos os resíduos de um determinado domínio, foi atribuída a esse mesmo domínio. Para cada domínio, as coordenadas de início e fim, o nome, a descrição da função de domínio, o tipo de domínio, e_value, o ID PDB relacionado, e o ID proteína, foram todos resumidos. De acordo com o GPRs do Yeast8, a relação entre o ID do gene e o ID da reação poderia ser obtida. Depois disso, a informação do domínio poderia ser conectada com cada par de genes e reação com base no mapeamento ID.,

SNP collection and relative coordinates mapping

Starting from the vcf file provided by the recent 1011 leveduras genomes sequencing projects 40 The homozygous SNP from the massive data file(Supplementary Fig. 10a) foram primeiramente extraídos. The SNPs of low total quality with depth being <2.,0, mapeamento de qualidade <40, o genótipo de qualidade < 30, e o Genótipo profundidade <5 foram filtrados com base em uma série de parâmetros padrão de acordo com o Amplo Instituto de análise do Genoma Toolkit (GATK)71.após filtração, pode obter-se um SNP fiável para cada estirpe. Os dados também contêm o nome da estirpe, cromossomo, coordenadas, ref e base nucleotídica alt de cada SNP., Na fase de anotação, o tipo SNP e os nomes dos genes relacionados foram ainda anotados com base nas coordenadas e na informação de anotação do genoma de referência de S. cerevisiae S. cerevisiae S288C (versão R64-1-1) do NCBI. Se o SNP não estava localizado na zona CDS do gene, foi classificado como um tipo de “INTEGENIC”. Caso contrário, foi-lhe dado um nome genético sistemático, consistente com o formato do nome genético no Yeast8., Com base na informação de anotação SNP acima, apenas foram escolhidos aqueles que pertencem aos genes metabólicos (lista de genes no Yeast8 e alguns outros genes metabólicos Não contidos no Yeast8 até agora). De acordo com a informação de anotação SNP e as sequências proteicas dos genes relacionados, os SNPs são classificados como o polimorfismo de nucleótidos único sinônimo e nssnp (polimorfismo de nucleótidos único não sinônimo). Os números relativos de sSNPs e nsSNPs para cada gene foram calculados, que é igual ao total de sSNPs ou nsSNPs dividido pelo relacionados com proteína de comprimento.,antes do mapeamento, é necessário calcular as coordenadas dos resíduos mutados de cada nsSNP. Em primeiro lugar, as coordenadas relativas dos resíduos mutados na sequência proteica original podem ser obtidas com base nas coordenadas do nsSNP no cromossoma. Seguindo isso, de acordo com o mapeamento de coordenadas entre as sequências proteicas originais e as coordenadas relativas de resíduos na estrutura proteica, as coordenadas relativas dos resíduos mutados nas estruturas proteicas podem ser estimadas e utilizadas no cálculo seguinte.,

método CLUMPS para calcular os valores p dos ficheiros PDB enriquecidos em mutação

referindo-se ao método de Kamburov45, uma pontuação WAP para calcular as distâncias emparelhadas entre os resíduos mutantes para uma estrutura proteína 3D.

$${\mathrm{WAP}} = \mathop {\sum}\nolimits_{{\mathrm{p}},{\mathrm{r}}} {n_{\mathrm{p}}n_{\mathrm{r}}e^{ – \frac{{d_{{\mathrm{p,r}}}^2}}{{2{\mathrm{t}}^2}}}}$$
(7)

Onde dq,r neste artigo é definida como a distância Euclidiana (em Å) entre carbonos α de dois resíduos mutados., t é definido como um limiar de distância “suave”, que é igual a 6 Å. nq e nr são normalizado número de amostras contém as mutações usando o seguido sigmoidal Hill função:

$$n_{\mathrm{p}} = \frac{{N_{\mathrm{p}}^m}}{{\theta ^m + N_{\mathrm{p}}^m}}$$
(8)

Onde Nq é o número de amostras com uma mutação missense impacto resíduo q da proteína e θ = 2 e m = 3 são parâmetros da Colina função de controlar o ponto crítico (centro) e inclinação da função sigmóide, respectivamente., A fórmula 2 foi utilizada para normalizar o número de amostras contido em mutações de resíduos q e r, ambas as quais podem evitar o impacto de resíduos mutados mais frequentes nas amostras. Uma descrição detalhada de cada fórmula pode ser encontrada no artigo 45 do Kamburov.

o método CLUMPS pode ser dividido em quatro etapas. Em primeiro lugar, preparar a informação necessária do SNP e estruturar a informação de uma proteína. Em segundo lugar, com o número normalizado de mutações a ocorrer em posições específicas, calcular as pontuações WAP das amostras., Em seguida, assumindo que a distribuição uniforme das mutações através dos resíduos de proteínas cobre a estrutura dada, calcular cada pontuação WAP em 104 aleatorizações para obter a distribuição nula. Durante o processo de amostragem, o número de mutações de resíduos que ocorrem em locais aleatórios manteve-se idêntico aos valores originais. Por último, calcular o valor de P de cauda direita na distribuição nula para as estruturas proteicas modificadas indicadas com base na pontuação WAP original e em todas as pontuações WAP amostradas., O valor p de cauda direita é definido como o número de amostras com pontuações WAP superiores à pontuação WAP original, dividido pelo número total de amostras.

para proteínas com valor P inferior a 0,05 do grupo de estirpes de “Bioetonal” e “vinho”, foi efectuada uma análise de enriquecimento de GO utilizando o DAVID6.7 on-line web service72.

Hotspot analysis of nsSNP mutation

the hotspot analysis pipeline for levedure refers mainly to Niu et al.é o trabalho 49. Todas as informações sobre o SNP e a estrutura (semelhantes ao método de análise da papeira) foram preparadas para um grupo de estirpes com fenótipos específicos., Antes de realizar a análise do agregado, os resíduos de significância com pares mutados foram filtrados de acordo com os referência49. Estas importante emparelhado resíduos deve atender a três critérios: a distância entre dois resíduos deve ser menor que 10 Å para todos os intramolecular clusters de análise; os dois resíduos devem ser separados por pelo menos 20 resíduos no original seqüência de proteína; e uma permutał c ao método deveria ser usado para calcular o valor de P para cada emparelhado resíduos (Eq. 9), com um limiar fixado em 0,05.,

$$P\;{\mathrm{valor}} = \frac{{n_1}}{{n_2}}$$
(9)

Onde n1 é o número de pares de resíduos com a distância menor do que na emparelhado resíduos de destino e n2 é o número total de pares de resíduos.uma vez que os resíduos emparelhados de significância foram obtidos, os aglomerados constituídos de resíduos emparelhados foram obtidos com base na teoria dos grafos não direcionada, que foi realizada usando a função “decompose”.graph ‘ from the R package igraph (https://igraph.org/)., Para cada aglomerado, a sua proximidade pode ser calculada utilizando a função de proximidade .residual ” da embalagem R entiserve73. O princípio detalhado também pode ser encontrado na pesquisa original49. Como o último passo, quando um cluster foi estimado, o valor P foi calculado com base no pipeline de análise CLUMPS neste trabalho.o sistema de MicroArray (PM) fenótipo foi utilizado para testar o crescimento em todas as fontes de carbono, azoto, fósforo e enxofre 74., Um total de 190 fontes de carbono, 95 fontes de nitrogênio, 95 fontes de fósforo e enxofre foram testados. Os procedimentos de partículas para a S. cerevisiae S288C basearam-se no protocolo da versão levedura do sistema de partículas.um total de 14 Fontes de carbono e 23 fontes de nitrogênio Foram combinadas por experimentos ortogonais. Todas as fontes de carbono e de azoto utilizadas no meio eram o mesmo mol-C e n−Mol que a glucose (20 g de glucose L−1) e o sulfato de amónio (7,5 g de L-1 (NH4)2SO4), respectivamente. Para todas as outras fontes de substrato, foi utilizado o mesmo meio mínimo (14.,4 G L−1 KH2PO4, 0,5 g L-1 MgSO4 7 7H2O, trace metal e soluções vitamínicas)75. As estirpes foram cultivadas em placas de 96 poços, e o desempenho de crescimento foi determinado com o perfil de crescimento 960 (Enzyscreen B. V., Heemstede, Países Baixos). A taxa máxima de crescimento específico (µmax) foi calculada com os crescimentos da embalagem R (https://github.com/tpetzoldt/growthrates).

análise estatística

para duas comparações de grupo neste trabalho, foi utilizado um teste de soma de Wilcoxon rank de duas caudas.,o resumo dos Relatórios de investigação sobre a natureza ligado a este artigo contém mais informações sobre a concepção da investigação.

Share

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *