Akaike Information Criterion (Italiano)

Discussione

La routine di fitting BMDP fornisce valori accurati (di solito entro il 6%) sia per le costanti di tempo che per le ampiezze relative delle distribuzioni a tre componenti, a condizione che il componente intermedio rappresenti almeno il 4-5% dei 1500 punti dati. Sebbene le stime individuali per una piccola componente intermedia mostrino una notevole dispersione, i valori medi sono ancora entro il 6% di quelli reali.,

Una parte della variabilità nei singoli attacchi può derivare da incongruenze inerenti ai dati simulati. A Ai = 5%, la componente intermedia consisteva di soli 75 punti su 1500. Poiché la deviazione standard per una distribuzione esponenziale è uguale alla sua media, 75 punti non sono in realtà una dimensione del campione adeguata per una distribuzione esponenziale. Sebbene i valori montati generati dalla routine BMDP a volte deviassero dai mezzi, i valori montati producevano costantemente probabilità più elevate rispetto ai valori medi, come determinato dal calcolo indipendente della funzione di verosimiglianza., Questo risultato indica che la routine funzionava correttamente convergendo a quei valori che massimizzavano la probabilità.

Un problema associato al montaggio di distribuzioni che sono le somme di esponenziali è determinare il numero di componenti necessari per descrivere i dati. Ad esempio, una funzione di densità di probabilità a due componenti può apparire adeguata per il montaggio di una distribuzione a tre componenti in cui un componente intermedio è solo il 3-4% dei punti dati., La determinazione visiva della bontà dell’adattamento e del numero di componenti richiesti non è sempre soddisfacente e può produrre incongruenze nell’analisi dei dati.

Sono stati proposti diversi test per confrontare la bontà di adattamento di diversi modelli e determinare il numero di componenti necessari per descrivere una distribuzione. Questi test si basano sul log likelihood ratio (LLR), o sul logaritmo del rapporto tra le probabilità massime ottenute adattandosi a diversi modelli, come quelli che prevedono distribuzioni a due contro tre componenti., Il LLR è uguale alla differenza tra le funzioni di perdita per i due si adatta.

Quando i modelli sono annidati, due volte l’LLR ha una distribuzione χ2 con numero di gradi di libertà pari al numero di parametri aggiuntivi del modello più complesso (4, 11). A 2 gradi di libertà, il test del rapporto di verosimiglianza favorisce un adattamento a tre componenti (con cinque parametri indipendenti) rispetto a un adattamento a due componenti (con tre parametri indipendenti) al livello di significatività 0,05 quando l’LLR è superiore a 3.,

Altri test per la bontà di adattamento includono termini che penalizzano un modello per complessità aggiuntiva. Il criterio di informazione Akaike (AIC) (12) afferma che il modello con l’AIC più basso è il modello migliore. AIC = – L + P, dove L è la massima probabilità di log e P è il numero di parametri indipendenti nel modello. Un adattamento a tre componenti sarebbe favorito su un adattamento a due componenti ogni volta che il LLR è più di 2.

Un metodo simile è stato proposto da Schwarz (13). Il criterio di Schwarz (SC) è – L + , dove N è il numero totale di tempi di permanenza., Quando N = 1500, un adattamento a tre componenti sarebbe selezionato su un adattamento a due componenti solo quando l’LLR differisce di oltre 7.3.

Per i dati simulati in cui l’Ia era del 5%, i rapporti di verosimiglianza per gli attacchi a due componenti rispetto a quelli a tre componenti erano in media di 9,2 ± 2,6 (±SD) per i cinque set di dati. Tutti e tre i test considerano questa una differenza significativa e indicano che il modello complesso è preferibile. Quando l’Ia era del 2%, i rapporti di verosimiglianza erano in media di 2,2 ± 1,8. Solo l’AIC favorirebbe la selezione del fit a tre componenti.,

I set di dati in cui Ai è stato assegnato valori intermedi del 3 o 4% sono stati testati anche per determinare se il programma BMDP è stato in grado di rilevare un terzo componente quando ha prodotto un miglioramento significativo in forma. Per i due set di dati contenenti tre componenti che si adattano solo come distribuzioni a due componenti, gli LLR erano 2.4 e 2.0. Solo l’AIC suggerirebbe che le LLR indicano differenze significative. In media, LLR per Ai = 4% era 6,0 ± 5,2 e LLR per Ai = 3% era 4,2 ± 2,6.,

Entrambi i test LLR e SC suggeriscono che il programma BMDP è stato in grado di risolvere un terzo componente nella distribuzione ogni volta che l’adattamento a tre componenti era un miglioramento significativo rispetto all’adattamento a due componenti. Per i set di dati in cui la routine di fitting a tre componenti produceva solo due costanti di tempo, la differenza tra i due fit non era significativa.

Naturalmente la valutazione qui descritta è veramente applicabile solo alle condizioni in cui il programma è stato testato. La precisione e la risoluzione del programma diminuiranno con un minor numero di punti dati., I dati simulati sono stati, tuttavia, progettati per fornire un test abbastanza rigoroso della routine di montaggio. Due delle costanti di tempo erano separate da un fattore di solo 5; tf era solo 5 volte tmin, il che significa che circa il 18% dei dati in questo componente era escluso dall’analisi; e ogni set di dati consisteva di soli 1500 punti, che è una dimensione del campione relativamente piccola ma realistica.

Alcune limitazioni dovrebbero essere tenute presenti, tuttavia, quando si confrontano i modelli cinetici sulla base degli attacchi eseguiti da questo programma., Sebbene le stime di massima verosimiglianza siano state parzialmente corrette per eventi mancati di durata inferiore a una certa tmin, i principali vincoli si applicano ancora all’interpretazione dei dati che contengono una componente estremamente veloce la cui costante di tempo non è molto maggiore di tmin.

Una potenziale fonte di bias non presa in considerazione qui è l’errore di promozione del campionamento che si verifica quando la frequenza di campionamento analogico-digitale utilizzata dal computer è paragonabile alla durata dell’evento (6, 14)., Il campionamento dei dati a intervalli discreti ha l’effetto di combinare i dati in contenitori, poiché i tempi di permanenza possono essere espressi solo come multipli dell’intervallo di campionamento. Questi contenitori si sovrappongono e la durata effettiva di un evento misurata come intervalli di campionamento T può essere in realtà da – 1 a T + 1 intervalli. Ad esempio, un intervallo di campionamento di 50 µsec / punto significa che i tempi di permanenza che appaiono come 100 µsec di durata possono effettivamente essere lunghi da 50 a 150 µsec. Il numero di tempi di permanenza misurati in ciascun bidone sarà quindi maggiore del numero reale, o sarà promosso., Questo effetto è più significativo quando il periodo di campionamento è una frazione significativa della costante di tempo della distribuzione.

McManus et al. (6) hanno fornito espressioni esplicite per correggere la probabilità di errori di promozione del campionamento (cfr.anche Rif. 14). Concludono che gli errori nella stima della massima verosimiglianza delle costanti di tempo per somme di esponenziali diventerebbero significativi solo se il periodo di campionamento fosse maggiore del 10-20% della costante di tempo più veloce della distribuzione. I metodi qui presentati non incorporano correzioni per gli errori di promozione del campionamento.,

Un altro tipo di errore non menzionato in precedenza è prodotto da eventi che passano inosservati perché sono più veloci di tmin. I tempi di chiusura mancati causano aperture dei canali troppo lunghe perché due eventi di apertura adiacenti appaiono come un singolo evento lungo. Allo stesso modo, le aperture mancate causano misurazioni erroneamente lunghe di durate chiuse perché due volte chiuse adiacenti appaiono come un singolo tempo chiuso lungo. La correzione per tali eventi mancati dipende dal modello e può diventare piuttosto complessa (15, 16)., La correzione dipende dal numero di percorsi attraverso i quali il canale può subire transizioni da uno stato all’altro e dalle grandezze relative delle costanti di velocità per la transizione tra stati. La mancata correzione di tali eventi mancati può introdurre errori sostanziali nelle stime per le costanti di tasso tra stati.

A condizione che queste limitazioni siano considerate, la routine di fitting BMDP fornisce un metodo conveniente per generare costanti di tempo e ampiezze relative di distribuzioni di tempo di sosta a canale singolo.

Share

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *