STATISTICA

Distribuzione di frequenza: è una tabella che mostra i valori che possono essere assunti da una variabile e la frequenza con la quale ogni valore è stato osservato. Se una variabile è continua o discreta con numerosi valori è opportuno raggruppare i valori in classi.

Frequenze cumulate assolute: sono la somma di tutte le frequenze assolute che si susseguono dalla prima all'ultima classe.

Frequenze cumulate relative: si ottengono dividendo le frequenze cumulate assolute per il totale delle osservazioni.

Frequenze retrocumulate relative: sono la somma delle frequenze assolute delle classi calcolate a partire dall'ultima fino alla prima.

Tabella di contingenza: ha lo scopo di classificare le unità statistiche contemporaneamente in base alle modalità di due variabili.

Rappresentazioni grafiche: nell'asse delle X si mette la variabile indipendente, mentre nell'asse delle Y la variabile indipendente.

Istogramma - consiste in un insieme di rettangoli con la base sull'asse orizzontale. Le aree di ciascun rettangolo sono proporzionali alle frequenze assolute delle classi.

Poligono di frequenza - è costituito da una linea spezzata che congiunge le frequenze di ogni classe nei loro punti centrali.

Curva di frequenza simmetrica: si presenta in tutti i casi in cui le modalità sono distribuite attorno ad un valore centrale che presenta frequenza massima. Se le frequenze equidistanti dal massimo diminuiscono simmetricamente ai due lati, tendendo a zero, si ha la curva normale o gaussiana. Quando una delle due estremità della campana è più lunga dell'altra la curva si definisce asimmetrica ascendente (se il massimo cade a destra) discendente ( se il massimo cade a sinistra).

Diagramma a barre: rappresentazione grafica di unità statistiche in categorie non numeriche: la lunghezza di ogni barra rappresenta il numero di osservazioni per categoria.

Diagramma lineare: utilizzato per descrivere l'andamento di un fenomeno variabile in un certo intervallo di tempo. I punti del grafico, che rappresentano i valori della grandezza in istanti successivi sono uniti da segmenti di retta.

Cartogramma: ha lo scopo di rappresentare l'intensità di un fenomeno così come è distribuito su un territorio.

Ideogramma: sono rappresentazioni di immagini che figurano un dato fenomeno, con dimensioni o numerosità più o meno elevata a seconda dell'intensità del fenomeno.

Diagramma a torta: sono rappresentazioni grafiche nelle quali un cerchio viene ripartito in tanti settori.

Diagramma di dispersione:sono usati per esprimere la relazione tra due misure rilevate nella stessa unità di osservazione.

Stereogramma: diagramma a tre dimensioni che utilizza figure solide per rappresentare i dati.

Rappresentazione sintetica dei dati

Media aritmetica: è sconsigliata per valori anomali (molto piccoli o molto grandi)

Media aritmetica ponderata: si ottiene moltiplicando tutte le modalità per il loro peso, poi sommandole e dividendo il risultato per la somma dei pesi.

Mediana: le modalità devono essere ordinate. Se le modalità sono in numero dispari la mediana è il valore centrale, mentre se sono pari la mediana è data dalla semisomma dei 2 valori centrali.

Moda: è il valore che si verifica con la massima frequenza. La si usa soprattutto quando i dati sono distribuiti in maniera asimmetrica (ci sono pochi dati con valori molto estremi). In un distribuzione si può o non avere alcuna moda o averne più di una (unimodale o bimodale).

Quantici, decili, percentili: dividono la distribuzione ordinata rispettivamente in 4, 10, 100 parti uguali.

Misure di dispersione: misura l'attitudine dei valori di un fenomeno a variare disponendosi intorno ad un valore medio.

Campo di variazione (range): è definito come la differenza tra l'osservazione più grande e quella più piccola. Ha però due svantaggi che sono 1) il fatto che aumenta con l'aumentare delle osservazioni 2) impiega soltanto le due osservazioni estreme e trascura le rimanenti.

Varianza: è la media dei quadrati degli scarti intorno alla media V=Σ(y-μ²)/(n-1) dove n-1 indica i gradi di libertà per la varianza.

Deviazione standard o scarto quadratico medio σ: è la radice quadrata della varianza. E' stata introdotta per ovviare il fatto che l'unità di misura della varianza è al quadrato.

Differenza interquartile: differenza tra il terzo e il primo interquartile.

Coefficiente di variazione: a differenza dei precedenti indici di dispersione (assoluti) questo è l'unico indice di dispersione relativo. Si calcola come rapporto tra la deviazione standard e la media aritmetica C_v=s/M. non ha unità di misura e quindi può essere usato per confrontare distribuzioni che hanno diversa unità di misura.

Probabilità: è la proporzione delle volte in cui si verifica un certo evento sul totale delle prove realizzate in una lunga serie casuale. La somma di tutte le probabilità di un certo evento dà l'unità. La forma di una distribuzione di probabilità continua è definita da una curva senza balzi, mentre per una variabile discontinua è definita per i valori puntuali della variabile.

Errore campionario: è dovuto al fatto che stiamo osservando solo una parte dell'intera popolazione. L'errore campionario diventa meno importante man mano che la dimensione del campione aumenta. Inoltre dipende dalla variabilità delle osservazioni. Se la variabilità è molto piccola, ci dobbiamo aspettare un errore molto piccolo e viceversa.

Distribuzione normale: è una distribuzione simmetrica teorica di una variabile continua. E' determinata da due quantità: la sua media μ e la sua deviazione standard σ. Il cambiamento di μ sposta l'intera curva verso sinistra o destra; mentre l'aumento di σ rende la curva più piatta e larga e viceversa. La distribuzione normale standardizzata ha media μ=0 e deviazione standard σ=1. Se si ha una curva non normale la si può normalizzare, cioè far diventare simmetrica. Per le curve asimmetriche a sinistra non esiste una regola fissa e si può procedere a tentativi. Per le curve simmetriche a destra si possono trasformare i valori della variabile x in logaritmi e la distribuzione corrispondente viene detta log normale.

Distribuzione di t: al contrario della distribuzione normale non viene usata per descrivere la distribuzione dei dati osservati, ma per calcolare intervalli di confidenza ed eseguire test di significatività quando la numerosità del campione è piccola (n<30 unità).

Regressione lineare: esprime la relazione tra due variabili in termini funzionali in modo da poter prevedere di quanto varia in media l'una al variare dell'altra. La funzione di regressione può essere rappresentata da una retta interpolante i punti del diagramma di dispersione. Il metodo di interpolazione è detto metodo dei minimi quadrati perché minimizza la somma dei quadrati degli scarti tra valori osservati e valori predetti. L'equazione della retta di regressione è Y=a+bX dove b è il coefficiente angolare o coefficiente di regressione e indica la variazione media della variabile dipendente per unità di variazione della variabile indipendente.

Correlazione: effettua una valutazione quantitativa del grado con cui due variabili tendono ad essere associate. Il coefficiente di correlazione lineare o di Pearson e misura il grado di associazione lineare tra due variabili dipendenti. Il suo valore è compreso tra -1 e +1. quando tra le due variabili non vi è correlazione lineare r sarà uguale a 0. il quadrato del coefficiente di correlazione è chiamato coefficiente di determinazione lineare.

Stima: quando si utilizza una statistica calcolata sul campione per approssimare il corrispondente parametro della popolazione. Stima puntuale: se si stima il parametro di una popolazione in un punto. Stima intervallare: se viene individuato un intervallo di valori e la probabilità che l'intervallo comprenda il parametro incognito. L'intervallo si chiama intervallo di confidenza e la probabilità si chiama livello di confidenza. L'intervallo di confidenza fornisce quindi i limiti entro cui è compreso il parametro da stimare con un certo grado di certezza rappresentato dal livello di confidenza.

Test di ipotesi: Il test di ipotesi è uno strumento operativo che consente di decidere se rifiutare o no l'ipotesi nulla: ogni statistica-test ha una sua distribuzione di probabilità (gaussiana, t di Student, chi-quadro). Nell'inferenza statistica si possono fare 2 tipi di errore: 1) errore α se si rifiuta l'ipotesi nulla quando vera 2) errore β se si accetta l'ipotesi nulla quando falsa. La probabilità dell'errore di tipo α è detta livello di significatività del test e varia tra 0,05 e 0,01.

<0,01 molto significativo 0,01 significativo 0,05 poco significativo

(ipotesi nulla falsa)

Sensibilità:proporzione di persone realmente malate nella popolazione sottoposta a screening che vengono identificate come tali dal test di screening.

Specificità: proporzione di persone realmente sane che vengono identificate come tali dal test di screening.

Privacy

Articolo informazione

Hits: 3831
Apprezzato:

Commentare questo articolo:

Non sei registrato
Devi essere registrato per commentare
ISCRIVITI

E 'stato utile?

Copiare il codice
nella pagina web del tuo sito.