Interval de confiança
En estadística matemàtica, un interval de confiança d'un paràmetre poblacional (per exemple, la mitjana poblacional) és un interval numèric construït a partir d'una mostra, el qual conté aquest paràmetre amb determinada probabilitat (per exemple, el 95 %) que s'anomena el nivell de confiança.
El nivell de confiança desitjat és establert per l'investigador (no és determinat per les dades). És molt habitual utilitzar el nivell de confiança del 95%,[1] no obstant això, es poden utilitzar altres nivells de confiança, per exemple, el 90% o el 99%.
En contrast amb un estimador puntual d'un paràmetre, on es dona un únic nombre, en un interval de confiança, tal com hem dit, es proporciona tot un rang de nombres entre dos valors, i a més, es quantifica en termes probabilístics la confiança que es té en què aquest interval contindrà l'autèntic valor del paràmetre.
Quan es proporciona un interval de confiança es suposa que les dades poblacionals tenen determinades característiques, més o menys exigents; en els casos més habituals es suposa que ho fan mitjançant la distribució normal. La construcció d'intervals de confiança també es pot realitzar usant el teorema central del límit, la desigualtat de Txebixev, o altres tècniques.
Els intervals de confiança intervenen en pràcticament totes les àrees de l'estadística; en aquest article ens limitarem a considerar alguns dels casos més habituals, concretament, els intervals de confiança per a la mitjana d'una població normal amb desviació típica coneguda o no, i l'interval de confiança per a una proporció en una població de mida gran.
Exemple introductori. Estimació puntual i per interval de l'alçada de les dones d'un poble
modificaLes alçades de 10 dones de 18 anys d'un poble són les següents[2] (en cm): (Per claredat tipogràfica, en tot l'article escriurem els decimals de la forma 171'2 en lloc de 171,2). L'alçada mitjana és Però el que volem és estimar l'alçada mitjana de totes les dones de 18 anys, que designarem per , i no només la de les dones de la mostra. El nombre 165'88 és un estimador puntual d'aquesta mitjana , i normalment s'escriu Però, ¿estem segurs que ? ¿No podria ser que o que ? Aquests dubtes provenen del fet que hem preguntat a 10 dones, i per estar segurs de la mitjana de tota la població hauríem de preguntar a totes les dones! Però podem afinar més aquest resultat i quantificar la incertesa associada amb aquesta estimació. Per fer això, necessitem un model estadístic adient: suposarem que l'alçada de les dones de 18 anys d'aquell poble segueix una distribució normal de mitjana i desviació típica ; en altres paraules, l'alçada genèrica d'una dona de 18 anys es modelitza per una variable aleatòria . En mesurar les alçades de 10 dones tenim 10 variables aleatòries, que s'anomenen una mostra, Aquestes variables aleatòries són independents (suposem que la mostra s'ha triat a l'atzar) i cadascuna d'aquestes variables segueix la mateixa distribució que la genèrica: Els nombres concrets obtinguts, 166, 171'2, etc. s'anomenen una realització de la mostra.
En aquesta primera part suposarem que a partir d'estudis anteriors o per comparació amb dades similars, que la desviació típica és coneguda: .
Interval de confiança per a la mitjana
modificaVolem calcular un interval de confiança per a ; per concretar, començarem calculant un interval amb una confiança del 95% (equivalentment, en tant per u, una confiança de 0'95). Per tal d'escriure fórmules generals designarem la mida de la mostra per , i la mitjana mostral per Argumentarem més endavant que un interval amb confiança del 95% per s'obté per la fórmula En aquest exemple, tenim que l'interval és Es diu que (o confiança del 95%). Atès que , també s'escriu Cal entendre que la confiança la tenim en la fórmula (1), no en l'interval , això és, tenim la probabilitat és a dir, quan utilitzem la fórmula (1), el 95% de les vegades l'interval resultant contindrà l'autèntic valor de . Si, per exemple utilitzem la fórmula 20 vegades (en pobles de similars característiques), aleshores 19 intervals contindran l'autèntic valor de i 1 no el contindrà. (Per aquest motiu es diu que la feina d'estadístic és l'única en què ets pots equivocar el 5% de les vegades sense que et despatxin).
I si volem més confiança?
modificaRaonarem més endavant que si volem una confiança del 99%, aleshores a la fórmula (1) cal canviar 1'96 per 2'58, i per tant, la fórmula a utilitzar és A l'exemple, l'interval de confiança del 99% és Noteu que en augmentar la confiança també augmenta la llargada de l'interval, vegeu la figura 1. Per tant, com més confiança volem tenir, és a dir, com més segurs vulguem estar que l'interval que calculem conté l'autèntic valor del paràmetre desconegut, més llarg ens donarà l'interval. Pregunta al lector: ¿quin seria l'interval per tenir una confiança del 100%?
Formula general de l'interval de confiança per la mitjana d'una població normal amb desviació típica coneguda
modificaDonat un nivell de confiança , que habitualment és 0'9, 0'95 o 0'99 (s'expressa en tant per u; si es vol en tant per cent, es multiplica per 100), aleshores l'interval de confiança és on és el nombre tal que on és una variable aleatòria normal estàndard. Aquest nombre es troba en unes taules estadístiques o bé amb un full de càlcul (per exemple, l'excel) o un programari estadístic (per exemple, l'R). Pels casos més habituals tenim:
0,90 | 1,64485 |
0,95 | 1,95996 |
0,99 | 2,57583 |
La confiança, la llargada de l'interval i la mida de la mostra
modificaHi ha un factor que encara no hem tingut en compte i és la mida de la mostra ; en l'exemple que estem considerant hem pres per tal de treballar amb un nombre petit de dades, però, en general, les mides mostrals són més grans, ja que, d'acord amb la fórmula (3), en augmentar , disminueix la llargada de l'interval de confiança.
Així, en un interval de confiança hi ha tres ingredients:
- El nivell de confiança . Evidentment, com més gran sigui més confiarem que l'interval ens proporciona valors correctes per .
- La llargada de l'interval, que també s'anomena la precisió. És clar que com més petita sigui la llargada, millor.
- La mida de la mostra . Com més gran sigui, més precisió tindrem (més curt serà l'interval), però prendre una mostra és car, en temps o en diners.
L'ideal seria tenir la màxima confiança, la mínima llargada de l'interval i la mida de mostra petita, però tot alhora no pot ser: aquests tres ingredients és com si fossin els angles d'un triangle (vegeu la Figura 2): dos angles determinen el tercer: si volem molta confiança i molta precisió caldrà prendre una mida de mostra molt gran, que serà molt car! (<<Res és perfecte>>, sospirà la guineu...)
Demostració de la fórmula de l'interval de confiança
modificaPer simplificar les notacions veurem a demostració pel cas d'una confiança . De les propietats de les variables aleatòries normals es dedueix que
Normalitzant aquesta variable tenim D'altra banda, per a qualsevol variable , Llavors, d'on s'obté o equivalentment, expressió que també s'escriu
Interval de confiança per a la mitjana d'una població normal amb desviació típica desconeguda
modificaQuan la desviació típica de la població és desconeguda, aleshores es fa una estimació a partir de la mostra utilitzant la desviació típica mostral modificada Llavors, l'interval amb nivell de confiança és
on és el nombre tal que on és una variable aleatòria amb distribució de Student amb graus de llibertat.
En resum, si la desviació típica és desconeguda, aleshores per calcular l'interval de confiança per a fem dos canvis:
- Canviem la quantitat desconeguda per l'estimació .
- Canviem el valor de la fórmula (3) obtingut amb una llei normal estàndard pel valor calculat a partir d'una variable de Student amb graus de llibertat.
Tornem a l'exemple de les alçades
modificaSi a l'exemple de les alçades de les dones de 18 anys no suposem la desviació típica coneguda, aleshores l'estimem per , que dona Per calcular l'interval de confiança del 95% necessitem el valor corresponent a una de Student amb 9 graus de llibertat. Igual que el cas de la llei normal, aquest valor es troba en unes taules estadístiques o bé amb un full de càlcul o un programari estadístic. S'obté Llavors, l'interval és Cal notar que l'interval que hem calculat suposant la desviació típica coneguda tenia una longitud de 4'96 cm, mentre que aquest últim mesura 5'56 cm, i per tant és més llarg. Això és degut al fet que en estimar la desviació típica introduïm més incertesa en els càlculs.
Demostració de la fórmula de l'interval de confiança amb desviació típica desconeguda
modificaEl genial estadístic anglès R. A. Fisher va demostrar el 1923 que, sota les hipòtesis de normalitat que estem suposant, la variable aleatòria segueix una distribució de Student amb graus de llibertat.[3] Aleshores, donat un nivell de confiança , tal com dit, busquem el nombre tal que on és una variable aleatòria amb distribució de Student amb graus de llibertat. Llavors, tindrem Ara es procedeix exactament igual que en la demostració de l'interval de confiança amb desviació típica coneguda que hem vist abans i es dedueix la fórmula (4).
Interval de confiança per a una proporció (cas d'una població gran)
modificaExemple
modificaSegons dades del Centre d'Estudis d'Opinó [4] en una enquesta a 800 persones, entre 12 i 79 anys, a Catalunya realitzada a finals de 2018, 323 persones van dir que utilitzaven la bicicleta amb alguna freqüència (diàriament o esporàdicament). A la mostra, la proporció de gent que utilitza la bicicleta és
o, equivalentment, un 40'4% de la mostra. Però estem interessats en estimar la proporció en tota la població de Catalunya, no només a la mostra.
Fórmula de l'interval de confiança per una proporció
modificaConsiderem una població gran [5][6] (a l'exemple, <<persones de Catalunya entre 12 i 79 anys>>) en la qual una proporció (desconeguda) té determinada característica (a l'exemple, <<utilitza la bicicleta amb alguna freqüència>>). Volem estimar , i amb aquest objectiu prenem una mostra de mida , i designem per la proporció obtinguda en la mostra de mida.[7] Suposarem també que la mida de la població és gran. Per construir un interval de confiança per a , del Teorema central del límit es dedueix que, si la mida de la mostra és gran, llavors té una distribució aproximadament normal de mitjana i variància ; s'escriu Exactament igual que en el cas de l'interval de confiança per a la mitjana , es demostra que per un nivell de confiança l'interval de confiança per a és
on
on és una variable aleatòria normal estàndard. Però la fórmula (5) depén de , que és desconeguda, i llavors es substitueix per la seva estimació i s'obté Equivalentment, aquest interval també s'escriu Aplicat a l'exemple de la bicicleta, amb un nivell de confiança , tenim que l'interval és O, escrit d'una altra manera,
Una altra manera de calcular l'amplada de l'interval
modificaHem passat de la fórmula (5) a la fórmula (6) canviant la quantitat desconeguda per l'estimació . Un mètode diferent per resoldre la dificultat que a (5) intervé una quantitat desconeguda és basa en el fet que
Això es veu gràficament perquè la funció és una paràbola invertida amb el vèrtex al punt (0'5, 0'25). Vegeu la Figura 3. Aleshores, l'interval de confiança més llarg possible (el que tindrà menys precisió) serà el corresponent a , i l'interval de confiança serà O escrit d'una altra manera, Aquest interval és diu que és el més conservador, ja que el que pretén és ser molt prudent i intentar equivocar-nos el mínim possible. A l'exemple de la bicicleta, amb , aquest interval és . Aquest interval té una longitud 0'07, lleugerament més gran que l'anterior de 0'068. En aquest cas la diferència és petita perquè l'estimació és propera a 0'5.
Una recepta per a la mida de la mostra
modificaA l'Estadística hi ha fórmules per a calcular en diversos casos la mida de la mostra necessària per assolir una confiança i precisió donades. Com a exemple, veurem el cas de la proporció.
Suposem que volem una confiança del 95% i que l'interval tingui una llargada màxima de 0'05, és a dir, que l'error sigui com a màxim d'un 2.5 % en més o menys. D'acord amb la fórmula (5), la llargada de l'interval és Atès que volem que la llargada de l'interval sigui 0'05, tenim Aïllant , Ara, tal com hem fet a l'apartat anterior, ens posem en el pitjor dels casos, on , d'on i, per tant, hem de prendre
Referències
modifica- ↑ Zar, J.H. (1984) Biostatistical Analysis. Prentice-Hall International, New Jersey, pp 43–45.
- ↑ Dades simulades a partir de la informació de l'article «millennialsgrowth2017CAT.pdf». [Consulta: 30 juny 2020].
- ↑ Degroot, M. H. (1988) Probabilidad y estadística. Addison-Wesley Iberoamericana, México, cap. 7.
- ↑ «Barómetre de la bicileta. 2019». [Consulta: 13 octubre 2020].
- ↑ En cas de poblacions petites cal utilitzar altres fórmules per als intervals de confiança
- ↑ Com en tota l'estadística, població s'entén en sentit ampli: persones, peces fabricades per una màquina, etc.
- ↑ El lector haurà notat la pràctica estadística habitual de designar un paràmetre de la població per una lletra, i una estimació a partir de la mostra per la mateixa lletra amb un accent circumflex