Anar al web de l'Imim

Imima’t - Divulguem la ciència - IMIM Institut Municipal d’Investigació Mèdica


Bloc

Publicat per Joan Vila

Dilluns, 9 març 2009

Coneix l'IMIM

Com pot ajudar la estadística a la recerca?

Si s’utilitza correctament l’estadística pot donar resposta a moltes de les preguntes científiques.

Un procés simple

Es tracta de fer-se una pregunta, recollir dades de suficients individus i analitzar-les. Si les dades no diuen el que s’esperava, alegri-se’n: acaba de trobar una nova pregunta!

Un exemple senzill: suposem que es vol saber si a la província de Girona les dones es moren més que el homes quan fan un infart. Amb l’estudi REGICOR tenim dades dels infarts que hi ha hagut a Girona en els últims 30 anys. No hi ha dubte: quan es té un infart, les dones es moren més que els homes. La següent pregunta pot ser: Es moren més perquè tenen edats més avançades quan s’infarten, amb més diabetis o hipertensió (comorbiditat)? La resposta és: sí. Si interessa el tema de les desigualtats es podria preguntar: però quan es té la mateixa comorbiditat, segueixen morint-se més les dones? La resposta: s’haurà d’esperar a que ens publiquin l’article.

Modelitzar i analitzar la forma de les dades

La feina dels estadístics és modelitzar i analitzar dades. O com van dir en un curs: el camp de l’estadística no és saber qui genera les dades, d’això se’n ocupen altres ciències, sinó descobrir l’algoritme que ha fet servir per generar-les. Les dades prenen formes que ens ajuden a modelitzar-les. La figura 1-A mostra el número de milions d’espermatozous per ejaculació observat en un mostra de 2.519 individus considerats fèrtils. L’eix de l’esquerra ens indica quans individus hi ha de cadascun dels grups que defineixen la base dels rectangles de l’eix de “x”, on s’han agrupat els valors dels milions d’espermatozous de 100 en 100. Es pot veure que hi ha molt pocs individus que tinguin valors entre 0 i 100. La majoria d’individus tenen valors entre 100 i 500. A partir de 500 cada vegada hi ha menys individus. I n’hi ha alguns que treuen més de 2.000 milions d’espermatozous en una sola ejaculació. Podrien ser donants!

Les distribucions asimètriques són més difícils de modelitzar. A vegades n’hi prou amb una senzilla transformació logarítmica per dur les dades al terreny de la distribució normal (figura 1-B), on poques coses hi deuen quedar per conèixer.

Un altre exemple de les formes que prenen les dades. A la pàgina web de la Organització Mundial de la Salut hi ha dades sociosanitàries de quasi tots els països. A la figura 2 es mostren algunes d’aquestes dades d’alguns països europeus. En un pla es representen quatre dimensions:
1. Renda per càpita (eix de les “x”)
2. Nombre de metges per 10.000 habitants (eix de les “y”)
3. Esperança de vida al nàixer (la grandària de la bombolla)
4. Prevalença de VIH (els colors).

  • Algunes conclusions:
    1) Letònia té un renda per càpita molt baixa, molt pocs metges, la esperança de vida és de les més baixes i té una alta prevalença de VIH. No sembla un país recomanable per a traslladar-hi la residència.
    2) A partir d’una renta per càpita de 20.000$ l’esperança de vida és molt similar.  Fins a 30.000$ hi ha una clara relació amb entre la renda per càpita i el nombre de metges. Però els països amb renda més alta no són els que tenen més metges.
    3) No obstant, per descriure aquesta figura no sé si n’hi hauria prou amb mil paraules.

Modelitzar i analitzar les formes de les dades ha servit per trobar el capítol més probable en que Joanot Martorell va deixar d’escriure el Tirant Lo Blanch“. La idea és senzilla: un llibre és moltes coses, però també és una seqüència de paraules (de dades) que cada escriptor utilitza amb la seva pròpia freqüència.

Una nova ciència

En els últims anys hi ha hagut un canvi molt important: mai en la història de la humanitat s’havien recollit tantes dades sobre el que ens envolta com just ara mateix. Això ha coincidit en que mai com ara hem tingut màquines tan potents per analitzar-les. L’estadística de la era pre-informàtica (fa menys de 50 anys es trigava un any de paper i llapis per fer una tesi doctoral amb 3 factor-analysis) va posar les bases, però ha quedat totalment superada.

Hi ha dades de tot tipus: estan informatitzades les visites que es fan al metge de capçalera, els passatgers que entren i surten de les estacions, les altes hospitalàries, les tones de deixalles que diàriament aboca una ciutat, els resultats de les ressonàncies magnètiques, el lloc i l’hora que passen els accidents de trànsit o el recorregut que han fet les maletes que es perden als aeroports. Prendre decisions ignorant tota aquesta quantitat d’informació a l’abast és inexcusable.

Aquestes dades sovint tenen problemes: falten algunes dades (missings), múltiples hipòtesis, milions de variables, milions d’individus, distribucions desconegudes, etc. Són els reptes de l’estadística actual. Al Journal Citation Reports hi ha 91 revistes amb factor d’impacte especialitzades en respondre aquests reptes.

Però quan la informació s’utilitza correctament, sense “torturar-la”, dóna bones respostes: s’han fet tesis doctorals mostrant com amb els mateixos recursos econòmics les llistes d’espera hospitalàries poden ser més justes o quina és la freqüència òptima en que una dona s’ha de fer mamografies.

Ignorar informació porta a situacions com el següent exemple que és fàcil d’explicar i que afecta a molta gent. Per seleccionar els nens que cada any entren nous a l’escola es tria una lletra al atzar i a partir d’aquesta van entrant fins que s’omple. Diuen que és un procés just ja que tothom té les mateixes oportunitats. Pocs sistemes trobaríem menys aleatoris i més deterministes. Quantes persones tenen cognoms que comencin per W, X, Y? Una persona que es digui Zapatero entrarà a l’escola tant si surt la seva lletra com qualsevol de les tres precedents. Però hi si el nen es diu Dali? Si surt la A, té les mateixes oportunitats que si li surt la W a en Zapatero?

La figura 3 mostra el percentatge de cadascuna de les lletres del primer cognom observat en 12.707 persones de Catalunya seleccionades al atzar. Sembla increïble, però aquest també és el sistema que fan servir a algunes facultats (a la Universitat!!) per accedir a les optatives.

Però dins la comunitat científica ja fa temps que s’ha entès que és molt el que la estadística pot aportar a la recerca. Ho prova el fet de que cada vegada és més freqüent trobar autors i revisors estadístics entre les revistes científiques.

Un deute pendent

Gràcies per deixar-me aquestes línies. Ma mare va morir sense saber de que treballava el seu fill. Li devia una explicació.

Joan Vila va néixer a Terrassa ara fa 52 anys. És Master Science in Statistics per la Universitat de Sheffield (UK). Va incorporar-se a l’IMIM al 1991 i actualment és el responsable d’estadística del Programa RICAD (Research in Inflammatory and Cardiovascular Disorders).

Fer un comentari



© IMIM Institut Municipal d'Investigació Mèdica 2008 - Avís legal - Accessibilitat - Creative Commons