Publicado por Joan Vila
Lunes, 9 Marzo 2009
¿Como puede ayudar la estadística a la investigación?
Si se utiliza correctamente la estadística puede dar respuesta a muchas de las preguntas científicas.
Un proceso simple
Se trata de hacerse una pregunta, recoger datos de suficientes individuos y analizarlos. Si los datos no dicen lo que se esperava, alégrese: acaba de encontrar una nueva pregunta!
Un ejemplo sencillo: supongamos que quiere saberse si en la província de Girona las mujeres mueren más que los hombres cuando sufren un infarto. Con el estudio REGICOR tenemos datos de los infartos que ha habido en Girona en los últimos 30 años. No hay duda: cuando se tiene un infarto, las mujeres mueren más que los hombres. La siguiente pregunta puede ser: ¿se mueren más porque tienen edades más avanzadas cuando infartan, con más diabetes o hipertensión (comorbilidad)?. La respuesta es: si. Si interesa el tema de las desigualdades se podría preguntar: pero cuando se tiene la misma comorbilidad ¿siguen muriendo más las mujeres?. La respuesta: se tendrá que esperar a que nos publiquen el artículo.
Modelizar y analizar la forma de los datos
El trabajo de los estadísticos es modelizar y analizar datos. O como dijeron en un curso: el campo de la estadística no es saber quién genera los datos, de esto ya se ocupan otras ciencias, sino descubrir el algoritmo que ha utilizado para generarlos. Los datos toman formas que nos ayudan a modelizarlos. La figura 1-A muestra el número de millones de espermatozoides por eyaculación observado en una muestra de 2.519 individuos considerados fértiles. El eje de la izquierda nos indica cuantos individuos hay de cada uno de los grupos que definen la base de los rectángulos del eje “X”, donde se han agrupado los valores de millones de espermatozoides de 100 en 100. Se puede ver que hay muy pocos individuos que tengan valores entre 0 y 100. La mayoría de individuos tienen valores entre 100 y 500. A partir de 500 cada vez hay menos individuos. Y hay algunos que sacan más de 2.000 millones de espermatozoides en una sola eyaculación. Podrían ser donantes!
Las distribuciones asimétricas son más difíciles de modelizar. A veces es suficiente con una sencilla transformación logarítmica para llevar a cabo los datos al terreno de la distribución normal (figura 1-B), donde pocas cosas deben quedar por conocer.
Otro ejemplo de las formas que toman los datos. En la página web de la Organitzación Mundial de la Salud hay datos sociosanitarios de casi todos los países. En la figura 2 se muestran algunos de estos datos de algunos países europeos. En un plano se representan cuatro dimensiones:
1. Renta per cápita (eje de las “x”)
2. Nombre de médicos por 10.000 habitantes (eje de las “y”)
3. Esperanza de vida al nacer (el tamaño de la burbuja)
4. Prevalencia de VIH (los colores).
- Algunas conclusiones:
1) Letonia tiene una renta per cápita muy baja, muy pocos médicos, la esperanza de vida es de las más bajas y tiene una alta prevalencia de VIH. No parece un país recomendable para trasladar la residencia.
2) A partir de una renta per cápita de 20.000$ la esperanza de vida es muy similar. Hasta 30.000$ hay una clara relación entre la renta per cápita y el número de médicos. Pero los países con renta más alta no son los que tienen más médicos.
3) No obstante, para describir esta figura no se si sería suficiente con mil palabras.
Modelizar y analizar las formas de los datos ha servido para encontrar el capítulo más probable en que Joanot Martorell dejó de escribir el “Tirant Lo Blanch“. La idea es sencilla: un libro es muchas cosas, pero también es una secuencia de palabras (de datos) que cada escritor utiliza con su propia frecuencia.
Una nueva ciencia
En los últimos años ha habido un cambio muy importante: nunca en la historia de la humanidad se habían recogido tantos datos sobre lo que nos rodea como justo en este momento. Esto ha coincidido en que nunca como ahora hemos tenido máquinas tan potentes para analizarlos. La estadística de la era preinformática (hace menos de 50 años se tardaba un año de papel y lápiz para hacer una tesis doctoral con 3 factor-analysis) puso las bases, pero ha quedado totalmente superada.
Hay datos de todo tipo: estan informatizadas las visitas que se realizan al médico de cabecera, los pasajeros que entran y salen de las estaciones, las altas hospitalarias, las toneladas de basura que diariamente genera una ciudad, los resultados de las resonancias magnéticas, el lugar y la hora que pasan los accidentes de tráfico o el recorrido que hacen las maletas que se pierden en los aeropuertos. Tomar decisiones ignorando toda esta cantidad de información a nuestro alcance es inexcusable.
Estos datos a menudo tienen problemas: faltan algunos datos (missing), múltiples hipótesis, millones de variables, millones de individuos, distribuciones desconocidas etc. Son los retos de la estadística actual. En el Journal Citation Reports hay 91 revistas con factor de impacto especializadas en responder estos retos.
Pero cuando la información se utiliza correctamente, sin “torturarla”, da buenas respuestas: se han hecho tesis doctorales mostrando como con los mismos recursos económicos las listas de espera hospitalarias pueden ser más justas o cual es la frecuencia óptima en que una mujer tiene que hacerse mamografías.
Ignorar información lleva a situaciones como el siguiente ejemplo que es fácil de explicar y que afecta a mucha gente. Para seleccionar los niños que cada año entran nuevos a la escuela se escoge una letra al azar y a partir de esta, van entrando hasta que se llena. Dicen que es un proceso justo ya que todo el mundo tiene las mismas oportunidades. Pocos sistemas encontraríamos menos aleatorios y más determinantes. Cuantas personas tienen apellidos que empiecen por W, X, Y? Una persona que se llame Zapatero entrará a la escuela tanto si sale su letra como cualquiera de las tres precedentes. Pero y si el niño se llama Dali? Si sale la A, tiene las mismas oportunidades que si le sale la W a Zapatero?
La figura 3 muestra el porcentage de cada una de las letras del primer apellido observado en 12.707 personas de Cataluña seleccionadas al azar. Parece increíble, pero este también es el sistema que utilizan en algunas facultades (en la Universidad!!) para acceder a las optativas.
Pero dentro de la comunidad científica ya hace tiempo que se ha entendido que es mucho lo que la estadística puede aportar a la investigación. Lo prueba el hecho de que cada vez es más frecuente encontrar autores y revisores estadísticos entre las revistas científicas.
Una deuda pendiente
Gracias por dejarme estas líneas. Mi madre murió sin saber de que trabajaba su hijo. Le debía una explicación.
Joan Vila nació en Terrassa hace 52 años. Es Master Science in Statistics por la Universidad de Sheffield (UK). Se incorporó al IMIM en 1991 y actualmente es el responsable de estadística del Programa RICAD (Research in Inflammatory and Cardiovascular Disorders).









