Se acercan las elecciones y la ansiedad por adelantar resultados es notoria. Los equipos de campaña necesitan conocer el panorama en el que se mueven sus candidatos y la ciudadanía busca información para decidir y debatir. Por lo que es común ver en medios y redes sociales decenas de sondeos y Encuestas que afirman la victoria de uno u otro candidato. ¿Pero qué tan confiables son?
En las siguientes líneas haré algunas anotaciones sobre su funcionamiento.
Introducción: ¿Podemos confiar en las encuestas?
La respuesta corta es sí, pero hay algunas cuestiones que considerar.
Desde los primeros días de la humanidad, las distintas sociedades se vieron en la necesidad de tener información sobre su propia población para poder organizarse y tomar decisiones. Por ejemplo, hace más de 5 mil años los Egipcios ya tenían un registro de habitantes y de producción agropecuaria (incluso tenían una deidad dedicada a los libros y las cuentas: Safnkit). Quizá ese es el origen de la contabilidad, pero también de la Estadística.
Sin embargo, conforme las poblaciones crecieron y se expandieron en territorios cada vez más grandes se volvió difícil mantener actualizados los libros porque el grado de dificultad requerido para contar cien vacas en diez hectáreas es mucho menor que hacerlo para diez mil en cien hectáreas.
Conforme las cifras aumentan también lo hacen el tiempo y el dinero necesario para contarlas, por lo que fue necesario encontrar la manera de obtener información válida de manera más fácil que la de contar uno por uno. De manera general y extraordinariamente resumida, podemos decir que así surgieron las muestras estadísticas.
Mientras que un censo consiste en consultar la totalidad de una población, una muestra se integra de una selección de algunos de los elementos que componen el total y que permitan obtener información verídica sin tener que contar a todos.
Por ejemplo, el Instituto Nacional de Estadística y Geografía (INEGI)es el encargado de generar el censo nacional mexicano. Para el cual visita cada hogar del país investigando cosas como la cantidad de habitantes, la edad de los mismos, el ingreso económico, etc. Esta información es muy valiosa para el gobierno, las empresas, los científicos y la población en general.
El problema es que el censo es muy complejo y costoso de realizar, tanto que sólo se hace cada diez años y con una inversión, que para la edición de 2020, será de casi 10 mil millones de pesos.
Por supuesto, entre un censo y otro el país sigue necesitando información fresca y confiable, por lo que el INEGI se aprovecha del conocimiento matemático disponible y realiza diversas encuestas que actualizan el CENSO utilizando muestras estadísticas a un precio mucho más económico.
Es algo similar a lo que hacen las industrias para verificar la calidad de su producción. En lugar de revisar cada uno de los miles o millones de productos que fabrican diariamente, los industriales seleccionan una muestra que utilizan para comprobar el estado de la producción.
En la investigación científica también se utilizan las muestras estadísticas para desarrollar los experimentos. Por ejemplo, para establecer la relación entre variaciones genéticas y el desarrollo de determinadas enfermedades se ocupan muestras de personas sanas y enfermas.
De manera que el uso de las muestras estadísticas es ampliamente aceptado en diversos sectores de la sociedad y su nivel de efectividad es tan elevado que se utiliza para cosas tan sensibles como el cierre de negocios multimillonarios o la implementación de programas gubernamentales.
¿Cómo es que funcionan las muestras?
El muestreo es útil por que abarata costos pero sobre todo porque puede ser sometido a un proceso matemático inverso llamado “generalización o extrapolación”. Es decir, primero se toma una muestra del total de productos o personas, luego se miden los resultados, y finalmente se proyecta o se asume con cierta certeza que los resultados son representativos del total.
¿Si es algo tan sencillo, por qué personas que desconfían de las Encuestas electorales? Básicamente, una encuesta es una serie de preguntas que se realizan a las personas para conocer sobre algún tema que afecta a la población. Por ejemplo, si queremos averiguar cuántas personas solteras hay en la Ciudad de México (CDMX), podríamos preguntar a los viandantes si tienen o no pareja.
Imaginemos que estamos una hora en la calle y nos responden diez personas. ¿Bastará eso para saber que tan románticos o que tan “forever alone” somos los chilangos? Quizás no. ¿Pero si pasamos todo el día y nos responden mil cuestionarios? ¿Y si mejor le preguntamos a diez mil? ¿O a un millón de personas? ¿Cuántos son suficientes?
El tamaño de la muestra.
Este es el primer desafío que enfrentan los realizadores de encuestas: el tamaño de la muestra. Es decir: ¿a cuántas personas debo preguntar para que sean válidos mis resultados?
Aquí se encuentra la principal diferencia entre un sondeo y una Encuesta. Mientras que el primero simplemente pregunta a un número arbitrario de personas, la Encuesta previamente establece matemáticamente la cantidad de personas a las que se debe abordar, en función de la población total (también llamada “universo”); todo para que los resultados sean científicamente válidos.
Lamentablemente, hay mucha confusión al respecto y con frecuencia se utiliza indiscriminadamente la palabra Encuesta para referirse a cosas como que no lo son. Por ejemplo, las consultas hechas en redes sociales a nuestros grupos de amigos no dan información que se pueda generalizar. Tampoco lo hace la impresión de nuestros familiares, compañeros de escuela o círculos cercanos. Ese tipo de consultas carecen de rigor y sólo sirven de manera anecdótica.
Para realizar una Encuesta hay que diseñar y seleccionar con cuidado la muestra. Hacer esto puede ser tan complejo que incluso existen matemáticos especializados en esta materia.
La confianza y el margen de error.
No obstante, para fines generales y en condiciones simples, existe una fórmula muy socorrida que sirve para establecer el tamaño de una muestra en función del universo:
Como se mencionó más arriba, los resultados obtenidos al estudiar la muestra tienen que ser extrapolados para poder generalizar a todo el universo. Evidentemente, este proceso conlleva un error porque la única manera de tener certeza absoluta de la opinión de todas las personas es preguntar a cada una de ellas. Para solventarlo, la fórmula considera dos factores a calcular: el margen de error y la confianza.
Para explicarlos, imaginemos que en una empresa de 10,000 empleados el administrador quería saber cuántos de ellos son padres de familia.
Siguiendo la fórmula, los encuestadores obtuvieron una muestra de 370 personas, de las cuales 92 responden afirmativamente. ¿Basta eso para afirmar que el 25% de la planta tiene hijos? En términos muy simples se podría decir que sí, pero para ser precisos es necesario dar más información porque si extrapolamos directamente podríamos cometer el error de pensar que hay exactamente 2,500 padres en la empresa (25%); lo cual, desde luego, no es necesariamente verdad. Insisto: la generalización de la muestra permite acercarnos a la verdad, pero no de forma tan precisa y certera.
De eso se trata el margen de error: de determinar cuánto puede variar la población real de los resultados obtenidos de nuestra muestra.
Imaginemos que el administrador es muy desconfiado por lo que solicitó repetir el ejercicio tantas veces como fue posible. Es decir, se realizaron 27 encuestas en las que nunca se les preguntó a las mismas personas (ese es el número que da de dividir el universo entre el tamaño de la muestra).
Dado que en este supuesto cada una de las muestras se componía de personas distintas, es poco probable que en todas hubiesen exactamente 92 padres de familia (el 25% de 370 encuestados por muestra). Pero es seguro que casi siempre ese número era cercano a 92.
Como en la fórmula utilizamos un margen de error del 5%, podemos esperar que en la mayoría de las muestras serán cercanas a 92 empleados con hijos y que éstos no bajarán de 74 ni pasarán de 110 (siempre y cuando se elija la muestra de manera completamente aleatoria).
Sin embargo, dado que normalmente sólo se elabora una encuesta, ¿qué pasa si se tiene la mala suerte de elegir para la muestra a exactamente 370 personas con hijos o, en un caso menos extremo, a 200 padres que llevarían el resultado de 25% hasta 54%? Aquí entra el porcentaje de confianza de una encuesta.
Dado los insumos que metimos a nuestra fórmula, podemos tener la tranquilidad de que la probabilidad de haber tomado una muestra confiable (entre 74 y 110 padres) es del 95%. Por supuesto, podríamos tener la mala suerte de haber elegido los casos extremos que componen el 5% restante, pero eso es muy difícil que ocurra. En conclusión, es posible obtener resultados confiables de una población muy grande, tan sólo preguntando a un pequeño grupo de sus integrantes.
El diseño y método muestral.
Regresando al ejemplo de la soltería, ¿si en la CDMX vivimos 8,918,653 habitantes, significa que podríamos tener una muestra válida preguntando a sólo 385 personas? No exactamente porque ahora viene el segundo desafío de una encuesta: el método de muestreo.
Si sencillamente nos paramos en la plancha del zócalo y le preguntamos aleatoriamente a 385 viandantes si son solteros, lo que en realidad obtendremos será información respecto de la población que transita por esa zona, a esa hora y ese día concretos. Para obtener datos que podamos generalizar a la totalidad de la población hay que seleccionar la muestra en diversos puntos de la ciudad.
Para obtener muestras de poblaciones heterogéneas y distribuidas de manera desigual en el territorio es necesario implementar herramientas matemáticas cuya sofisticación requiere una explicación que excede el alcance de este artículo.
Por ahora bastará decir que los encuestadores profesionales consideran la densidad poblacional, la composición socioeconómica, los grupos de edad y otros factores para diseñar las muestras. También prestan atención al método probabilístico utilizado para integrar la muestra, procurando que se eligen completamete al azar los entrevistados.
Para todo esto existen múltiples herramientas matemáticas que grandes pensadores e investigadores han desarrollado a lo largo de la historia. Algunas de las más utilizadas son:
1) Muestreo aleatorio sistemático,
2) Muestreo aleatorio estratificado,
3) Muestreo aleatorio por conglomerados, y
4) Exploración Snowball.
Para aprender más te recomiendo los textos introductorios: “Fundamentos de Estadística en la investigación social” de Jack y William Levin. Así como: “Introducción a la teoría de la probabilidad” de Miguel Ángel García Álvarez.