jump to navigation

¿Anomalías en el PREP? Julio 5, 2006

Posted by altamar in Uncategorized.
trackback

English version

Elecciones presidenciales, México 2006

¿Anomalías en el PREP?

Luis Mochán

CCF-UNAM, Cuernavaca, Morelos

Julio 2-9, 2006

Ultima actualización: 11/vii/06 17:40


Archivo comprimido.

¡Ya hay un espejo de esta página! (cortesía de LibertadExpresa). Lo pueden consultar aquí.

¡Ya hay un segundo espejo de esta página! (cortesía del Departamento de Física del CINVESTAV). Lo pueden consultar aquí.

¡Ya hay otros dos, pero no he podido ligarlos aún! ¡Gracias!

Advertencia: Lo que sigue no debe tomarse como un estudio científico concluido, aunque sí podría considerarse como la parte inicial de uno. Tiene algo de datos duros verificables obtenidos de fuentes reconocidas, descripciones fenomenológicas de los mismos e hipótesis sugeridas por los datos las cuales implican consecuencias adicionales que podrían y deberían ser exploradas. Estas podrían formar el inicio de investigaciones posteriores para confirmar o desechar las hipótesis. Además, hay especulaciones, hilos sueltos, preguntas y opiniones. Todos éstos son elementos de toda investigación en la vida real, aunque la mayor parte de ellos debería destilarse o eliminarse antes de producir una publicación científica.

Nota: Para los que quieran/puedan hacer otros estudios, al final hay ligas a información y datos adicionales, incluyendo el PREP completo, ¡casilla por casilla!

En otro tema… Parece fuera de lugar, pero no puedo dejar de aprovechar la oportunidad de felicitar a Gerardo García Naumis y a José Luis Aragón por su artículo, el cual fue reseñado en la primera plana de Nature News. Quizás no se imaginan el enorme honor que significa para ellos, para la UNAM y para la comunidad científica mexicana. ¡Felicidades!

Petición: Empezaron las vacaciones en la UNAM y no es imposible que se vaya la luz o la red en Cuernavaca. Si alguien quiere y puede hacer un espejo de esta página, la puede bajar en formato tar-gzip de aquí. Si me comunican la liga, yo la añadiría a esta página.

Nuevo:De la figura 7 en adelante a la 28.


Acaba de concluir la votación presidencial en México y el programa de resultados electorales preliminares (PREP) puso a disposición del público en general los datos parciales conforme eran procesados. Durante la noche de la elección hice un pequeño programa de cómputo para capturar dicha información cada cinco minutos (más el tiempo necesario para que el servidor me contestara). Aquí y aquí guardo copias de todas las páginas capturadas. De ellas es de donde extraje la información que presento abajo, aunque contienen mucha más información que podría serles útil.

Un amigo (Guillermo Barrios del Valle, ¡gracias!) me hizo el favor de organizar los primeros correos recibidos respecto al contenido de esta página. Los puede consultar organizados como cronológicamente o como hilos de discusión. Asimismo, organizó un blog.

Nota:Alfonso Baqueiro (su correo está aquí y su blog aquí) escribió un programa muy similar al mío. Afortunadamente inició más temprano y concluyó más tarde su captura sistemática de datos. Muy amablemente, me los hizo llegar, por lo cual rehice las gráficas que contenía mi página original. Para quienes estén interesados, junto a las nuevas gráficas añadí ligas a las viejas gráficas y a los nuevos y viejos datos. ¡Gracias Alfonso! Gracias también a otros lectores de esta página que me han mandado datos. Desafortunadamente, no he tenido tiempo para incluirlos.


En la figura 1 se muestra a el porcentaje total de la votación logrado por Calderón y por AMLO como función del porcentaje de actas procesadas. Empecé a capturar los datos pues me llamó la atención que cuando apenas se había computado el 1% de las actas, Calderón iba arriba por alrededor de 7% (según recuerdo) y gradual pero sistemáticamente su porcentaje iba disminuyendo mientras el porcentaje de AMLO iba aumentando. (las encuestas pre-electorales predecían un empate técnico). Yo hubiera esperado un resultado muy fluctuante que rápidamente se estabilizaría alrededor de los valores finales hacia el final del conteo. Este resultado muestra que las primeras casillas contabilizadas tuvieron resultados aparentemente atípicos y que le dieron a Calderón una ventaja porcentual considerable que disminuyó conforme avanzaba el conteo. Desgraciadamente no pude capturar los datos desde el principio, pero el comportamiento de esta gráfica se puede extrapolar cualitativamente hasta el momento en que se habían computado el primer por ciento de actas. La pregunta es ¿por qué el inicio de las actas computadas (quizás poco más de 1000 actas) tuvo un comportamiento tan aparentemente atípico? (ver abajo).Otra característica que me llamó la atención de esta figura es la ausencia de fluctuaciones, aunque creo que eso es normal (ver abajo).

Finalmente, es curioso que la tendencia al alza de AMLO que se había mantenido constante durante el 70% del conteo se revierte rápidamente al llegar al 70%+ de las actas procesadas. Sin embargo, esto podría explicarse si fuera que el voto rural, quizás mayoritariamente pro PRI, hubiera empezado a llegar y a computarse cerca de las 2AM. Otra posible explicación es la llegada de los resultados del noroeste, retrasada debido a las diferencias de huso horario.

Advertencia:Modifiqué la curva correspondiente a Madrazo añadiéndole 13% para poder mostrarla en la misma gráfica. Por lo tanto, el lector deberá restar 13% del valor que lea en el eje vertical.

Figura 1

Gráfica previa
Datos (Datos previos)


La figura 2 indica la velocidad de recepción y proceso de actas. El eje horizontal corresponde a el número de accesos de el programa, diseñado para tomar una fotografía de la página del PREP cada 5 minutos, aunque dada la saturación del sistema, el tiempo de acceso osciló entre 5 y 10 minutos. El eje vertical muestra el porcentaje de actas procesadas. Claramente, hubo una desaceleración notable en la velocidad de recepción y proceso, lo cual podría explicarse con el arribo tardío del voto rural (ver arriba). Cerca del 31-avo dato (correspondiente al 42-avo acceso (los números difieren pues descarté datos repetidos, i.e., datos capturados antes de que se actualizara la página del PREP))), alrededor de la 1:01AM, hay un pequeño salto. Este se debe a que el PREP no actualizó su página en poco más de 20 minutos. A partir de ahí el ritmo de captura empieza a disminuir. Poco después los datos de AMLO en la figura de arriba muestran un máximo e inician un descenso. Antes del pequeño salto el comportamiento es aproximadamente lineal, mientras que después decrece gradualmente. Una explicación tentativa es que al principio del conteo las actas arribaron a una velocidad mayor a la capacidad de proceso del PREP, por lo cual se formó una cola. Hasta la 1AM el PREP estaría trabajando a su máxima capacidad, que podemos estimar como la pendiente de la región recta. De las páginas del PREP se infiere que de las 21:30 a la 1:01 se procesaron cerca de 70,000 actas, por lo que la capacidad de proceso del sistema es de aproximadamente 330 actas por minuto. Como hubo 300 distritos, esto da un ritmo de un acta por minuto en cada oficina. Habiendo disminuido el ritmo de llegada de las actas, las actas se procesarían inmediatamente conforme fueran llegando y la velocidad de proceso aparente en la figura sería simplemente la velocidad promedio de arribo.

Figura 2

Gráfica previa
Datos (los mismos que para la figura 1) (Datos previos)


En la figura 3 se muestra el número total de votos obtenidos por los tres candidatos como función del número de actas procesadas. Curiosamente, Calderón y AMLO incrementan su número de votos aproximadamente con la misma velocidad. Calderón y AMLO recibieron aproximadamente el mismo número de votos por casilla computada. Es por ello que me pareció atípico que en las primeras casillas computadas (no mostradas) Calderón estableciera una fuerte diferencia que no se modificó prácticamente en las demás casillas. Esta gráfica indica que el acercamiento entre los porcentajes de la votación obtenidos por Calderón y por AMLO disminuyó al transcurrir el tiempo sobre todo por el aumento del número total de votos computados y no por que hubiera disminuido la diferencia de votos entre ellos (ver figura 6).Figura 3

Gráfica previa
Datos (Datos previos)


En esta figura muestro los votos obtenidos por Calderón, AMLO y Madrazo en cada casilla, promediados sobre todas las actas que se procesaron en los 5-10 minutos en que el programa obtenía una nueva radiografía del proceso. Esta gráfica muestra fluctuaciones aparentemente normales (ver arriba) y resultados muy similares para los candidatos durante el tiempo que el programa estuvo capturando datos. Hacia el final, el número de votos disminuye y las fluctuaciones aumentan, pero podría ser consecuencia de la llegada de votos rurales, de comunidades aisladas, cada vez más espaciados en el tiempo, mientras que los tiempos de muestreo fueron uniformes. Hay sin embargo una anomalía curiosa alrededor de las 61000-62000 actas procesadas, en que aparecen estructuras similares correlacionadas en las curvas correspondientes a los tres candidatos. Una anomalía que definitivamente requiere explicación corresponde a los datos hacia el final del conteo, donde se ven fluctuaciones tan grandes que se salen de la gráfica. En esta región se llegan a detectar más de 1200 votos por casilla. Creo que ninguna casilla debía haber recibido más de 750 votos. Peor aún, algunos datos indican un número de votos por casilla negativos. Estudiando con detalle una de éstas anomalías a través de las páginas del PREP, encontré que el número de actas procesadas a las 12:39 era de 127772, mientras que hora y media después, a las 14:03, el número disminuyó abruptamente, situándose en 127752, por debajo de su valor a las 12:39. Durante mi reducción de datos ordené los registros de acuerdo al número de actas procesadas. Si las hubiera ordenado cronológicamente, ya sea por la hora de captura del registro o por la hora de corte estampada por el PREP, las inconsistencias descritas arriba hubieran sido mucho más grandes. Este es un error que sólo podría ser explicado por personal del PREP.Figura 4

Gráfica previa
Datos (Datos previos)


La figura 5 muestra la diferencia entre los votos atribuidos a Calderón y a AMLO como función del número de actas procesadas. La curva muestra claramente tres regiones: una subida seguida de una caída, otra subida y finalmente algunas fluctuaciones. Las primeras tres regiones muestran pendientes bastante constantes y las transiciones de una a otra son bastante abruptas. El origen de dichas transiciones debe ser explicado. Quité de esta gráfica las barras de error que mostraba mi figura previa pues un colega me hizo ver que mi estimación de la dispersión esperada era incorrecta. Aún no hago un análisis de las fluctuaciones de estos datos para checar si son o no anómalos.Figura 5

Gráfica previa
Datos (los mismos que para la figura 3) (Datos previos)


En esta figura muestro los datos iniciales de la figura 3, correspondientes a las primeras 20,000 actas capturadas. Con una línea vertical he marcado desde donde tengo datos capturados sistemáticamente (con 10943 actas procesadas). De ahí a la derecha se muestran los datos capturados para los tres candidatos. Los tres candidatos muestran una tendencia lineal sin fluctuaciones aparentes, quizás por haberse acumulado ya un número grande de votos, del orden de un millón. Del lado izquierdo de la línea vertical muestro tres líneas rectas (no rotuladas) que parten del origen y terminan en el primer dato capturado para cada candidato. Extrapolé dichas líneas hacia el lado derecho de la gráfica para compararlas con los datos iniciales de los candidatos. En el caso de Calderón, los datos del PREP y la línea recta que parte del origen son prácticamente indistinguibles. En el caso de Madrazo hay una ligera diferencia, lo cual refleja que la votación por acta hacia Madrazo iba aumentando gradualmente, lo cual es consistente con la figura 4. Sin embargo, la línea recta correspondiente a AMLO se aleja bastante más rápidamente de los datos obtenidos del PREP. Eso hace suponer que en las primeras 10,000 casillas la votación por AMLO fue significativamente menor que en las subsiguientes. La pendiente inicial correspondiente a la curva de AMLO tuvo que ser notablemente menor que la pendiente subsiguiente, pues obviamente los datos deberían pasar por el origen. Es sin embargo interesante hacer una extrapolación de los datos de AMLO. Empleando los datos del intervalo [10,000:20,000] hice una extrapolación lineal. La ordenada al origen es -126,000. Curiosamente, dicho número es muy cercano a (menos) el número total de casillas. La figura que le sigue (figura 7) es la misma que la figura 6 pero extendida hasta 70,000 actas. Me llama la atención que el ajuste lineal a los datos iniciales de AMLO, empleando para el mismo sólo los datos entre 10,000 y 20,000, es prácticamente indistinguible de los resultados correspondientes del PREP sobre todo el rango. ¿Por qué la extrapolación hacia el lado derecho de la gráfica es tan buena, mientras que la extrapolación hacia el lado izquierdo es tan mala?

En un escenario de mucha especulación sobre conspiraciones, estos datos podrían interpretarse de la siguiente manera: Pareciera haberse restado un voto a favor de AMLO por cada una de las 130,000 casillas durante la acumulación de los resultados. Seguramente, se podrían encontrar otras explicaciones. Será interesante saber por qué el voto de las primeras 10,000 casillas fue tan distinto al de las 60,000 casillas subsiguientes, el cual habíamos visto en la figura 5 que es muy distinto al de los que siguieron. Urge procesar los datos correspondientes a las primeras 10,000 casillas. Un lector de esta página acumuló datos manualmente desde las 8:00PM. Están disponibles aquí. En cuanto tenga tiempo intentaré añadir esos datos a la figura 6.

Figura 6

Datos (los mismos que para la figura 3)

Figura 7

Datos (los mismos que para la figura 3)


Datos de la base de datos por casilla

Empecé (7/VII/06) a procesar la base de datos del PREP y me encontré con algunas dificultades.

  1. El número de registros que contiene es 117,287. Como no he tenido tiempo de seguir las noticias no estoy seguro en cual de las cuentas entrarían los 13,200 registros faltantes necesarios para completar las 130,488 reportado en las páginas del PREP durante el conteo.
  2. Ya conseguí también las bases de datos de senadores y diputados. Contienen 120,032 y 120,091 registros respectivamente. ¿Por qué difieren en alrededor de 2700 registros de la base para presidente?
  3. Además de los registros faltantes, hay otros 22,538 que tienen un asterisco (’*') en alguno de los campos numéricos. El problema me saltó a la vista al tratar de checar la consistencia de los datos numéricos. Aquí guardé la base de datos correspondiente a estos registros incompletos.
  4. Eliminando los registros con asteriscos, hay 27,073 registros que considero inconsistentes, pues la suma de los campos PAN, ALIANZA_POR_MEXICO, POR_EL_BIEN_DE_TODOS, NUEVA_ALIANZA, ALTERNATIVA_SOCIAL_DEMOCRATA, NO_REGISTRADOS y NULOS no es igual al número de BOLETAS_DEPOSITADAS. Aquí guardé la base de datos correspondiente.
  5. El NUMERO_VOTANTES siempre es consistente con la suma de PAN+ALIANZA_…(tal vez porque así se defina). Verifiqué que el NUMERO_VOTANTES se conserva consistente aún si reemplazo todos los asteriscos por ceros en lugar de eliminarlos. Por lo tanto, en los análisis subsiguientes realizo dicha modificación.
  6. Reemplazando los asteriscos por ceros, obtengo que la suma de las BOLETAS_DEPOSITADAS es 35,876,783 y la de los NUMERO_VOTANTES es 38,516,730, por lo cual parece haber 2,639,947 más votos que boletas depositadas en las urnas. Por otro lado, si elimino los registros con asteriscos, obtengo 35,876,783 boletas depositadas y 36,100,471 votantes, 223,688 más votantes que boletas depositadas.

La figura 8 muestra el porcentaje de la votación obtenida por cada candidato como función del tiempo. El tiempo está medido en minutos transcurridos desde el inicio del conteo, el cual tomé como la hora de recepción de la primera acta (18:35). Esta gráfica es similar a la figura 1, pero graficada como función del tiempo en lugar del número de actas procesadas. Además, está figura fue construida con los datos detallados del prep, casilla por casilla, y no con los que capturamos via la red, por lo cual se puede mostrar el conteo completo. Inicialmente, había una fuerte ventaja para Madrazo, seguido de Calderón y finalmente de AMLO. Durante la primera hora hay fuertes fluctuaciones, lo cual era de esperar, y las curvas se cruzan algunas veces. Los datos se estabilizan gradualmente hasta que pasadas dos horas y media las fluctuaciones se vuelven marginales. Me imagino que el PREP no reportó los datos iniciales sino que esperó a que estos se hubiesen estabilizado.Figura 8

Datos


La figura 9 es similar a la figura 8, pero graficada como función del número de actas computadas. Como muy al inicio las actas llegaron muy espaciadas, en esta gráfica no se aprecia la región fluctuante que es muy claramente visible en la figura 9; queda comprimida en el extremo izquierdo. Para poder mostrar más claramente la estructura de las distintas curvas, reduje el rango de la gráfica (perdiendo algunos de los primeros puntos) y le añadí 13% a Madrazo, que el lector debe restar, como en la figura 1. Los datos parecen concordar con los de la figura 1, pero muestran un nivel mayor de fluctuaciones. El máximo en el porcentaje de votos para Calderón se da cuando ya había 4500 actas computadas y casi un millón de votos.Figura 9

Datos (como en la figura 8).


Esta figura es análoga a la figura 2 pero como función del tiempo y no como función de mi número de acceso (similar al tiempo). Las conclusiones que se pueden derivar de ella son esencialmente las mismas. La capacidad del PREP es de aproximadamente un acta por distrito cada minuto. Esta gráfica es mucho más suave que la figura 2 y, como empieza mucho antes, muestra cómo la velocidad de arribo de la información se incrementó gradualmente durante los primeros 200 mins. del conteo. Para poder observar esta región, multipliqué en ella los datos por un factor de 1000. Las oscilaciones en la parte lineal de la figura 2 están aquí ausentes, y en particular, no se ve el brinco de alrededor de la 1:00AM que previamente me había llamado la atención. Quizás podría deberse a que el momento para realizar cada actualización de la página del PREP estaba bajo control humano, no de un código de computadora, y el encargado se fue a tomar un café mientras el sistema seguía capturando datos de manera uniforme.Figura 10

Datos (como en la figura 8).


La figura 11 muestra los votos obtenidos por cada uno de los candidatos como función del tiempo de conteo. Cualitativamente, la figura sigue las tendencias del número total de votos.Figura 11

Datos (como en la figura 8).


Esta figura muestra los votos como función del número de actas procesadas. A diferencia de la figura 11, y de manera similar a la figura 3, en ésta el comportamiento es básicamente lineal para los tres candidatos durante la mayor parte del rango, con ligeras modificaciones visibles al principio y al final.Figura 12

Datos (como en la figura 8).


Las figuras 13, 14 y 15 muestran el voto obtenido en cada acta como función del número de proceso de dicha acta para Calderón, Madrazo y AMLO respectivamente. Cada punto en la gráfica corresponde a un acta. Las regiones obscuras corresponden a resultados frecuentes y deben ser cercanas a las votaciones promedio (como las mostradas previamente en la figura 4. El ancho de dichas regiones corresponde a las dispersiones alrededor de los valores promedio. Qué tanto difieran dichas regiones de ser franjas horizontales es una medida de las variaciones de las preferencias electorales entre el electorado que fue contado antes vs. después. Debe ser interesante (y fácil) rehacer este diagrama para observar los promedios y variaciones de la preferencias de acuerdo a la zona geográfica. Cuidado: Estas figuras pueden mostrar una textura interesante pero que puede no ser significativa. El voto en cada casilla es un número entero y puede aparecer un batimiento entre las posiciones ocupadas por los puntos que representan los datos y los pixeles de la pantalla de su computadora. Es interesante notar que las figuras correspondientes al PAN muestra una franja relativamente ancha, mientras que la del PRI es una franja muy angosta. ¿Representará esto el llamado voto duro del PRI? Por otro lado, la figura correspondiente al PRD muestra una franja angosta pero con muchos puntos que caen arriba de dicha franja. Para AMLO la distribución parece ser mucho más asimétrica que para sus contendientes. Las franjas claras en la parte baja de las gráficas de Madrazo y de AMLO muestran que en casi todas las casillas obtuvieron al menos una o dos decenas de votos. Por otro lado, la franja clara correspondiente a Calderón está muy tenuemente marcada y parece desaparecer después de la 90,000-ava casilla, lo cual implicaría que en un número significativo de casillas recibió pocos o nulos votos. La franja clara correspondiente a AMLO no desaparece, pero se adelgaza visiblemente en dicha zona. Pareciera ser que entre las últimas actas recibidas, muchas provinieron de regiones muy polarizadas en las que barría ya fuera uno o el otro de los dos contendientes principales. ¿Por qué son tan distintos los diagramas para cada candidato? ¿Por qué cambia el comportamiento de los datos de Calderón y de AMLO después del acta 90,000?Figura 13

Datos.

Figura 14

Datos.

Figura 15

Datos.


Para visualizar la distribución de votos de los candidatos principales de manera más clara, en las figuras 16, 17 y 18 muestro los histogramas correspondientes a los datos de las figuras 13, 14 y 15. Cada punto en esta gráfica está determinado por dos números: uno (el que leemos en el eje horizontal debajo de él) representa un posible número de votos; el otro (el que leemos en el eje vertical a su izquierda) representa en cuantas actas se reportó ese número de votos.La figura 16, correspondiente a Madrazo, muestra un comportamiento muy común en procesos con cierta aleatoriedad. Tiene un máximo que resulta estar en 53 votos con una altura de 1603 actas, i.e., obtuvo 53 votos en 1603 de las cerca de 117000 actas. A ambos lados del máximo, el número de actas disminuye gradualmente con algunas fluctuaciones. Como el número máximo de votos que podría haber obtenido es mucho mayor que 55 (del orden de 700), mientras que el número mínimo de votos que pudo haber sacado (0) es relativamente cercano a 55, el decaimiento hacia la derecha es más lento que el decaimiento hacia la izquierda, i.e., su distribución es unimodal (tiene un pico), y corresponde a una curva suave ligeramente asimétrica. Se ve cualitativamente como la famosa campana de Gauss pero deformada. Apenas obtuvo cero votos en un manojo de actas.

Figura 16

Datos.

Los datos correspondiente a AMLO se ven bastante peculiares. Tienen un máximo en una posición cercana al máximo de Madrazo, aunque con una altura menor. A la derecha del máximo muestra un decaimiento suave mucho más extendido que el de Madrazo pero cualitativamente similar. Lo que me llama mucho la atención es que el decaimiento hacia la izquierda del máximo no parece ser una curva suave sino más bien podría describirse muy bien por una burda línea recta, cuya ordenada al origen estaría entre 25 y 50 actas donde habría obtenido 0 votos. De hecho, obtuvo 0 votos en 45 casillas. A diferencia de la curva típica de Madrazo, la de AMLO tiene un quiebre abrupto en el máximo. Las curvas usuales suelen empezar con curvatura positiva, la cual cambia de signo antes de llegar al máximo y vuelve a cambiar de signo a medio descenso. Esta curva podría describirse como una curva típica a la que se le cortó una parte.

Figura 17

Datos.

Los datos correspondientes a Calderón son más curiosos aún. Tienen un máximo muy ancho cercano a los 80 votos por acta con una altura cercana a 700 actas. Hacia la derecha tiene un decaimiento extendido y suave cualitativamente similar al de AMLO. Hacia la izquierda, el decaimiento comienza de una manera normal, con la misma forma que el de Madrazo, pero cambia su comportamiento pues aparece un segundo pico con un máximo cerca de 15 votos. La mayor parte de la contribución a este segundo pico se debe a las actas que más tarde llegaron al IFE. Para ilustrar esta afirmación, en la figura 19 se muestra el histograma de la votación de Calderón correspondiente a las últimas 30,000 actas procesadas. Es sorprendente que la diferencia con la figura 18 sea tan grande. Era de esperar una curva similar aunque con una altura menor y con fluctuaciones más visibles por tener menos datos. En lugar de eso, vemos que la parte derecha de la curva ha sido muy abatida, mientras que la parte izquierda apenas empieza a cambiar su tamaño. Estos datos tienen la forma típica que corresponde a la suma de dos distribuciones distintas, cada una con sus propias características. En este caso una describe la banda gris horizontal previamente discutida y que se extiende a todo lo ancho de la figura 13. La segunda distribución corresponde a la región anómala que muestra la figura 13 sobretodo a partir del acta número 90,000. Las dos distribuciones parecen cruzarse alrededor de los 30 votos. Podemos eliminar la subjetividad en esta estimación, usando el mínimo de la distribución, el cual está en 29 votos. Consideremos un punto tomado de la figura 18, correspondiente a H actas con N votos cada una. Ese punto contribuye HxN votos en total. Sumando dichos productos sobre todos los puntos desde que N es igual a cero y hasta que sea igual a 29, donde se cortan las dos distribuciones, podemos estimar el número total de votos que obtuvo Calderón a partir de sumar la segunda distribución anómala: el número de actas en que Calderón obtuvo 29 o menos votos fue de 9914; el número total de votos contenidos en dichas actas fue de 149,329. Una forma más cuantitativamente aceptable de hacer el cálculo previo es mediante un ajuste en que se proponga cierto número de curvas tomadas de una familia tal y como la familia de curvas Lorentzianas, se optimizan los parámetros de cada una de las curvas de manera que su suma sea la mejor aproximación posible a los datos, y finalmente se integran las funciones analíticas resultantes para obtener el número de actas y el número de votos contribuidos por cada una de las distribuciones. Este trabajo está en curso con la colaboración de un colega.

Figura 18

Datos.

Figura 19

Datos.

Para que el lector lo pueda comparar, a continuación muestro los histogramas correspondientes a Madrazo y a AMLO calculados con las últimas 30,000 actas. En ambos casos, la forma del histograma es igual a las correspondientes a los datos completos, 16 y 17, solo que escaladas por contener menos datos.

Figura 20

Datos.

Figura 21

Datos.


Las puede consultar aquí y aquí. Un amigo (Jaime Ruiz) me mandó esta y esta gráfica, preparadas con mis mismos datos, pero sobre un rango más grande. La primera muestra que Campa tiene una distribución ordinaria y que en la payor parte de las casillas sacó menos de 10 votos. Por otro lado, la distribución de Patricia Mercado parace ser una suma de dos distribuciones ordinarias, una que apenas se extiende hasta 5 votos y otra hasta 30 votos. Más importante me parece las curvas corresondientes a Calderón, Madrazo y AMLO en la figura 21.2. Estas son las mismas que mis figuras 16, 17 y 18, pero superpuestas y graficadas en un rango mayor. En la figura se ve claramente que las curvas corresondientes a Calderón y a AMLO son my cercanas entre sí y siguen un comportamiento normal en la región correspondiente a actas con más de 180 votos cada una. Sin embargo, cerca de 180 votos, la curva corerspondiente a AMLO cambia abruptamente de pendiente situandose a la izquierda de este punto por debajo de Calderón. No he podido encontrar una explicación para este cambio abrupto. La parte superior de la curva de Calderón se ve muy plana y ancha comparada con la de los otros dos candidatos. Finalmente, es donde se vuelven a encontrar las dos distribbuciones donde aparece la anomalía inferior de la curva de Calderón, la cual tiene un cambio abrupto de pendiente volviéndose horizontal en el extremo izquierdo. Note que el detalle en el extremo izquierdo de la curva correspondiente a Patricia Mercado en la figura 21.1 se puede interpretar mediante la suma de dos curvas suaves, mientras que el detalle a la izquierda de la curva de Calderón aparece de un manera abrupta y poco natural.Figura 21.1

Datos.

Figura 21.2

Datos.


Es importante conocer las estadísticas de la diferencia de votos entre Calderón y AMLO para poder entender la estructura de las figuras 17, 18 y 21.2. En la figura 21.5 muestro un histograma de esta diferencia. A lo largo del eje horizontal se hallan la ventaja que Calderón podría haberle llevado a López Obrador en alguna casilla. El eje vertical indica el número de casillas en los que obtuvo precisamente esa diferencia. Si la diferencia es negativa, simplemente significa que en las casillas correspondientes López Obrador obtuvo más votos que Calderón. A pesar de lo extrañas que son las curvas mostradas en la figura 21.2, el histograma de las diferencias de votos tiene aparentemente una forma simple y común. Es muy poco probable que las diferencias sean demasiado grandes y conforme se hacen pequeñas dicha probabilidad aumenta gradualmente, mostrando un máximo cercano a 0 votos de diferencia. Cualitativamente, la curva parece una gaussiana normal. Sin embargo, los resultados cerca de dicho máximo tienen un comportamiento muy distinto al de una curva normal. Para guiar el ojo, hice un ajuste Gaussiano a todos los datos que se hallan debajo de de la marca de las 250 actas. El ajuste fue de la forma N=A exp(-B(V-C)^2), donde N representa el numero de veces que Calderón le llevo V votos de ventaja a AMLO y A= 432.819+/- 4.352, B = 4.15445×10^{-05} +/- 3.944×10^{-07} y C = 0.126841+/- 0.3256 son los parámetros del ajuste. Notamos que el ajuste es bueno (no excelente) en la parte baja de la distribución, pero que es pésimo en la parte alta. Intenté hacer un ajuste a todos los datos en vez de emplear aquellos con N<250, pero la distorsión para N>250 es tan grande que el ajuste no fue resultó en ninguna parte. De los parámetros de la distribución notamos que su centroide está desplazado una distancia muy pequeña hacia la derecha, es decir, que en promedio Calderón le hubiera ganado a AMLO en 0.1 votos por casilla si la distribución hubiese sido la gaussiana ajustada arriba, i.e., hubiera ganado la elección por 1000 votos aproximadamente. Sin embargo, su ventaja fue mucho mayor gracias a la deformación en la cima de la distribución. La distribución tiene un cambio discontinuo de pendiente cerca de V=-100. ¿Por qué la distribución es aproximadamente gaussiana en la mayor parte del intervalo? ¿Por qué la distorsión en la parte alta de dicha distribución? ¿Por qué el cambio de pendiente es abrupto al llegar a dicha distorsión?Figura 21.5

Datos.


Parece ser que la distorsión en la parte alta de la distribución mostrada arriba es la responsable del aparente triunfo de Calderón. Para cuantificar su contribución, en la figura 21.6 muestro la diferencia entre los datos del PREP y la curva ajustada. Para diferencias de votos menores a -100 y mayores a 100 o 150, el resultado es el esperado, i.e., los puntos se distribuyen más o menos simétricamente alrededor de cero (línea horizontal). Sin embargo, en la región entre -100 y 0 los datos están sistemáticamente desplazados hacia abajo y entre 0 y 100 están sistemáticamente desplazados hacia arriba, con un mínimo cerca de -50 y un máximo cercano a 80. Es decir, hay menos casillas en las que AMLO gano por poco que las que seguirían de la distribución normal, y hay más casillas donde Calderón ganó por pocos votos que las que predice la distribución normal. Como si los datos de las actas con poca diferencia migrado hacia la derecha. ¿Cual es el origen de la bajada y subida?Figura 21.6

Datos.


La figura 22 es similar a la figura 6 pero elaborada con la base de datos detallada. Se muestran tres curvas que corresponden a las votaciones obtenidas por los tres candidatos principales en el intervalo [0:20000], i.e., completando los datos que en la figura 6 sólo podíamos adivinar. Desde luego, las tres curvas pasan por el origen. Se muestran otras tres curvas que fueron obtenidas de un ajuste lineal a los datos del rango [10000:20000]. Los parámetros de dicho ajuste se pueden leer en la llave de la figura (disculpas por no haberlas puesto en el orden previo): las pendientes son 126.731, 63.1543 y 120.122 y las ordenadas al origen son -7143, -49301 y -121637 para Calderón, Madrazo y AMLO respectivamente. La calidad del ajuste se puede apreciar al extrapolarlo hacia toda la gráfica aquí.Figura 22

Datos.

Figura 23

Datos.


Una forma de distinguir números enteros grandes obtenidos de un proceso estocástico de números inventados tiene que ver con su estadística. A continuación muestro un histograma del número de veces que apareció cada digito entre el 0 y el 9 en la posición de las unidades, i.e., no de las decenas, centenas, etc. La probabilidad de obtener cierto dígito en la última posición debe ser la misma que para cualquier otro dígito. Las figuras 24, 25 y 26 muestran que cada dígito apareció más o menos el mismo número de veces para cada candidato, alrededor de 11700 veces, aunque la dispersión de los datos para AMLO parece ser la mitad que para los otros dos. Curioso.Figura 24

Datos.

Figura 25

Datos.

Figura 26

Datos.


Intenté descartar el que el resultado previo fuese obra de la casualidad e intenté hacer un programa que evaluara las dispersiones en diversos rangos, etc., pero estoy muy cansado y no me salió. Así que me puse a contemplar mi archivo de resultados y me encontré los datos de Campa y de Mercado. Me ganó la curiosidad…Figura 25

Datos.

Figura 26

Datos. Noten la escala. Noten la estructura… pero no, no significa nada, pues Campa y Mercado obtuvieron votaciones de un dígito, por lo cual la distribución no tiene por qué ser azarosa.

En todo caso, los valores de la variancia de las gráficas previas son:
Calderón 141.00
Madrazo 102.15
AMLO 69.88
Campa 7910.26
Mercado 2122.94
Como referencia, hay cerca de N=117000 votos, la probabilidad de obtener un dígito cualquiera es p=0.1, el valor promedio del número de veces que aparece un dígito es p*N=11700 y la raiz cuadrada de p*(1-p)*N=102.61. ¿Es esta una buena estimación de la variancia para estos datos? ¡El único dato típico es el de Madrazo! Las enormes variancias de Campa y Mercado son por su extremadamente baja captación de votos. ¿Son razonables las variancias de Calderón (40% más que la esperada) y de AMLO (70% de la esperada)? Este análisis debe repetirse sobre muchos subconjuntos antes de que pueda ser conclusivo.


Existe otra prueba estadística sobre la probabilidad de aparición de dígitos en colecciones de números. Esta es la prueba de Benford. Yo no sabía de ella hasta hoy (11/vii/06) en que leí el artículo que escribió al respecto R. Mansilla. Resulta que desde 1881 se conoce la ley de probabilidad, conocida ahora como Ley de Benford, que describe el histograma de aparición del dígito más significativo de una colección de números aleatorios. Está demostrado que esta distribución se debe cumplir en una gran variedad de bases de datos donde hay algún elemento de azar tan diversas como áreas de ríos, pesos atómicos de los elementos químicos, números de las casa en una ciudad, etc. La aplicación actual más importante de la ley de Benford es la detección de fraudes fiscales.¿Qué es la ley de Benford (LB)? El dígito más significativo de una colección grande de números se distribuye de la siguiente manera: la probabilidad de hallar el digito D es log(1+1/d)/log(10). Por ejemplo, el dígito D=1 debería aparecer en la primera posición con una probabilidad de log(2)/log(10)=0.301, i.e., aproximádamente el 30% de las veces, mientras que el dígito D=6 debería aparecer con la probabilidad log(1+1/6)/log(10)=0.067, i.e., abajo de 7% de las veces. En la figura 27 muestro la probabilidad de obtener cada uno de los dígitos 1..9 en la posición más significativa, expresada como un porcentaje. Como referencia, marqué también el valor predicho por la LB (línea continua). Curiosamente ¡ninguno de los resultados del PREP es consistente con la LB.

  1. Los datos de Calderón (+) parten de 45% en lugar de 30% y bajan rápidamente mostrando un mínimo para el dígito 4, subiendo posteriormente hasta aproximarse a la ley de Benford para digitos mayores.
  2. Los datos de Madrazo (X) empiezan por debajo de la ley de Benford, tienen un mínimo en 2 y un máximo en 5, y sólo se aproximan a la ley de Benford en 9.
  3. Los datos de AMLO (asteriscos) empiezan arriba de la ley de Benford, tienen un mínimo en 3 y siguen la ley de Benford aproximadamente a partir del 5-6.
  4. Los datos de Campa empiezan poco abajo de la LB y terminan un poco arriba. Decaen de manera monótona. Sin embargo su decaimiento inicial es muy lento comparado con el predicho por la LB.
  5. El comportamiento de Patricia Mercado sigue muy de cerca al de Calderón.
  6. Los no registrados empiezan sobre la LB pero siguen muy de cerca los resultados de Campa.
  7. Los votos nulos siguen cualitativamente el comportamiento de AMLO, aunque con variaciones más pequeñas.

¿Será posible que las violaciones a la LB se deban a que los números de nuestra muestra son muy chicos, todos ellos de 3 o menos dígitos? ¿Habrá efectos de tamaño finito? De ser esta la explicación de las discrepancias, yo esperaría que candidatos con números totales de votos similares siguieran curvas similares. Este no es el caso. Los datos de AMLO y los de Calderón difieren notablemente, a pesar de haber obtenido votaciones muy cercanas. Los datos de Calderón y de Mercado se parecen, a pesar de haber obtenido votacioes muy distintas.De manera que ningún candidato cumple con la ley de Benford. Sin embargo, si vuelvo a hacer el cálculo sin distinguir los datos correspondientes a un candidato de los de los otros candidatos, es decir, si hago el histograma correspondiente a todos los votos recibidos por todos los candidatos en todas las casillas, incluyendo candidatos no registrados y votos nulos, ¡el resultado se vuelve consistente con la ley de Benford! (figura 28) Esta casualidad… me parece milagrosa. Aunque… ¡hay otras explicaciones!

Figura 27

Datos.

Figura 28

Datos.


Conclusiones

A partir de un análisis de los datos que el PREP volvió públicos, he encontrado, con ayuda de muchos colegas y de colaboradores que me son aún desconocidos, una larguísima serie de resultados que, a mi parecer, son anómalos y demandan una explicación detallada. Quizás haya expertos en elecciones y expertos en estadística que puedan ofrecer dicha explicación, o quizás sea necesario esperar el desarrollo de investigaciones científicas detalladas sobre esta elección; sin duda, investigaciones conclusivas de este tipo requerirán mucho tiempo en llevarse a cabo. Quizás no haya problemas con el PREP y las anomalías que he señalado no lo sean en realidad. Sin embargo, mientras no se realicen las investigaciones a que me he referido y no veamos los resultados o hasta que nos aclare algún experto nuestras dudas de manera convincente, y con base en la información que he logrado recopilar y los análisis que he logrado realizar, considero que no es razonable creer que no haya habido una manipulación de los resultados reportados por el PREP. Se me ha dicho que el trabajo que he realizado es irrelevante pues a fin de cuentas el PREP no tiene validez legal. Los datos importantes son los del CONTEO distrital. Sin embargo, me resisto a creer que el PREP haya puesto a nuestra disposición toda la información detallada de la elección con el propósito de que nos entretengamos la noche de la elección o que juguemos a las quinielas. El PREP surgió como un mecanismo que permita a los ciudadanos monitorear y analizar el desarrollo transparente de las elecciones, volviendo difícil o imposible el que se cometan irregularidades sin que sean detectadas. En este sentido, considero que el PREP es un gran instrumento. Pero para que sea un gran éxito, debe llevarse a sus últimas consecuencias. Si hay irregularidades en el PREP, debe suponerse como factible que haya irregularidades semejantes en el CONTEO. Cuando en Ciencia tenemos dudas sobre un resultado, lo que procede es repetir el experimento, repetir el cálculo, verificar, buscar las fuentes de error, eliminarlas, etc. Cuando las dudas tienen una trascendencia tanto mayor para la vida democrática de un país, no debemos hacer menos.


Agradecimientos:

Este trabajo ha sido apoyado, inadvertidamente e involuntariamente, por el proyecto DGAPA-UNAM-IN111306. Deseo agradecer immensamente a todos aquellos que han participado en este trabajo análisis enviandome notas, datos, sugerencias o simplemente su apoyo y entusiasmo.


Si desea comentar esta página, por favor envíeme un mensaje aquí o, mejor aún, añada un comentario al blog. Puede consultar los mensajes recibidos con anterioridad, organizados como cronológicamente o como hilos de discusión.

Apéndices:

Datos y análisis contribuidos por lectores.

  1. Resumen: durante en conteo del prep, hay un intervalo durante el que el numero de votos por el prd es una funcion lineal del numero de votos por el pan, con una CHI CUADRADA DE 4 en un fit de VEINTE GRADOS DE LIBERTAD (el valor esperado hubiera sido 20 en vez de 4). Este comportamiento lineal:…lo cual es MUY INUSUAL al ajustar datos reales INCLUSO EN CASOS DONDE SE SABE QUE HAY UNA DEPENDENCIA LINEAL. En este caso, esto es aun mas improbable, pues EL NUMERO DE VOTOS NO TIENE POR QUE SEGUIR UN COMPORTAMIENTO LINEAL Y UNIFORME, menos durante un intervalo tan grande.
    1. Texto
    2. Imagen 1
    3. Imagen 2
    4. Imagen 3
    5. Imagen 4
  2. Análisis de los resultados electorales a partir de la Ley de Benford, por R. Mansilla CEIICH, UNAM. Conclusiones: Resulta muy difícil explicar el comportamiento de las distribuciones empíricas de los candidatos a la luz de los resultados teóricos antes expuestos. La ley de Benford es una regularidad bastante universal y toda divergencia de la misma debe ser observada con suspicacia.

Información adicional

  1. Códigos empleados: Disculpas, pero como los elaboré a la carrera son algo crípticos y no creo poder entenderlos en un par de días más. Quizás estas versiones no sean las últimas y no funcionen; sólo son las que me encontré regadas por mi computadora. Ilustran en todo caso que Linux es mejor que Windows, pues tiene herramientas poderosísimas gratis… (pero eso es otra batalla)
    1. Mi programa en perl para capturar los datos del prep.
    2. Mi programa en bash para extraer los totales de votos de una página web del prep.
    3. Mi programa en bash para extraer los porcentajes de la votación de una página web del prep.
    4. Comando típico para emplear los programas previos que extraen datos de las páginas web:
      for i in index_contenido.html.* ; do ~/txt/papers/06/elecciones/extraenumerosh $i >>rem.dat; done
    5. Comando para formatear las tablas correspondientes a la figura 1:
      perl -pe ’s/\s*//; s/%//g;chomp; $_.=[" "," ", " ", "\n"]->[$i++%4]; ‘ rem1.dat
    6. Comando para formatear los datos correspondientes a la figura 3:
      perl -pe ’s/\s*//; s/,//g;chomp; $_.=[" "," ", " ", "\n"]->[$i++%4]; ‘ rem1.dat
    7. Comando para preparar los datos de la figura 4:
      perl -nae ‘BEGIN{@o=(0,0,0,0)} {@n=@F; print “$n[0]“, join ” “, (map {” “.($n[$_]-$o[$_])/($n[0]-$o[0])} (1,2,3)), “\n”;@o=@n }’ numeros.dat >diferenciasporcasilla.dat
  2. Base de datos del PREP
  3. Datos completos del PREP en la elección para presidente ¡por casilla! (¡Gracias Mauricio!)
  4. La misma base (sin el encabezado de e-mail de Mauricio).
  5. La misma base pero ordenada por orden cronológico de sellado
  6. Una sección de la base de datos, mostrando votos por casilla como función del tiempo sin agregar. Los campos seleccionados son TIEMPO (en minutos transcurridos a partir del inicio del conteo ¡a las 18:35!), datos del PAN, ALIANZA_POR_MEXICO, POR_EL_BIEN_DE_TODOS, NUEVA_ALIANZA, ALTERNATIVA_SOCIAL_DEMOCRATA, NO_REGISTRADOS, NULOS y NUMERO_VOTANTES.
  7. Un pequeño iprograma en perl para extraer campos seleccionados de la base de datos previas. El programa puede ser fácilmente adaptado a otras bases de datos similares y para hacer proceso sobre los datos obtenidos.
  8. Una sección de la base de datos, mostrando votos acumulados como función del tiempo.
  9. Base de datos del PREP para la elección de senadores, casilla por casilla.
  10. Base de datos del PREP para la elección de diputados, casilla por casilla.

Comentarios»

1. Dora Juárez - Julio 6, 2006

Querido Luis
EStamos muy indignados y asombrados.
Leímos Pedro y yo el artículo en La Jornada donde te mencionan y nos metimos a tu página. Lo vamos a reenviar a todos nuestros conocidos.
Felicidades por tanta sapiencia y audacia.
Un abrazo fuerte
Dora

2. Victoria D Bohler - Julio 6, 2006

Estimado Dr. Mochan,
Me parece muy interesante lo que muestran sus graficas y los comentarios que ha recibido. Y leyendo toda esta informacion, me hago esta pregunta??, porque el PREP tenia por interes mostrar como “ganador” a un solo candidato en los resultados preliminares?? Tendria esto una influencia en el ejercicio del voto y aceptacion del mismo??
Investigadores en Psiquiatria y neurobiologia podrian darnos respuesta a estas preguntas.. en el articulo “Neurobiological Correlates of Social Conformity and Independence during mental rotation” del investigador G. S. Berns de Georgia Institute of Technology: http://www.ccnl.emory.edu/greg/ ..
demustra experimentalmente como nuestro cerebro opinion y toma de desiciones si conoce los datos de una supuesta “una mayoria” . Tal parece que nuestro cerebro tendria la tendencia a aceptar que la mejor alternativa es la que elije “la mayoria”.. (esto explica muy bien los fenomenos de moda)
Quizas el equipo de Mr. Calderon sabria la ventaja que puede dar, crear una “mayoria” fictiva o real para la aceptacion de un supuesto triunfo???
Un coordial saludo,
Victoria

3. G Sosa - Julio 6, 2006

Yo estoy totalmente decepcionado del IFE, definitivamente tuvo razón Manuel Bartlett cuando mencionó que el IFE era igual de confiable que en el 88.

4. Alex - Julio 6, 2006

Yo también leí un par de artículos de la jornada donde se hace referencia a esta análisis e incluso a otro hecho por el Prof. Jaime Ruiz-Garcia del Instituto de Física de la UASLP.

La otra gráfica podemos encontrarla en esta dirección:
http://www.jornada.unam.mx/2006/07/05/004o1pol.php

En parte del análisis que se hace en este segundo artículo mencionan la primer gráfica como fundamento de una teoría de un segundo algoritmo que ante un acercamiento en los votos de ambos candidatos, empezaría a quitarle votos a Obrador y a ponérselos a Madrazo. Sin embargo en el mismo análisis de Luis Mochan, en la figura 3, se ve que las lineas de número de votos siguen un patrón bastante estable, y que cuando, en efecto al final de la gráfica el PRI tiene un incremento casi imperceptible, los otros dos partidos sufren un decremento también casi imperceptible. Para mi, la mezcla entre una gráfica de porcentajes y una de votos acumulados muestran dos “realidades” totalmente distintas. Desafortunadamente pocas veces tenemos el tiempo para reconocer y distinguir entre dichas realidades, porque adicionalmente lo hacemos con información parcial, y una de las ventajas/desventajas de una gráfica es que se en muchos casos su interpretación es “intuitiva” y suele estar influida por nuestros deseos, conocimiento previo y contexto de la situación que refleja. Yo creo que tenemos que exigir que toda la información recibida y el orden de recepción sean hechos públicos. Para mi, sí resulta raro la ventaja permanente del candidato del PAN en el PREP, pero no podemos vivir de teorías de complot, lo que tenemos que exigirle a los partidos y a nosotros mismos es hacer una solicitud formal para que TODOS los datos sean hecho públicos de manera que la sociedad (con la ayuda de especialilstas que nos apoyen en la parte estadística y que seguramente muchos conocemos), pueda llegar a una conclusión “objetiva”. Yo creo que estamos en el “limbo”, porque se publican artículos en donde nos faltan miles de datos de juicio, y no hay nadie haciendo la solicitud de más información. Este “limbo” nos mantiene ciegos, y esa ceguera es equivalente al poco interés que el gobierno ha prestado a la educación, porque nos mantiene en el desconocimiento (si, a nosotros también, o seremos tan inteligentes? ). Sólo publicamos información que apunta a las conclusiones a las que queremos llegar, y tomamos conclusiones sin ir un poco más allá; en ese sentido, un reconocimiento a Luis Mochan, porque ha buscado mediante su análisis ir más allá, y ha planteado interrogantes que pueden despertar el interés de una sociedad que busca una verdad en medio de tanta basura política. La basura está ahí, muy por encima de lo que un programa de conteo de votos puede hacer. Los programas pocas veces mienten, los humanos lo hacemos casi siempre…. En contraste con un planteamiento objetivo, he visto que el trabajo de Luis se utiliza en artículos donde exhiben su trabajo como “prueba” de un fraude, ojalá todos los que lean esa palabra tengan el tiempo para ir un poco más allá y no quedarse simplemente en las preguntas, sino intenten buscar una respuesta.

Saludos,
Alex

5. Rodrigo Salazar Elena - Julio 6, 2006

Estimado Dr. Mochan:
En el contexto del foro de discusión de la Sociedad Mexicana de Estudios Electorales, tuve noticias de su muy interesante seguimiento al PREP. Transmito mis comentarios en ese foro, reproducidos sin más (por lo que me disculpo de antemano por el tono polémico que afdquieren).
Después de escuchar y leer tanta tontería por parte de los defensores del “caso AMLO”, realmente es un placer atender los argumentos de alguien que sabe realmente lo que hace. Si yo fuera dirigente perredista (y asumiendo que lo único que quiero en el mundo es ganar), me apresuraría a contratar los servicios de este señor. Tal vez por la formación científica del autor de la investigación, éste sabe que, cuando uno presenta resultados en apoyo de una hipótesis, también debe esclarecer las condiciones de “falsación” (es decir, qué nueva información sería contraria a la hipótesis). Es una de las precondiciones del debate realmente científico y de la honestidad intelectual y el autor las presenta.
En el análisis numérico del físico, se toman exclusivamente dos variables: el número de actas recibidas (variable independiente) y los resultados electorales (variable dependiente, con distintas mediciones). A partir de la observación visual de las curvas revisadas, se infieren desviaciones con respecto a los patrones de lo que se sabe es una comportamiento normal.
Ahora bien, en su análisis estrictamente numérico, no considera otras variables que influyen en los patrones de votación. En esto no tiene ninguna culpa, pues tal tarea habría requerido utilizar datos del último CENSO y, por lo tanto, agregar los datos electorales a nivel municipal. Me parece que también habría que añadir datos electorales de 2000 y 2003, con el fin de controlar por patrones históricos.
Consciente de que al menos una variable distinta a la acumulación sucesiva de datos debería explicar parcialmente los resultados electorales, el autor menciona en su análisis “verbal” que ésta variable es el tamaño de la localidad, toda vez que es conocido que el menor tamaño de localidad está relacionado con una mayor tardanza en el acceso a los datos (esto por sí mismo explica el comportamiento de la gráfica 2, como el propio autor reconoce).
Ahora bien, a mi juicio, el problema de sus conclusiones radica en que se basan en el supuesto de que la variable tamaño no está correlacionada con ninguna otra variable. Hacia el final del documento dice: “los datos de ciudades grandes arribarían antes que los de ciudades pequeñas y éstas antes que de poblaciones rurales. Sin embargo, no esperaría otras distinciones geográficas ni de clase socioeconómica. Por lo tanto me queda abierta la pregunta ¿son normales y explicables los datos mostrados arriba? ¿cual es su explicación? ¿son consistentes con resultados de elecciones previas?”. El supuesto es muy fuerte. En primer lugar, ya en sí la asociación entre tamaño y ruralidad es muy fuerte, y como ésta variable está asociada muy fuertemente con las preferencias electorales, el incremento exponencial del voto priista hacia el final del conteo (gráfica 1) tiene un buen candidato explicativo en esa variable (también el autor lo reconoce). Asimismo, con respecto a la curva del PRD, quienes seguimos el orden de entrega de las actas por estado notamos que las últimas (contra lo que declaró AMLO) se concentraban principalmente en estados del Norte, cuya vocación panista nadie podría poner en duda. Entonces el factor regional (además del tamaño) tendría que ser incorporado en el análisis. De igual forma, ya la asociación entre tamaño y ruralidad implica la asociación entre tamaño y otros factores socioeconómicos: por lo menos, escolaridad, ingreso, profesión y edad (incluso, por efectos de la migración, género predominante). Todas estas variables tienen efectos conocidos sobre las preferencias electorales (la asociación entre mayor escolaridad y preferencia por el PAN es tradicional; la que existe entre mayor ingreso y voto panista parece que fue bastante fuerte esta elección. Así, si estas variables tienen un efecto cierto sobre las preferencias electorales e independiente del efecto que tiene el tamaño, también incidirían en las variaciones de resultados a medida que van llegando las actas al PREP.
La figura 3 es la única que me parece cuestionable en sí misma. Efectivamente, el ritmo de crecimiento de los votos es igual. Sólo voy a decir que esto sólo puede ser motivo de sospecha si el PREP reportara un porcentaje de votos que no resulta de calcular los números absolutos. La figura no permite ninguna inferencia que no tome en cuenta los primeros 10 mil datos. Como estos son los que llaman la atención, cualquier conclusión sin mostrar su comportamiento es mera conjetura.
La figura 5, no entiendo muy bien por qué está expresada en términos numéricos. Lo único que me dice es que en el tramo entre 70 mil y 100 mil actas acumuladas (de hecho, un tramo puesto bajo sospecha) tuvieron como propiedad una especial concentración de votos a favor de López Obrador. En principio, no puedo poner bajo duda el tramo en el que se recupera Calderón sin poner en duda este otro tramo, pues ambos se salen del patrón. En cambio, la misma diferencia expresada en términos porcentuales presenta un comportamiento plenamente normal, con menores variaciones a medida que el número de actas se aproxima al total.
De esta forma, el único dato que parece por sí mismo para llamar a duda es el que explica las anomalías detectadas en la figura 4. Esta reducción de actas entre una medida y otra parece francamente extraña. Si bien la reducción no es muy impresionante (de 20 actas) tal vez quien quiera armar un caso tendría que comenzar a buscar por ahí.
Así parece ser que el factor tamaño, por su asociación con otras variables a su vez relacionadas con las preferencias electorales así como con el tiempo de llegada de los datos, podría explicar más de lo que el investigador supone. Es decir que su hipótesis de manipulación podría ser fácilmente contrastada con la mía (no manipulación), simplemente controlando por las variables socioeconómicas que plausiblemente afectan las preferencias electorales y se correlacionan con el tamaño de la población (una vez verificado, por si acaso, que el tamaño y el tiempo es un factor).
De esta forma, el análisis de nuestro investigador, aunque sustentado en datos no es concluyente.
Saludos,
Rodrigo Salazar

6. Hector Hernandez - Julio 6, 2006

Las gráficas estan PADRES pero ahora se tiene que hacer el mismo ejercicio pero con el conteo de las casillas realizado desde el día de ayer. ¿esperariamos ver resultados similares?. Quedo pendiente de éstas gráficas.

7. Pablo Meyer Rojas - Julio 7, 2006

Claramente los resultados progresivos del conteo de actas de ayer en la noche muestran que algunas de las suspicacias levantadas por el PREP en el analisis del Dr Mochan son falsas.
Un argumento se basa en porque calderon “estuvo arriba siempre” y que las “1000 primeras actas son anomalas”, y como viste en el conteo de ayer 5 de julio de actas AMLO “estuvo arriba siempre” (claro que Leonel Cota enseguida aviso que este era un engaño para posteriormente mostrar la ventaja del PRD).
Toda la discucion basada en especulaciones sobre que conteos llegan primero, se basa a mi parecer en argumentos dudosos de que cual casilla esta mas lejos…o como dijo ayer el PAN an que los del PRD bloqueaban los conteos en lugares de sabida mayoria del PAN. Se necesitan datos mas precisos para hacer un modelo del conteo (integracion lineal temporal) de votos.

Para mi la conclusion es que vivimos dos veces un absurdo conteo lineal en el tiempo que nunca fue representativo de tendencias y que el resultado final tanto del conteo rapido (de 7000 casillas) como del PREP y de las actas es coherente y da una minima ventaja a Calderon. Eso por lo menos es de rescatarse y subrrayar, en este “autocreado” mar de incertidumbre…

8. Absalom Zamorano Carrillo - Julio 7, 2006

Felicidades Dr Mochán, me pareció muy interesante su análisis e inmediatamente, desde hace dos días lo envié a mis contactos. Por otro lado, no quiero parecer ingenuo, pero le pregunto a Ud y al resto del foro: Dijeron en el radio que especialistas del IMAS-UNAM habían montado el sistema ¿Es esto cierto?, ¿los conocen?, como toda mi vida he estado en el IPN, algunas veces no conozco gente de la UNAM. Si los de la UNAM los conocen podríamos preguntarles si consideran la posibilidad de introducir un código (con ciertos condicionales lógicos, que los que alguna vez hemos programado no parecen tan difíciles de detectar) en el sistema de cómputo que altere los números en el PREP y/o en el último conteo de registros de actas. Si lo anterior es factible, tal vez se pueda auditar el sistema.
Dr. Absalom Zamorano
Profesor Titular, IPN.

9. Jeinny Solis - Julio 7, 2006

Hola Luis:
Yo soy simplemente una cuidadana que esta muy decepcionada con este porceso. Tu análisis es bien interesante, y da lugar a que nosotrso, cuidadanos comunes investiguemos más, cuestinemos más, exijamos más a este gobierno y sus funcionarios, que además, nosotros pagamos, y muy caro. La forma más fácil de aclaralo todo es contar públicamente voto por voto, asi no hay ninguna especulación sobre si la tendencia, si la gráfica ni nada en absoluto.

Pero lo que más me decepciona es primero, el afán del mantener el poder a toda costa, incluyendo la división tan profunda que se está creando con todo este proceso electoral. Realmente, pareciera que los pocos avances que logramos como sociedad para conjuntar un objetivo común, se van a la basura porque nosotros, ciudadanos, no estamos dispuestos a vernos a nosotros mismos como un solo país.

Porque este proceso nuevamente saco a relucir el eterno conflicto clasista y racista que padecemos desde hace siglos y que pareciera que no podemos superar. Porque no somos capaces de QUERER al otro le vaya tan bien como a mí. Porque seguimos pensando que con que a mí me vaya bien es suficiente. Los demás verán por si mismos, y si no, pues muy su problema.

En este proceso electoral me di cuenta que en realidad ningún candidato va a hacer por nosotros lo que nosotros tenemos que hacer por nosotros mismos, y eso es, ponernos de acuerdo como queremos vivir, pero considerando a todos, y luego, presionar a esas personas en el gobierno para que hagan los que nosotros como sociedad queremos y les pagamos por hacerlo. Basta de dejar que corrupción e intereses personales nos gobiernen. Es un trabajo grande, pero no pasará nada hasta que nosotros no lo hagamos valer.

En fin, lo que si me gustaría saber es como podemos empezar a presionar pero desde un flanco legal, que si hoy en día no existe o no nos lo permite como está, entonces como hacemos para cambiarlo, pero de verdad, lo que no quiero es quedarme aquí con los brazos cruzados viendo nuevamente a mi país dividirse.

Atentamente
Jeinny Solis

10. Eduardo Ramos - Julio 8, 2006

Me parece que es altamente irresponsable, que se hagan consideraciones de fraude electoral basados en puras suposiciones. El que el voto de las casillas computadas no sea similar en todo el pais es perfectamente posible y de hecho, logico. Es absurdo tratar de categorizar al pais pensando que todos debemos seguir un patron establecido.
Viendo los resultados tal como los publico el IFE, ¿No es mas logico pensar, que las tendencias de voto para senadores y diputados, son un reflejo de las preferencias de los electores?
Todos dicen que el IFE actuo mal, pero acuerdense que el que acusa debe probar sus acusaciones, y yo aqui no veo pruebas, solo suposiciones.

11. Guillermo - Julio 9, 2006

¿Hay algun plán para volver a realizar este estudio, pero ahora con los datos que se fueron dando en el conteo oficial? No se si estén disponibles, pero sería un buen ejercicio, sobre todo porque durante la mayor parte de ese conteo AMLO estuvo a la cabeza, lo cual me lleva a pensar en un axioma que aprendimos en primaria: “El orden de los factores no altera el resultado”, pero agregando un pequeño corolario: “Pero altera la opinión pública”.

Saludos.

12. Darío Segura - Julio 10, 2006

Hola.
Mi nombre es Darío Segura.

Como ciudadano considero el análisis del doctor Luís Mochán muy reconfortante, ya que personalmente recopile unos pocos datos y realicé mi propia estadística, sobre todo con el afán de anticiparme a las tendencias y conocer los posibles resultados.

Al final de la jornada montones de preguntas llegaron a mi mente. Cabe señalar que, como ya se ha dicho en este foro así como en otros medios, no son preguntas que sustenten un fraude.

Al haber tomado solo los datos necesarios para mi estadística no podía respaldar muchas de mis preguntas, ahora las considero un poco mas consistentes, repito, sin llegar a ser grandes causas de duda.

El uso horario tiene una diferencia de dos horas en el norte del país, una zona indiscutiblemente panista, lo cual explica porque en el conteo distrital los papeles se invirtieron en el último lapso. ¿Por que en el PREP el comportamiento no fue el mismo?. Se que la lejanía y dificultad de acceso de los poblados retarda el conteo, mi familia vive en el norte del país y no toda en las grandes ciudades norteñas, por lo cual puedo asegurar que en los estados del norte existe una gran cantidad de poblados de difícil acceso y lejanía. Solo hace falta considerar la sierra para imaginar la dificultad. De cualquier forma estos pueblos representan un porcentaje menor de votación, tanto en el norte, centro y sur del país. Dada la diferencia horaria, en teoría, se computaron mas votos de zonas perredistas que panistas, entonces, ¿no debería haber ganado AMLO en el PREP?.

En el conteo distrital AMLO estuvo en ventaja la mayor parte del tiempo, siempre cayendo lentamente. Si en el PREP también existió ese retraso de dos horas en los estados del norte, el avance en los conteos fue de al rededor de un 1% cada 5-10 minutos en las horas medias del PREP, lo cual representa al rededor de 400,000 votos, de los cuales al rededor del 70% se dividían entre AMLO y FCH y en ningún momento el PREP reportó una tendencia marcada hacia ninguno de los candidatos, es decir en promedio estuvieron empatados durante todo el conteo (1 voto para AMLO y 1 para FCH), al finalizar el PREP; con un 98.45 del total de actas; la diferencia de votos entre los candidatos es de 402,708 (casi la misma que al principio del conteo) y los votos restantes suman al rededor de 606,922, haciendo muy difícil un pico en las graficas. ¿Por que el PREP no presentó un comportamiento similar al conteo distrital?. ¿Por que el conteo distrital no responde a los datos arrojados por el PREP?. Si bien es cierto que modificando el orden del conteo el comportamiento de las graficas puede variar, ¿donde esta ese 90% del conteo del PREP con “empate técnico”?.

Estas son algunas de las preguntas que me molestan por las noches y no me dejan dormir. Quiero aclarar nuevamente que no considero ni mis estadísticas ni mis cuestionantes como aseveraciones de fraude, pero en un sentido personal no puedo confiar en ninguno de los resultados hasta que mis dudas sean aclaradas.

Como ciudadano mexicano exijo respuesta a estas y todas mis otras dudas para aceptar una elección limpia como alardean los medios. Estoy dispuesto, como muchos otros ciudadanos, a aceptar a quien sea el nuevo presidente de México, siempre y cuando pruebe la autenticidad de su elección popular, porque a final de cuentas, todos y cada uno de los políticos, que perciben un salario que sale de los impuestos que pagamos, son nuestros empleados, y como tales tienen la obligación de rendirnos cuentas, así es ahora y así será para quien quiera que resulte electo.

Para terminar quiero hacer referencia al final de una carta de Landy Patricia Aguilar Palafox a Vicente Fox Quesada.

http://em.fis.unam.mx/public/mochan/elecciones/archivos/msg00104.html

Gracias.
Suerte.
Darío Segura.

13. Juan Matos - Julio 11, 2006

Felicidades Dr. Mochan y le agradezco el tiempo que se ha tomado en explicar las dudosas cuentas del IFE. Este tabajo nos da argumentos para los que tenemos la impresión de que nuestro voto fue burlado. Siga adelante por favor, Saludos

14. Dra. Raquel Garza - Julio 12, 2006

Espero que un mayor número de expertos se sumen al análisis realizado por ustedes, que solo refleja lo que muchos que no sabemos de estadísticas sospechamos, una probable manipulación de las cifras de la elección para favorecer al candidato del estado. Con datos “duros” como estos, difundidos adecuadamente, el Tribunal debe ordenar la revisión. Sigan así, felicidades.

15. Cambalache - Julio 12, 2006

[...] Debe haber algunas excepciones, pero la única que he visto hasta ahora es el análisis del PREP de Luis Mochán, que busca anomalías en los datos sin dejar de lado la honestidad intelectual y explicando las limitaciones de sus conclusiones. Si algo así se hubiera realizado en elecciones anteriores nuestras discusiones de las últimas semanas habrían sido un poco distintas y más provechosas. [...]

16. David Velázquez - Julio 12, 2006

Mientras estaba leyendo su análisis recordé mis tiempos de escuela.
Un día, mi profesor de matemáticas nos estaba explicando una complicada fórmula. A mí el álgebra me fascinaba en esos tiempos, bueno, todavía. Él comenzó a trabajar en el pizarrón para corroborar un resultado. Casi desde que inició levanté la mano y él, aunque me vio, decidió continuar. Estuve con la mano levantada la media hora que él tardó en hacer todos los cálculos. Al final, el resultado no era lo que él esperaba. Revisó y revisó y nada. Y yo, ahí seguía con mi mano levantada. Él se puso rojo, casi a punto de estallar. Por fin, cuando se dio cuenta de que no encontraba dónde estaba el problema, volteó y me gritó: “¡¿Qué quiere?!”. Entonces le dije que al principio de la fórmula faltaba una variable.

Igualmente ahora, comencé a leer y leer y estaba esperando a que en algún momento pensara usted en esa variable. Ya terminé de leer y creo que no. Espero que no me grite ni se ponga rojo pero…
no veo en ningún lado que haya tomado en cuenta los Votos de los Mexicanos Residentes en el Extranjero.

He leído en otros análisis sobre los datos del prep mencionando que es imposible que haya arrancado con ventaja al inicio del conteo, pero si se considera que al arranque ya se habían contado los votos de los residentes en el extranjero…

PAN 19,016; PRI-PVEM 1,360; PRD-PT-Conv 11,090; NvaAlianza 128; Alternativa 887; Otros 29; Nulos 111. Esto es: PAN 58.3%; PRI-PVEM 4.2%; PRD-PT-Conv 34%; NvaAlianza 0.4%; Alternativa 2.7%; Otros 0.1%; Nulos 0.3%.

Espero que pueda usted rehacer sus cálculos incluyendo estos números. Yo, por mi parte sigo bajando las bases de datos para realizar análisis a partir de modelos multidimensionales y utilizando herramientas de minería de datos.

La liga de donde se pueden bajar las bases de datos definitivas del prep es: http://www.ife.org.mx/prep2006/bd_prep2006/bd_prep2006.htm

La liga de donde se pueden bajar los cortes de datos tal y como se veían en la página del prep es: http://prep2006.ife.org.mx/PREP2006/historialActas.html

Espero le sirvan estos datos y le felicito por el análisis y la imparcialidad con la que los está realizando, ya que, aunque en La Jornada lo están utilizando como ‘prueba del fraude cibernético’ usted jamás ha hecho una aseveración en ese sentido.

17. Rev. Jorge Mendoza - Julio 12, 2006

Al cientifico Luis Mochan:
Estoy profundamente indignado de las artimanas de quienes ostentan el poder para continuar en el favorecimiento de una oligarquia en prejuicio de nuestro estoico Pueblo mexicano.

Y en base a mi dolor y reclamo, agradezco la intervencion y buen tino de usted por la participacion cientifica y no oficial del calculo estadistico, de las pasadas elecciones de julio 2006, para subrayar las anomalias presentadas que vilmente favorecen a grupos de la ultraderecha, en detrimento de la democracia.

Aun cuando su exposicion cientifica puede ser elevada para nosotros, los laicos de la ciencia, estuve mayormente interesado en su conclusion, y con profunda pena tuve que darme cuenta que lo que he leido y escuchado, en otros medios, referente a esta terrible decepcion electoral, resulta en una cruel realidad comparada a la luz de la ciencia estadistica.

Agradezco su valiente participacion, y espero que pueda en el futuro hacer otra nueva exposision de su investigacion en palabras mas llanas, para que el Pueblo pueda conocer la avanzada canallada que osa utilizar la nueva dictadura ultraderechista.

Bajo la Gracia de Cristo

Rev. Jorge Mendoza
Pastor del Ministerio Hispano de la UMC en Conroe, Texas, USA

18. Rev. Jorge Mendoza - Julio 12, 2006

exposicion

19. Ivan Tubert - Julio 14, 2006

La Ley de Benford tiene excepciones obvias que hay que tomar en cuenta. Quisiera dar un ejemplo para hacer más claro por qué las desviaciones observadas no son significativas.

La demostración matemática de dicha ley requiere que la distribución en cuestión sea “invariante según la escala”, lo cual requiere intuitivamente que la distribución abarque varios órdenes de magnitud. Como ejemplo concreto, consideremos la distribución de estaturas de los humanos adultos medida en metros. Estimo que más del 98% de la población va a tener un 1 como primer dígito. Y si lo medimos en pies, los dígitos más populares serían el 5 y el 6. Esta “desviación” de la ley se debe a que el rango de estaturas humanas es muy pequeño, lo que causa que no sea invariante con la escala. Si hubiera humanos desde 1 cm hasta 1 km de estatura distribuidos de manera aleatoria, sería más razonable esperar que se cumpliera la ley de Benford.

¿Que tienen que ver las estaturas humanas con estas elecciones? Bueno, si consideramos que el número de votos promedio por casilla es de 300-400, y que los candidatos en cuestión obtuvieron más o menos 1/3 de la votación, debería ser obvio que el primer dígito más común va a ser el 1, ya que en promedio cada candidato tendrá entre 100-199 votos por casilla. No es tan dramático como el 98% en el caso de las estaturas humanas, dado que también fue bastante común tener menos de 100 votos (o en algunos casos mas de 200), pero un rango cercano a 40-45% no debería ser ninguna sorpresa.

20. Escenarios con el simulador de conteos distritales: El orden de los factores no altera el producto » chachalacas.org - Julio 17, 2006

[...] Muchas gráficas y análisis pocos serios se han hecho, siempre pensando en que la muestra debía ser homogénea y además al azar. Creemos que no es el caso, y los gráficos siguientes lo hacen ver más claramente. Queremos resaltar que el Dr. Mochán ha iniciado un análisis más exhaustivo de estos resultados. [...]

21. Eduardo izquierdo - Julio 18, 2006

Estimado Dr. Mochán:

Tengo algunos comentarios sobre su estudio (que, por otro lado, me parece muy interesante y útil). El primero y más importante, es que estamos ante “conteos”, es decir, datos categóricos. No comparto la opinión de quienes ven en estos datos comportamientos “anómalos” o “extraños”, pues me atrevería a apostar que emiten estos juicios sin verdadero conocimiento de causa: ¿cuántos datos más de elecciones, o de tablas de contingencia pxq, con p>>q y subtotales por columna y renglón >> que p ó q, con datos de celdas tomados sobre poblaciones posiblemente con gran grado de heterogeneidad han analizado, para atreverse a afirmar que los datos de esta elección son “anómalos”? Recordemos que nuestros datos son de naturaleza discreta (¿qué sentido tendría hablar de “35.6 votos en 54.3 casillas”?) y todo ajuste de un modelo continuo es solo aproximativo y no refleja en verdadero mecanismo detrás de la generación de los datos. El análisis de datos de este tipo es aún un campo muy verde y algunos de los desarrollos más recientes proponen modelos complicados que son mezclas (finitas o no) de distribuciones Poisson (con o sin parámetro extra para sobredispersión) o binomiales negativas (ambas distribuciones comunes en el modelado de conteos), así como modelos Poisson “semi-no paramétricos”. Visto de esa forma, las aparentes formas “raras” de las distribuciones de número de casillas contra número de votos para los diferentes candidatos admitirían una explicación natural, así como las desviaciones con respecto a la normalidad (¿por qué la distribución de la diferencia de datos posiblemente de mezclas de distribuciones Poisson habría de ajustarse a una normal, si, de entrada, ni siquiera son datos naturalmente continuos?). En varias de sus observaciones usted apunta en lo que me parece es el sentido correcto: como por ejemplo, las diferencias entre el voto “norteño” y el voto “sureño” y otras más. La característica que usted llama anómala en la parte izquierda de la gráfica de Calderón podría explicarse por el “efecto Tabasco” (y posiblemente también por Guerrero), donde a Calderón le fue muy mal (el efecto “hijo del terruño”), con AMLO llevándose la mayoría de los votos de esa(s) zona(s), seguido por Madrazo y Calderón en un muy, muy distante tercer lugar.

En cuanto a la ley de Benford, el comentario más arriba vertido y algunas de sus observaciones (efectos por finitud, datos no invariantes a cambios de escala) explican por qué las distribuciones del primer dígito para los números de votación de los candidatos no se ajustan a ella, pero si se da un ajuste razonable para la suma del total de votos. Con esto en miras, un investigador de una universidad de los EE.UU. (Cornell University) hizo un estudio aplicando la ley de Benford a las distribuciones del segundo dígito (no el primero) de los resultados de votación de elccciones en el vecino país del Norte. Tengo copia de su estudio, pero no le he terminado de leer, con mucho gusto puedo proporcionarlo. Tampoco he hecho yo el ejercicio de ver si los segundos dígitos se ajustan a la ley de Benford, pero serí muy deseable que alguien lo realizara. También aclara que hay mucha controversia entre los investigadores sobre si ésta es una técnica válida para hacer análisis de supuestos fraudes.

Como usted, coincido en que varias irregularidades deben ser explicadas por las autoridades electorales (discrepancia entre boletas y votos, entre actas para senadores, presidente y diputados, baja calidad en la entrega de resultados del PREP, etc.), pero, ésto aparte, yo no veo aún “cuchareo” alguno en los datos mismos de los conteos distritales y el PREP.

Afectuosamente

22. Guillermo - Julio 19, 2006

Hola,

¿Como van esos estudios de los resultados? Me imagino que ya no son tan necesarios, ahora que AMLO ya aclaró que no hubo fraude cibernético ni alteraciones en el PREP, como había afirmado anteriormente:

http://www.eluniversal.com.mx/nacion/140760.html

Saludos.

23. Rodrigo Méndez - Julio 20, 2006

Estimado Dr.

he tenido el gusto de revisar el estudio que tan amablemente ha puesto a disposición del público por medio de su página web y pienso, como algunos de los comentarístas de este foro, que su análisis a pesar de tener fundamentos matemáticos y estadísticos sólidos, no considera la amplia gama de factores sociológicos que pueden influir en los resultados y las tendencias reportadas, debido a la regionalización y segmentación social de las preferencias electorales.

Recalcar esto me parece especialmente importante ya que, a pesar de que usted mismo declara que es apenas el comienzo de un estudio científico formal y que no puede ser considerado como completo, a mi parecer usted le da un tinte algo partidista al declarar en sus conclusiones que “es razonable sospechar que pudo haber habido una manipulación de los resultados reportados por el PREP”. y de tal forma, y lo digo con el mayor respeto posible, le resta un cierto grado de credibilidad a los resultados del estudio, puesto que queda en tela de juicio qué variables faltaron por considerar y cuál fué la razón científica o personal que ocasionó tal omisión, en caso de haberla.

De cualquier forma reconozco el esfuerzo impreso en la realización del estudio y espero que pueda llegar a completarse su análisis científico para que sirva de sustento a quien lo requiera en caso de en realidad se puedan apreciar irregularidades con base en los resultados finales.

De cualquier forma, creo que el argumento político en esta contienda se ha impuesto por mucho sobre lo que puedan decir las cifras, y sin importar a quien favorezcan o no, el juego ahora se basa en lo que se haga creer a la opinión pública, que en general no se lleva tan bien con las cifras y menos a este nivel.

Saludos.
Ing. Rodrigo Méndez
http://www.rodrigomendez.com

24. QFB Gloria García R. - Julio 22, 2006

Si es interesante el estudio presentado.

Yo no le veo un tinte partidista al comentario final. Me parece que los mexicanos en general ya no creemos en las instituciones y mucho menos en quienes las dirigen, así que ¿Por qué no pensar en la posibilidad de un uso amañado del software? Claro que hace falta más trabajo para llegar a saber si en verdad es descartable tal posibilidad, que dicho sea de paso, en este país tiene una gran probabilidad.

Lo de la ventaja inicial de calderón, como bien mencionaron arriba, pudo deberse a que no se han tomado en cuenta en elestudio los votos emitidos en el extranjero, y pensando que los residentes legales, quienes podían votar, no son los pobres que van a buscar trabajo en los cultivos americanos, sino los pudientes, muchos empresarios, “artistas”, artistas, científicos, políticos, etc. eso si que daría una tendencia clara, sociológicamente hablando!

Saludos y felicidades por estre trabajo que comienza.

25. Rodrigo Méndez - Julio 22, 2006

Estimada QFB Gloria,

El hecho de que los mexicanos en general, como usted dice, “ya no creemos en las instituciones”, no quiere decir que emitir un juicio de valor en las conclusiones de lo que intenta ser un estudio científico formal deje de ser tomar partido y mucho menos con todo lo que está en juego en este tema.

Ni siquiera si el objetivo del estudio fuera “demostrar que existió una manipulación malintencionada en el PREP”, sería correcto de acuerdo con los parámetros formalistas hacer tal declaración en las conclusiones sin un argumento científico determinante y dificil de apelar (el cual, dicho sea de paso, no sería tan duro conseguir de haber habido un fraude “burdo” o a la “antigüita” como se ha estado sosteniendo a últimas fechas; no sería lo mismo si hubiera sido uno matemáticamente confeccionado).

El punto de todo esto es evitar que se demerite el estudio del Dr. por inyectarle un poco de sus preferencias personales, a menos claro, que esa sea su intención inicial, en cuyo caso más que estudio sería editorial, y toda esta discusión saldría sobrando.

Saludos,
Ing. Rodrigo Méndez
http://www.rodrigomendez.com

26. Dr. Fernando Rodriguez Salazar - Agosto 1, 2006

Algunos comentarios en relacion a tus paginas.

1- En el analisis de la figura 1 cuestionas como atipico el hecho de que al inicio del computo se establezca una diferencia en favor de Felipe. Para mi no existe ninguna dificultad en entender esta diferencia. Faltaria unicamente incluir algun intervalo de confiabilidad para ver que el error estadistico es muy grande al inicio del computo, y se va reduciendo a medida que se incrementa el numero de actas capturadas.

La ausencia de fluctuaciones es perfectamente normal sobre todo cuando ya existen una cantidad estadisticamente importante de actas capturadas debido a que cualquier inestabilidad transitoria es disminuida por la cantidad de votos procesados. En este sentido es mucho mas interesante el analizar el maximo de AMLO que se da alrededor del 70%. Para explicarlo es necesario suponer que hay un afluente grande de votos en su contra (lo cual analisas correctamente en tu pagina).

2.- La anomalia en la grafica 4 al rededor de las 62000 actas capturadas es muy interesante. Quizas aqui hubo un cambio importante en el flujo de informacion entre los dos mexicos. Lo mas interesante es que despues de este cambio se registra una inversion entre AMLO y Felipe (hay fraude a favor de AMLO?). Son muy interesantes las anomalias al final de la grafica (y que se den entre todos los candidatos). Tambien me interesa saber porque el numero de votos por casilla disminuye a medida que el computo avanza. Quizas sea porque son casillas de comunidades remotas que tardaron mas tiempo en llegar. Y quizas la mera cola de la votacion sean casillas que sufrieron irregularidades (donde ves casillas con 8000 votos y asi). Segun veo en la grafica deben de ser alrededor de 1500 casillas.

3.- La figura 5 repite datos visto en las figuras anteriores. En especifico la anomalia se debe al incremento de votos en favor de AMLO a partir de la discontinuidad que se da en la figura 4 alrededor de las 63000 actas.

4- En la figura 6 te preguntas “¿Por qué la extrapolación hacia el lado derecho de la gráfica es tan buena, mientras que la extrapolación hacia el lado izquierdo es tan mala? ” La razon es muy sencilla, porque al moverte hacia la izquierda uno debe de esperar cambios ABRUPTOS, no lineales, por el muy peque~o numero de casillas computadas (como puedes observar en tu figura 8, por poner un ejemplo), y para citarte a ti “Durante la primera hora hay fuertes fluctuaciones, lo cual era de esperar, y las curvas se cruzan algunas veces”. Sinceramente y sin afan de ofender te comento que a veces la pasion nos ciega (y reitero sin afan de ofender, porque me parece ejemplar el tiempo que has tomado a hacer este analisis y sobre todo porque tus comentarios tratan de ser muy objetivos).

5. En la figura 13 la franja de Calderon no desaparece, sino que baja considerablemente. De igual manera sube la franja de AMLO, mientras que la de Madrazo parece permanecer constante. La respuesta debe de ser porque las actas procesadas no son una representacion estadistica sino que siguen el orden de “como van llegando”. A partir del acta 90000 pareciera que el voto proviene de regiones mas alejadas donde no se favorece a Calderon, sino a AMLO.

6. El problema con la figura 17 (y subsecuentes, tal como la 29) se debe a que (muy probablemente) existe una correlacion entre el numero de votos por casilla y la preferencia politica (ademas de una doble distribucion por ser un pais dividido). Es decir, casillas “peque~as” parecen favorecer mas a AMLO (tal vez porque provienen de comunidades alejadas y rezagadas, aunque no lo se. Porque no haces una grafica?) como se puede ver en la figura 4, justo antes de las variaciones tremendas de 8000 votos se observa que AMLO esta por arriba entre las casillas 110000 y 120000; pero notese que la suma de votos en esta region es SIGNIFICATIVAMENTE menor (es decir, estas son casillas peque~as). Esto no sucede con los votos del PRI (como tambien se puede observar). De este modo la primera parte (que parece recta) esta modulada por este favoritismo, y esta modulacion desaparece con casillas “grandes”. Matematicamente esto explicaria la curva. La grafica de Calderon se puede explicar de manera similar (aunque pareciera que en comunidades aun mas peque~as pudiera haber cierto favoritismo hacia el, no lo se, esto requiere mas estudio). (Algo que me parece muy extrano de estas graficas es que la integral bajo el area de ninguna manera da el numero de votos correcto (la integral es del orden de 100000 votos), lo cual pone en duda cualquier analisis sobre ellas.)

Esto se observa tambien muy claramente en la figura 21.2. AMLO tiene preferencia en casillas peque~as, y Calderon en casillas “grandes”. Una situacion puramente politica.

“En la figura se ve claramente que las curvas corresondientes a Calderón y a AMLO son my cercanas entre sí y siguen un comportamiento normal en la región correspondiente a actas con más de 180 votos cada una. Sin embargo, cerca de 180 votos, la curva corerspondiente a AMLO cambia abruptamente de pendiente situandose a la izquierda de este punto por debajo de Calderón. No he podido encontrar una explicación para este cambio abrupto”

====>>>> Pues la explicacion es la polarizacion de la sociedad. Que esperas encontrar si en poblaciones peque~as (correlacionadas con casillas peque~as) existiera favoritismo a AMLO, y en poblaciones mayores no?

7. Figura A25 — Uff! me asuste al ver esto! Excelente figura. Claro, si obtienen menos de 10, es de esperarse!

8.- ley de Benford (LB) -> Yo no la conozco. Pero me parece poco cientifica… Que pasa si cambias los numeros a base 5? A base 2? Tendre que leer al respecto (que caracteristica tienen que tener los numeros para que obedescan dicha ley? Si son aleatorios dentro de un rango limitado te aseguro que no tienen porque obedecerla!)

Un saludo y a seguir con objetividad.

Dr. Fernando Rodriguez
Dept. of E&E Engineering
University of Glasgow

27. Dr. Fernando Rodriguez Salazar - Agosto 2, 2006

Estimado Luis,

Me quede pensando en tu analisis del ultimo digito (que parece tener demasiada variacion, por ejemplo en Guerrero segun comentas en tu pagina). Sin embargo existe una falacia en suponer que el ultimo digito debe de tener una distribucion aleatoria. Esto no es asi (el ejemplo mas obvio es en el resultado que muestras de los partidos peque~os, donde los votos son de un solo digito).

Para demostrarlo propongo el siguiente experimento estadistico. Tomamos (aleatoriamente) un numero entre 0 y 23 repetidamente (para hacer una muestra grande). Que debemos de esperar? Que los numeros (0,1,2,3) tendran mayor probabilidad de aparecer (p=3/24) contra (p=2/24) para los otros digitos.

Ahora el problema se complica mas. Supongamos que repetimos el experimento anterior 1000 veces (tenemos 1000 muestras). Ahora variamos el experimento, de tal manera que en lugar de generar numeros entre 0 y 23 lo hacemos entre 0 y 24; y obtenemos otras mil muestras. Ahora lo hacemos entre 0 y 25, y asi sucesivamente hasta cumplir todos los numeros entre 0 y algun limite superior, por ejemplo 300. Que debemos de esperar esta vez? Nuevamente debemos suponer que el numero 0 es mas favorecido, luego el 1, luego el 2, etc.

Este ultimo sistema corresponde a los votos arrojados en las casillas (donde la votacion total no es fija, sino que varia). Si suponemos que esta variacion esta distribuida uniformemente podemos obtener unos resultados. Las matematicas se complican un poco (son no lineales), pero te comento que la probabilidad esta dada por la recurrencia:

P(d, i+1)= (i+1) P(d,i)/(i+2) + floor ((i+11-d)/10)/(i+2)^2

donde: d -> es el digito que te interesa (0 es el numero del limite superior (es decir la probabilidad calculada es la de que tiene el digito d en ser muestreado en muestras con i o menos numeros).

con condicion inicial P(0, 0)=1 y cero para todos los demas.

Y cual es el resultado de todo esto? Pues si suponemos por ejemplo que un candidato obtiene resultados distribuidos entre 0 y un numero maximo de 150 votos (i=150), entonces las probabilidades del ultimo digito son como siguen:
(0 -> 0.121 1 -> 0.112, 2-> 0.107, … 9 -> 0.086) y no como tu analisis supone p=0.1 para todos los digitos.

Este analisis se puede mejorar incorporando la distribucion real de votos por candidatos (no creo que sea lineal como mi analisis supone), sino quizas sea normal. De cualquier manera no hay razon para suponer que el digito final de los votos tenga exactamente una distribucion lineal (p=0.1) para todos. Esto no es cierto en general; aunque seguramente al acoplar la distribucion normal al modelo las diferencias entre digitos sean menores a las que calcule.

Cuando los numeros (de votos) se vuelven mas grandes, la distribucion se aproxima mas a la lineal que tu supusiste, aunque lentamente (aun cuando i=1000 la probabilidad de obtener un “0″ es 0.097, lo cual aun difiere en un 3%).

Por estas razones me parece que es invalido tu analisis en relacion a la distribucion del ultimo digito.

Saludos,

Fernando

28. jmrobledo - Agosto 3, 2006

“…Ejercicios de este tipo, realizados por ciudadanos con conocimientos en matemáticas y estadística, y que gracias a internet están disponibles para el resto de los ciudadanos, demuestran que la exigencia del conteo voto por voto no es meramente una estrategia electoral…”

http://dosmilseis.blogspot.com/2006/08/la-duda-sustentada-en-nmeros.html

29. J.Solis - Julio 15, 2007

Este blog ha estado callado por mucho tiempo ya… Casi un año del despojo, pero no de unas elecciones, sino de la esperanza de muchos de vivir mejor. Hoy, a casi un año después, vemos que nada avanza, nada mejora, más amigos, vecinos conocidos están sin trabajo, mas amigos, vecinos conocido están yendo a EU a trabaja para comer, a comprar con su trabajo un futuro para ellos y sus familias que aquí no tendrán, por fuerza de unos que lo quieren todo. Más y más mejinacos se ven despojados hasta de su posibilidad de expresarse. el reciente caso de Monitor fue como un golpe más, y dentro de esta desesperanza, hoy escuché nuevamente una canción que me ayuda un poco a pasar por estos tiempos aciagos en mi país:

Sólo le pido a Dios
que el dolor no me sea indiferente,
que la reseca muerte no me encuentre
vacío y solo sin haber hecho lo suficiente.

Sólo le pido a Dios
que lo injusto no me sea indiferente,
que no me abofeteen la otra mejilla
después que una garra me arañó esta suerte.

Sólo le pido a Dios
que la guerra no me sea indiferente,
es un monstruo grande y pisa fuerte
toda la pobre inocencia de la gente.

Sólo le pido a Dios
que el engaño no me sea indiferente
si un traidor puede más que unos cuantos,
que esos cuantos no lo olviden fácilmente.

Sólo le pido a Dios
que el futuro no me sea indiferente,
desahuciado está el que tiene que marchar
a vivir una cultura diferente.

León Gieco (Autor)

http://www.youtube.com/watch?v=qhvWwBjmlsQ

Saludos,

J.Solis

30. J.Solis - Julio 15, 2007

Este blog ha estado callado por mucho tiempo ya… Casi un año del despojo, pero no de unas elecciones, sino de la esperanza de muchos de vivir mejor. Hoy, a casi un año después, vemos que nada avanza, nada mejora, más amigos, vecinos conocidos están sin trabajo, mas amigos, vecinos conocido están yendo a EU a trabaja para comer, a comprar con su trabajo un futuro para ellos y sus familias que aquí no tendrán, por fuerza de unos que lo quieren todo. Más y más mexicanos se ven despojados hasta de su posibilidad de expresarse. el reciente caso de Monitor fue como un golpe más, y dentro de esta desesperanza, hoy escuché nuevamente una canción que me ayuda un poco a pasar por estos tiempos aciagos en mi país:

Sólo le pido a Dios
que el dolor no me sea indiferente,
que la reseca muerte no me encuentre
vacío y solo sin haber hecho lo suficiente.

Sólo le pido a Dios
que lo injusto no me sea indiferente,
que no me abofeteen la otra mejilla
después que una garra me arañó esta suerte.

Sólo le pido a Dios
que la guerra no me sea indiferente,
es un monstruo grande y pisa fuerte
toda la pobre inocencia de la gente.

Sólo le pido a Dios
que el engaño no me sea indiferente
si un traidor puede más que unos cuantos,
que esos cuantos no lo olviden fácilmente.

Sólo le pido a Dios
que el futuro no me sea indiferente,
desahuciado está el que tiene que marchar
a vivir una cultura diferente.

León Gieco (Autor)

http://www.youtube.com/watch?v=qhvWwBjmlsQ

Saludos,

J.Solis

31. onionskin - Junio 3, 2008

Onionskin says : I absolutely agree with this !

32. jess - Abril 3, 2009

CREO QUE EN ESTE BLOQ MAS ALLA DE LOS APASIONAMIENTOS DEBERIA DE ESCUCHAR Y LEER A LOS PROFESIONALES EN LA MATERIA Y NO PASARLOS POR ALTO SOLO POR QUE NOS DICEN O SUGIEREN QUE NUESTROS SOSPECHAS O TEMARES SON INFUNDADOS.
YA LEYERON LO QUE DICE EL Dr. Fernando Rodriguez Salazar ???

APUESTO QUE ALGUNOS SI PERO COMO A MUCHOS AQUI NO LES GUSTA , MEJOR SE LO SALTAN Y PREFIEREN SEGUIR HACIENDO AL MARTIR.

EN CUANTO AL EJERCICIO DEL DR Luis Mochán ME PARECE MUY INTERESANTE Y EL LEGUAJE QUE MANEJA MUY ADECUADO Y PRUDENTE, EN FIN MUY PROFESIONAL, ESPERO CONTINUO CON ESTE TIPO DE EJERCICICOS.
Saludos , recuerden , la verdad no hace libre,que yo crea que la luna es de queso no quiere decir que eso sea cierto.

33. jess - Abril 3, 2009

el ejercico realmente no permite concluir nada, mas que la buena intencion de hacer algo y la falta de consideracion de algunas otra variables explicativas.
Creo que tambien deberia de fundamentar los resultados en base a observaciones de proces electorales en otros paises y que cuentan con instrimentos similares como los prep, abria tambien que revisarse la logistica en cuanto al flujo de informacion ,etc , etc y muchos mas etcs.