Sin datos electorales, solo el censo. Así logramos replicar el mapa del voto en Chile

→Métricas principales

analytics Pearson

0.692

domain Comunas

45

Región Metropolitana

grid_4x4 Manzanas

8.424

Granulometría Censal

track_changes MAE

5.7^pp

Error Absoluto Medio

01El desafío

¿Pueden 218 variables censales replicar la decisión del voto?

Valkoru construye agentes sintéticos a partir de 218 variables censales del Censo 2024. Cada manzana censal genera un agente que representa el perfil sociodemográfico de quienes la habitan: nivel educativo, tipo de empleo, tenencia de vivienda, acceso a servicios, composición etaria, movilidad y más.

La pregunta es directa: ¿pueden estos agentes, que nunca vivieron el Chile de 2022 y nunca votaron, replicar el comportamiento real de un territorio? Más importante aún: lo hacen sin haber sido entrenados en datos electorales — únicamente a partir de contexto estructural.

Si el modelo puede reproducir la lógica de una decisión tan compleja como el voto —que combina identidad, emociones y contexto socioeconómico— entonces puede aproximar cualquier otra decisión territorial: adopción de productos, respuesta a campañas, aceptación de políticas.

Para probarlo necesitábamos un evento con resultados públicos y granulares, alta diferenciación territorial y suficiente distancia temporal para que los datos censales fueran estables. El Plebiscito Constitucional del 4 de septiembre de 2022 cumple las tres: resultados por mesa en el SERVEL, diferenciación pronunciada entre comunas (Vitacura 86% Rechazo, Recoleta 52% Apruebo), y evento anterior al Censo 2024 que usamos como fuente.

02Metodología

Datos censales → perfil por manzana → decisión simulada → resultado agregado.

En simple: tomamos datos censales reales por barrio → construimos un perfil por manzana → simulamos la decisión individual desde ese contexto → agregamos los resultados por comuna. Sin encuestas, sin datos históricos del evento, sin entrenamiento específico en política.

Variables censales

Cada manzana llega al agente con un perfil de 218 variables: composición etaria, escolaridad promedio, tasa de ocupación, categorías CIUO de empleo, tipo y calidad de vivienda, tenencia (propia/arrendada/cedida), hacinamiento, acceso a internet, modo de transporte al trabajo, proporción de inmigrantes y de personas que se identifican con pueblos originarios.

Índice político-económico

Sobre estas variables construimos un índice continuo (0=muy progresista, 100=muy conservador) que pondera interacciones no lineales: escolaridad alta + edad madura + propiedad pagada produce un perfil distinto que escolaridad alta + juventud + arriendo. El índice se usa para el muestreo estratificado, no se envía directamente al modelo de lenguaje.

Muestreo estratificado

En lugar de tomar manzanas al azar, dividimos cada comuna en quintiles por perfil socioeconómico y muestreamos proporcionalmente (hasta 200 manzanas por comuna). Esto evita sobrerrepresentar un solo perfil NSE.

Estímulo y respuesta

Cada agente recibe el contexto del plebiscito con argumentos equilibrados de ambos lados, sin cifras de encuestas ni slogans asimétricos, y responde con un score continuo de 0 (Apruebo convencido) a 100 (Rechazo convencido), junto con una razón de hasta 40 palabras. % Apruebo = 100 − score_promedio.

03Resultados

Pearson 0.692 — la estructura espacial del voto se preserva.

0.692

Pearson

0.432

Spearman

5.7 pp

MAE

−1.3 pp

Sesgo medio

Si ordenas las 45 comunas de más Apruebo a más Rechazo, el modelo reproduce prácticamente el mismo ranking que la realidad. Predijo correctamente la tendencia en 4 de cada 5 comunas, con un error promedio de 5.7 puntos porcentuales —comparable a los márgenes de encuestas comunales— y un sesgo de apenas −1.3 pp. La correlación de Pearson de 0.692 confirma que la estructura espacial del voto se preserva.

Mapa interactivo — score simulado por manzana

Pasa el cursor sobre cualquier manzana para ver el score, el voto simulado y la razón

Pantalla completa ↗

Azul = Apruebo simulado · Rojo = Rechazo simulado. El gradiente muestra la intensidad: azul oscuro (Apruebo convencido, score 0–30), gris (indeciso, ~50), naranja–rojo (Rechazo, 75–100). Cada manzana tiene su propio score calculado desde 218 variables censales.

Scatter plot: % Apruebo simulado vs % Apruebo real por comuna

Scatter plot simulado vs real · Línea punteada = predicción perfecta · Línea sólida = regresión

El gráfico muestra que el modelo captura correctamente los extremos del espectro: Vitacura (21.8% sim / 13.9% real) y Lo Barnechea (27% / 16.8%) anclan la esquina conservadora, mientras Santiago (54.4% / 46.3%) y Recoleta (49% / 48.1%) se ubican en la esquina progresista.

Mejores predicciones

Comunas donde la simulación reprodujo casi exactamente el resultado real del SERVEL.

Proyección Valkoru

Servel Oficial

Isla de Maipo

0.1 pp error

Proyección Valkoru 37.3%

Servel Oficial 37.4%

San Miguel

0.2 pp error

Proyección Valkoru 49.7%

Servel Oficial 49.9%

El Monte

0.6 pp error

Proyección Valkoru 40.1%

Servel Oficial 39.5%

Recoleta

0.9 pp error

Proyección Valkoru 49.0%

Servel Oficial 48.1%

Providencia

1.4 pp error

Proyección Valkoru 42.2%

Servel Oficial 40.8%

El modelo captura correctamente el ranking territorial completo: Vitacura / Las Condes / Lo Barnechea como los tres más conservadores, y Recoleta / Santiago / Quinta Normal como los más progresistas — el mismo orden que los resultados reales.

04Análisis de discrepancia

Dónde falla — y qué nos dice.

La transparencia es el núcleo de nuestra metodología. Los errores no son ruido: revelan dónde los datos censales no capturan fenómenos sociales emergentes.

Error por comuna: simulado menos real en puntos porcentuales

Barras de error (simulado − real) · Línea punteada = sesgo medio (−1.3 pp)

Maipú

−14.9 pp

Comunas de clase media con alta heterogeneidad interna. El modelo asocia "propietario con empleo formal" con Rechazo, cuando muchos de esos perfiles votaron Apruebo por demandas post-estallido 2019.

Puente Alto

−11.1 pp

Perfiles sociodemográficos muy mezclados: manzanas de clase media consolidada conviven con sectores más vulnerables. El perfil promedio no captura la diversidad interna.

Pedro Aguirre Cerda

−11.1 pp

El Apruebo en clase media tuvo un componente de aspiración social y clima emocional post-estallido no observable en variables de tenencia o escolaridad.

Cuando el modelo falla, está señalando una zona donde el comportamiento real diverge de lo estructural — eso es información valiosa, no un defecto del sistema. El sesgo sistemático de −1.3 pp es conocido y calibrable por segmento.

05Conclusión

El modelo genera un sistema que se comporta como el real.

El objetivo de este backtesting no es demostrar precisión. Es demostrar algo más importante: que el modelo genera un sistema que se comporta como el real.

Podemos simular decisiones territoriales sin datos históricos del evento, usando únicamente contexto estructural. Los resultados muestran que es posible: 4 de cada 5 comunas con tendencia correcta, error promedio de 5.7 pp, ranking territorial preservado de forma consistente.

Esto no es predicción puntual. Es plausibilidad territorial. Y eso tiene una implicancia directa: si el modelo replica la lógica del voto —que combina economía, identidad y emociones—, puede aproximar cualquier otra decisión colectiva que dependa del contexto del territorio.

Valkoru no es un modelo electoral. El backtesting es solo la prueba más exigente disponible con datos públicos. El producto real es la capacidad de simular escenarios antes de que ocurran: antes de abrir un local, antes de lanzar una campaña, antes de comprometer recursos.

Los próximos pasos incluyen validación con la segunda vuelta presidencial de 2021, simulaciones multi-industria (retail, salud, fintech), y propagación territorial entre manzanas vecinas.

Apéndice técnico

Fuente de datos

Censo 2024 INE + OpenStreetMap (Geofabrik), RM (manzanas urbanas ≥5 personas)

Resultados reales

SERVEL, Plebiscito Constitucional 4 septiembre 2022

Modelo de lenguaje

temperatura por defecto del sistema

Muestreo

Estratificado por quintiles, hasta 200 manzanas por comuna

Métricas

Pearson 0.692, Spearman 0.432 (p=0.003), MAE 5.7 pp, sesgo −1.3 pp

Explora la simulación completa

8.424 manzanas · razones por manzana · filtro por comuna

map Abrir mapa interactivo ↗

Sin datos electorales, solo el censo. Así logramos replicar el mapa del voto en Chile.