Sin datos electorales, solo el censo. Así logramos replicar el mapa del voto en Chile.
Simulamos el Plebiscito 2022 en 8.424 manzanas censales y reproducimos la estructura territorial del resultado real.
¿Pueden 218 variables censales replicar la decisión del voto?
Valkoru construye agentes sintéticos a partir de 218 variables censales del Censo 2024. Cada manzana censal genera un agente que representa el perfil sociodemográfico de quienes la habitan: nivel educativo, tipo de empleo, tenencia de vivienda, acceso a servicios, composición etaria, movilidad y más.
La pregunta es directa: ¿pueden estos agentes, que nunca vivieron el Chile de 2022 y nunca votaron, replicar el comportamiento real de un territorio? Más importante aún: lo hacen sin haber sido entrenados en datos electorales — únicamente a partir de contexto estructural.
Para probarlo necesitábamos un evento con resultados públicos y granulares, alta diferenciación territorial y suficiente distancia temporal para que los datos censales fueran estables. El Plebiscito Constitucional del 4 de septiembre de 2022 cumple las tres: resultados por mesa en el SERVEL, diferenciación pronunciada entre comunas (Vitacura 86% Rechazo, Recoleta 52% Apruebo), y evento anterior al Censo 2024 que usamos como fuente.
Datos censales → perfil por manzana → decisión simulada → resultado agregado.
Cada manzana llega al agente con un perfil de 218 variables: composición etaria, escolaridad promedio, tasa de ocupación, categorías CIUO de empleo, tipo y calidad de vivienda, tenencia (propia/arrendada/cedida), hacinamiento, acceso a internet, modo de transporte al trabajo, proporción de inmigrantes y de personas que se identifican con pueblos originarios.
Sobre estas variables construimos un índice continuo (0=muy progresista, 100=muy conservador) que pondera interacciones no lineales: escolaridad alta + edad madura + propiedad pagada produce un perfil distinto que escolaridad alta + juventud + arriendo. El índice se usa para el muestreo estratificado, no se envía directamente al modelo de lenguaje.
En lugar de tomar manzanas al azar, dividimos cada comuna en quintiles por perfil socioeconómico y muestreamos proporcionalmente (hasta 200 manzanas por comuna). Esto evita sobrerrepresentar un solo perfil NSE.
Cada agente recibe el contexto del plebiscito con argumentos equilibrados de ambos lados, sin cifras de encuestas ni slogans asimétricos, y responde con un score continuo de 0 (Apruebo convencido) a 100 (Rechazo convencido), junto con una razón de hasta 40 palabras. % Apruebo = 100 − score_promedio.
Pearson 0.692 — la estructura espacial del voto se preserva.
Si ordenas las 45 comunas de más Apruebo a más Rechazo, el modelo reproduce prácticamente el mismo ranking que la realidad. Predijo correctamente la tendencia en 4 de cada 5 comunas, con un error promedio de 5.7 puntos porcentuales —comparable a los márgenes de encuestas comunales— y un sesgo de apenas −1.3 pp. La correlación de Pearson de 0.692 confirma que la estructura espacial del voto se preserva.
El gráfico muestra que el modelo captura correctamente los extremos del espectro: Vitacura (21.8% sim / 13.9% real) y Lo Barnechea (27% / 16.8%) anclan la esquina conservadora, mientras Santiago (54.4% / 46.3%) y Recoleta (49% / 48.1%) se ubican en la esquina progresista.
Mejores predicciones
Comunas donde la simulación reprodujo casi exactamente el resultado real del SERVEL.
Dónde falla — y qué nos dice.
La transparencia es el núcleo de nuestra metodología. Los errores no son ruido: revelan dónde los datos censales no capturan fenómenos sociales emergentes.
El modelo genera un sistema que se comporta como el real.
El objetivo de este backtesting no es demostrar precisión. Es demostrar algo más importante: que el modelo genera un sistema que se comporta como el real.
Podemos simular decisiones territoriales sin datos históricos del evento, usando únicamente contexto estructural. Los resultados muestran que es posible: 4 de cada 5 comunas con tendencia correcta, error promedio de 5.7 pp, ranking territorial preservado de forma consistente.
Esto no es predicción puntual. Es plausibilidad territorial. Y eso tiene una implicancia directa: si el modelo replica la lógica del voto —que combina economía, identidad y emociones—, puede aproximar cualquier otra decisión colectiva que dependa del contexto del territorio.
Valkoru no es un modelo electoral. El backtesting es solo la prueba más exigente disponible con datos públicos. El producto real es la capacidad de simular escenarios antes de que ocurran: antes de abrir un local, antes de lanzar una campaña, antes de comprometer recursos.
Los próximos pasos incluyen validación con la segunda vuelta presidencial de 2021, simulaciones multi-industria (retail, salud, fintech), y propagación territorial entre manzanas vecinas.
Apéndice técnico
Simula una decisión real antes de invertir.
3 simulaciones gratis. Sin tarjeta de crédito. Resultados en minutos.