El censo sabe dónde vive la pobreza, pero no cuánto gana cada familia. Así lo estimamos.

216.341 Manzanas proyectadas

335 Comunas con CASEN

R² 0.80 Proxy vs ingreso real

< 0.3% Error macro comunal

El problema de los dos mundos

Chile tiene dos fuentes de datos sociodemográficos de referencia. Son complementarias, pero no se hablan entre sí.

El Censo 2024 tiene cobertura total: 216.341 manzanas, cada persona contada. Pero el censo no pregunta cuánto gana la gente. Mide escolaridad, ocupación, tipo de vivienda, hacinamiento, acceso a servicios. El ingreso no aparece en ninguna columna.

La CASEN 2024 (Encuesta de Caracterización Socioeconómica) sí mide ingreso, pobreza multidimensional, acceso a salud, empleo formal. Es la fuente oficial para todas las estadísticas de pobreza en Chile. Pero es una encuesta: 218.367 personas en 335 comunas, representativa a nivel comunal. No tiene datos por barrio, ni por manzana.

La respuesta corta es sí. La respuesta larga es que hay que ser muy honesto sobre qué se valida y qué no. Eso es lo que documenta este artículo.

La pregunta clave ¿Podemos combinar ambas fuentes para estimar ingreso, pobreza y desempleo a nivel de manzana, preservando la consistencia comunal con la CASEN y la granularidad espacial del censo?

Metodología

El algoritmo opera en tres etapas:

Estimación comunal ponderada desde CASEN

Para cada una de las 335 comunas con cobertura CASEN, se calculan indicadores comunales consistentes con el diseño de la encuesta. Indicadores: ingreso per cápita autónomo, pobreza por ingresos, pobreza multidimensional, desempleo, educación terciaria, hacinamiento y escolaridad.

Construcción del proxy censal por manzana

Con las 218 variables del Censo 2024, se construye un score compuesto por manzana que aproxima cada indicador CASEN. El proxy combina señales estructurales como escolaridad, ocupación, acceso digital, educación superior, vivienda y hacinamiento. Escalado 0–100.

Calibración al objetivo comunal

El proxy se escala para que el promedio ponderado por población coincida con la estimación CASEN. Para variables continuas se usa un estimador de razón; para tasas, una calibración logística que preserva el rango 0–1.

En simple Tomamos los promedios comunales de la CASEN (ingreso, pobreza, desempleo) y los distribuimos entre las manzanas del censo en proporción a qué tan "rico" o "pobre" parece cada barrio según sus variables estructurales. El promedio comunal queda exacto; lo que varía es la distribución interna.

Cómo se distribuyen los indicadores

Para variables continuas, como ingreso o escolaridad, Valkoru distribuye el valor comunal entre las manzanas según qué tan fuerte aparece su perfil censal relativo dentro de la comuna.

Para tasas, como pobreza o desempleo, el sistema usa una calibración que mantiene los valores dentro de rangos válidos y conserva el promedio comunal observado. La lógica pública es: consistencia comunal primero, variación intra-comunal después.

Regla metodológica Ninguna manzana recibe un valor observado directamente desde CASEN. La capa redistribuye indicadores comunales usando señales censales y conserva consistencia agregada con la encuesta.

Los datos

El pipeline combina dos fuentes:

Fuente	Unidad	Cobertura	Variables relevantes
Censo 2024 INE	Manzana	216.341 manzanas · nacional	218 variables: escolaridad, empleo (CIUO-08), vivienda, hacinamiento, internet
CASEN 2024 MIDESO	Persona/hogar	218.367 obs · 335 comunas	Ingreso autónomo per cápita, pobreza, desempleo, educación, hacinamiento

La unión entre fuentes se realiza a escala comunal, homologando identificadores territoriales oficiales antes de proyectar los indicadores hacia las manzanas censales.

Limitación de cobertura: 534 manzanas (0.25% del total nacional) pertenecen a comunas sin representación en la CASEN. Son principalmente comunas muy pequeñas en zonas rurales extremas. Para ellas se usa el promedio nacional como fallback, sin variación intra-comunal.

Dimensiones que agrega esta capa

La CASEN permite enriquecer el territorio con dimensiones socioeconómicas que el Censo no mide directamente:

Ingreso disponible estimado

Aproxima capacidad de gasto y segmentación socioeconómica entre manzanas de una misma comuna.

Pobreza por ingresos

Permite identificar territorios donde la restricción económica es el principal factor de decisión.

Pobreza multidimensional

Agrega una lectura de carencias estructurales más allá del ingreso monetario.

Desempleo

Ayuda a detectar presión laboral y vulnerabilidad económica territorial.

Capital educativo

Resume señales de escolaridad y educación superior relevantes para adopción, consumo y movilidad social.

Hacinamiento y presión residencial

Aporta contexto sobre densidad intrahogar, estrés habitacional y necesidades de servicios.

Validación

El problema central de validar este tipo de proyección es que no existe ground truth a nivel de manzana. Nadie sabe cuánto gana en promedio una manzana específica de La Pintana o de Las Condes. Por eso la validación opera en tres capas de evidencia indirecta.

Capa 1 — Macro-consistencia comunal

La prueba más directa: ¿el ingreso promedio proyectado en las manzanas de una comuna, ponderado por población, coincide con la estimación CASEN de esa comuna?

0.9976 Ratio medio proj/CASEN

0.0014 Desviación estándar

52 Comunas RM validadas

< 1% Error máximo observado

El ratio de 0.9976 significa que el promedio comunal proyectado difiere en promedio 0.24% del valor CASEN a nivel comunal ponderado. El 0.24% restante proviene de manzanas deshabitadas (n_per = 0) que reciben una estimación no nula pero no tienen peso en la ponderación real. En términos prácticos, la macro-consistencia es prácticamente perfecta.

Capa 2 — ¿El proxy censal predice el ingreso CASEN?

Antes de distribuir los ingresos dentro de cada comuna, vale la pregunta: ¿cuánto sabe el censo sobre el ingreso? Si el proxy censal no correlaciona con el ingreso real, la distribución intra-comunal es aleatoria aunque la media comunal sea exacta.

R² proxy ingreso vs CASEN comunal

0.797

El proxy censal explica el 80% de la varianza comunal de ingreso. Umbral mínimo: 0.5.

Corr. proxy pobreza vs tasa CASEN

r > 0.5

El proxy de pobreza censal correlaciona positivamente con la tasa de pobreza CASEN por comuna.

LOOCV correlación (ingreso)

0.874

Predijo comunas nunca vistas con correlación 0.87 usando solo el proxy censal.

LOOCV nRMSE (ingreso)

50.9%

El error absoluto normalizado es ~51%. Esperado dada la variación 8× entre comunas extremas.

El R² de 0.797 a nivel comunal es fuerte para variables censales sin ingreso directo. Significa que el proxy construido con escolaridad, ocupación e internet captura la mayor parte de la diferenciación socioeconómica entre comunas.

Capa 3 — Validación leave-one-commune-out

La prueba más exigente: ocultar cada comuna de los datos CASEN y predecirla usando solo el proxy censal calibrado con el resto de comunas. Esto simula qué pasaría con una comuna que no tiene cobertura CASEN.

La correlación LOOCV de 0.874 confirma que la estructura del modelo es sólida: cuando el modelo predice el ingreso de una comuna sin haberla visto, sigue preservando el ordenamiento correcto. El nRMSE de 50.9% es el coste de esa predicción ciega — en la RM, donde el ingreso varía entre 273.000 (Lo Espejo) y 2.170.000 (Vitacura), un error normalizado del 50% implica un error absoluto del orden de 200.000-400.000 pesos, que es aceptable para caracterizar perfiles sin tener datos.

Lo que ningún test puede validar: la variación intra-comunal. No existe ningún dataset público con verdad a nivel de manzana con el que comparar. Las 11 pruebas automatizadas validan la consistencia macro y el ordenamiento relativo — no la precisión absoluta de cada manzana.

Chequeo de plausibilidad: ¿las cifras tienen sentido?

Más allá de las métricas estadísticas, la pregunta práctica es si los valores proyectados corresponden a lo que cualquier persona que conozca el Gran Santiago reconocería como correcto.

Comuna	Ingreso proj. (CLP)	Ingreso CASEN	Pobreza proj.	Pobreza CASEN
Las Condes	1.809.005	1.814.101	0.5%	1.8%
Providencia	1.647.841	1.650.878	0.5%	1.8%
La Pintana	296.648	297.151	14.6%	23.7%
Lo Espejo	~273.000	273.190	~20%	~26%

El ingreso por comuna es casi exacto a nivel agregado (error < 0.3%). La tasa de pobreza proyectada tiende a subestimar en comunas de alta pobreza — esto es una limitación conocida de la calibración logística: el proxy censal captura condiciones estructurales (hacinamiento, material de las paredes), pero parte de la pobreza por ingresos en estas comunas refleja precariedad laboral informal que el censo no registra directamente.

Mejoras del algoritmo respecto a la versión inicial

La versión actual incorpora cuatro correcciones metodológicas respecto al prototipo inicial:

Denominador ponderado por población en el estimador de razón. La versión original usaba el promedio simple de manzanas, lo que producía ingresos sistemáticamente más altos que la CASEN. La corrección usa el promedio ponderado por población, reduciendo el error de calibración a menos del 0.3%.
Calibración logística con intercepto óptimo. La versión original no garantizaba que la media ponderada convergiese al objetivo comunal. La versión actual resuelve el intercepto numéricamente hasta alcanzar convergencia con la tasa CASEN.
Normalización de escolaridad con un techo realista. La versión actual evita comprimir artificialmente las diferencias entre comunas de alto capital humano.
Desempleo nacional calculado sobre población activa 15-65, no sobre la población total. La versión inicial contaba niños e inactivos, subestimando la tasa por un factor de ~3.

Resultado combinado: las cuatro correcciones no degradaron las métricas de correlación (R² se mantuvo en 0.797, LOOCV corr en 0.874) y eliminaron los sesgos sistemáticos de la versión anterior. La suite de 69 tests pasa completa en la versión actual.

Integración con los agentes sintéticos

Los indicadores proyectados alimentan directamente la capa heurística del simulador de Valkoru. Antes de invocar al modelo de lenguaje, cada manzana ya dispone de un perfil socioeconómico enriquecido que incluye:

NSE estimado desde ingreso per cápita proyectado (quintiles CASEN)
Apertura al cambio: función del ingreso, educación terciaria y acceso digital
Confianza en la estimación: basada en el tamaño de la manzana y completitud de datos censales
Contraste narrativo: cuánto se aleja la lectura final de la base estructural disponible

Esto permite que el simulador opere con una base estructural antes de cualquier capa narrativa. El ingreso y la pobreza proyectados funcionan como anclas territoriales que reducen el espacio de interpretación libre del modelo.

Limitaciones reconocidas

Nota de alcance: esta capa no mide ingresos observados por manzana. Proyecta indicadores comunales hacia el territorio usando señales censales y mantiene consistencia agregada con CASEN. Es útil para análisis comparativo, no para afirmar el ingreso exacto de una manzana específica.

Validación intra-comunal imposible: no existe ningún dato público con ingreso por manzana en Chile. Las pruebas validan la estructura y el ordenamiento; la magnitud exacta por manzana no es verificable.
El proxy ignora mercados informales: hacinamiento y materiales de construcción capturan precariedad, pero parte importante del ingreso en comunas vulnerables proviene de trabajo informal que el censo no registra. Esto produce subestimación sistemática de pobreza en comunas de alta informalidad.
La dispersión intra-comunal es una hipótesis: el parámetro que distribuye diferencias dentro de una comuna no puede calibrarse contra datos reales de ingreso por manzana, porque ese ground truth público no existe. Por eso se usa una elección conservadora.
Desactualización relativa: la CASEN mide 2024 y el censo mide 2024, pero la proyección es una estimación estática. Cambios rápidos (gentrificación, desindustrialización) pueden crear brechas entre la estructura censal y el ingreso real.

Apéndice técnico

Fuentes: Censo 2024 INE y CASEN 2024 MIDESO.
Unidad base: manzana censal para Censo; comuna para calibración CASEN.
Confiabilidad: las comunas con menor evidencia muestral se tratan de forma conservadora para no inventar variación intra-comunal.
Cobertura nacional: 215.807 / 216.341 manzanas con datos CASEN directos (99.75%)
Validación: consistencia macro-comunal, correlación proxy-ingreso y prueba leave-one-commune-out.
Uso recomendado: análisis comparativo territorial y priorización exploratoria, no medición exacta de hogares individuales.

El censo sabe dónde vive la pobreza, pero no cuánto gana cada familia. Así lo estimamos.

El problema de los dos mundos

Metodología

Cómo se distribuyen los indicadores

Los datos

Dimensiones que agrega esta capa

Validación

Capa 1 — Macro-consistencia comunal

Capa 2 — ¿El proxy censal predice el ingreso CASEN?

Capa 3 — Validación leave-one-commune-out

Chequeo de plausibilidad: ¿las cifras tienen sentido?

Mejoras del algoritmo respecto a la versión inicial

Integración con los agentes sintéticos

Limitaciones reconocidas

Apéndice técnico

Haz tu primera consulta territorial.