El censo sabe dónde vive la pobreza, pero no cuánto gana cada familia. Así lo estimamos.
Proyectamos la CASEN 2024 a 216.341 manzanas censales usando un estimador de razón calibrado. El error a nivel comunal ponderado es menor al 0.3%. La correlación LOOCV a nivel comunal es 0.874.
El problema de los dos mundos
Chile tiene dos fuentes de datos sociodemográficos de referencia. Son complementarias, pero no se hablan entre sí.
El Censo 2024 tiene cobertura total: 216.341 manzanas, cada persona contada. Pero el censo no pregunta cuánto gana la gente. Mide escolaridad, ocupación, tipo de vivienda, hacinamiento, acceso a servicios. El ingreso no aparece en ninguna columna.
La CASEN 2024 (Encuesta de Caracterización Socioeconómica) sí mide ingreso, pobreza multidimensional, acceso a salud, empleo formal. Es la fuente oficial para todas las estadísticas de pobreza en Chile. Pero es una encuesta: 218.367 personas en 335 comunas, representativa a nivel comunal. No tiene datos por barrio, ni por manzana.
La respuesta corta es sí. La respuesta larga es que hay que ser muy honesto sobre qué se valida y qué no. Eso es lo que documenta este artículo.
Metodología
El algoritmo opera en tres etapas:
Cómo se distribuyen los indicadores
Para variables continuas, como ingreso o escolaridad, Valkoru distribuye el valor comunal entre las manzanas según qué tan fuerte aparece su perfil censal relativo dentro de la comuna.
Para tasas, como pobreza o desempleo, el sistema usa una calibración que mantiene los valores dentro de rangos válidos y conserva el promedio comunal observado. La lógica pública es: consistencia comunal primero, variación intra-comunal después.
Los datos
El pipeline combina dos fuentes:
| Fuente | Unidad | Cobertura | Variables relevantes |
|---|---|---|---|
| Censo 2024 INE | Manzana | 216.341 manzanas · nacional | 218 variables: escolaridad, empleo (CIUO-08), vivienda, hacinamiento, internet |
| CASEN 2024 MIDESO | Persona/hogar | 218.367 obs · 335 comunas | Ingreso autónomo per cápita, pobreza, desempleo, educación, hacinamiento |
La unión entre fuentes se realiza a escala comunal, homologando identificadores territoriales oficiales antes de proyectar los indicadores hacia las manzanas censales.
Dimensiones que agrega esta capa
La CASEN permite enriquecer el territorio con dimensiones socioeconómicas que el Censo no mide directamente:
Validación
El problema central de validar este tipo de proyección es que no existe ground truth a nivel de manzana. Nadie sabe cuánto gana en promedio una manzana específica de La Pintana o de Las Condes. Por eso la validación opera en tres capas de evidencia indirecta.
Capa 1 — Macro-consistencia comunal
La prueba más directa: ¿el ingreso promedio proyectado en las manzanas de una comuna, ponderado por población, coincide con la estimación CASEN de esa comuna?
El ratio de 0.9976 significa que el promedio comunal proyectado difiere en promedio 0.24%
del valor CASEN a nivel comunal ponderado. El 0.24% restante proviene de manzanas deshabitadas (n_per = 0)
que reciben una estimación no nula pero no tienen peso en la ponderación real. En términos
prácticos, la macro-consistencia es prácticamente perfecta.
Capa 2 — ¿El proxy censal predice el ingreso CASEN?
Antes de distribuir los ingresos dentro de cada comuna, vale la pregunta: ¿cuánto sabe el censo sobre el ingreso? Si el proxy censal no correlaciona con el ingreso real, la distribución intra-comunal es aleatoria aunque la media comunal sea exacta.
El R² de 0.797 a nivel comunal es fuerte para variables censales sin ingreso directo. Significa que el proxy construido con escolaridad, ocupación e internet captura la mayor parte de la diferenciación socioeconómica entre comunas.
Capa 3 — Validación leave-one-commune-out
La prueba más exigente: ocultar cada comuna de los datos CASEN y predecirla usando solo el proxy censal calibrado con el resto de comunas. Esto simula qué pasaría con una comuna que no tiene cobertura CASEN.
La correlación LOOCV de 0.874 confirma que la estructura del modelo es sólida: cuando el modelo predice el ingreso de una comuna sin haberla visto, sigue preservando el ordenamiento correcto. El nRMSE de 50.9% es el coste de esa predicción ciega — en la RM, donde el ingreso varía entre 273.000 (Lo Espejo) y 2.170.000 (Vitacura), un error normalizado del 50% implica un error absoluto del orden de 200.000-400.000 pesos, que es aceptable para caracterizar perfiles sin tener datos.
Chequeo de plausibilidad: ¿las cifras tienen sentido?
Más allá de las métricas estadísticas, la pregunta práctica es si los valores proyectados corresponden a lo que cualquier persona que conozca el Gran Santiago reconocería como correcto.
| Comuna | Ingreso proj. (CLP) | Ingreso CASEN | Pobreza proj. | Pobreza CASEN |
|---|---|---|---|---|
| Las Condes | 1.809.005 | 1.814.101 | 0.5% | 1.8% |
| Providencia | 1.647.841 | 1.650.878 | 0.5% | 1.8% |
| La Pintana | 296.648 | 297.151 | 14.6% | 23.7% |
| Lo Espejo | ~273.000 | 273.190 | ~20% | ~26% |
El ingreso por comuna es casi exacto a nivel agregado (error < 0.3%). La tasa de pobreza proyectada tiende a subestimar en comunas de alta pobreza — esto es una limitación conocida de la calibración logística: el proxy censal captura condiciones estructurales (hacinamiento, material de las paredes), pero parte de la pobreza por ingresos en estas comunas refleja precariedad laboral informal que el censo no registra directamente.
Mejoras del algoritmo respecto a la versión inicial
La versión actual incorpora cuatro correcciones metodológicas respecto al prototipo inicial:
- Denominador ponderado por población en el estimador de razón. La versión original usaba el promedio simple de manzanas, lo que producía ingresos sistemáticamente más altos que la CASEN. La corrección usa el promedio ponderado por población, reduciendo el error de calibración a menos del 0.3%.
- Calibración logística con intercepto óptimo. La versión original no garantizaba que la media ponderada convergiese al objetivo comunal. La versión actual resuelve el intercepto numéricamente hasta alcanzar convergencia con la tasa CASEN.
- Normalización de escolaridad con un techo realista. La versión actual evita comprimir artificialmente las diferencias entre comunas de alto capital humano.
- Desempleo nacional calculado sobre población activa 15-65, no sobre la población total. La versión inicial contaba niños e inactivos, subestimando la tasa por un factor de ~3.
Integración con los agentes sintéticos
Los indicadores proyectados alimentan directamente la capa heurística del simulador de Valkoru. Antes de invocar al modelo de lenguaje, cada manzana ya dispone de un perfil socioeconómico enriquecido que incluye:
- NSE estimado desde ingreso per cápita proyectado (quintiles CASEN)
- Apertura al cambio: función del ingreso, educación terciaria y acceso digital
- Confianza en la estimación: basada en el tamaño de la manzana y completitud de datos censales
- Contraste narrativo: cuánto se aleja la lectura final de la base estructural disponible
Esto permite que el simulador opere con una base estructural antes de cualquier capa narrativa. El ingreso y la pobreza proyectados funcionan como anclas territoriales que reducen el espacio de interpretación libre del modelo.
Limitaciones reconocidas
- Validación intra-comunal imposible: no existe ningún dato público con ingreso por manzana en Chile. Las pruebas validan la estructura y el ordenamiento; la magnitud exacta por manzana no es verificable.
- El proxy ignora mercados informales: hacinamiento y materiales de construcción capturan precariedad, pero parte importante del ingreso en comunas vulnerables proviene de trabajo informal que el censo no registra. Esto produce subestimación sistemática de pobreza en comunas de alta informalidad.
- La dispersión intra-comunal es una hipótesis: el parámetro que distribuye diferencias dentro de una comuna no puede calibrarse contra datos reales de ingreso por manzana, porque ese ground truth público no existe. Por eso se usa una elección conservadora.
- Desactualización relativa: la CASEN mide 2024 y el censo mide 2024, pero la proyección es una estimación estática. Cambios rápidos (gentrificación, desindustrialización) pueden crear brechas entre la estructura censal y el ingreso real.
Apéndice técnico
- Fuentes: Censo 2024 INE y CASEN 2024 MIDESO.
- Unidad base: manzana censal para Censo; comuna para calibración CASEN.
- Confiabilidad: las comunas con menor evidencia muestral se tratan de forma conservadora para no inventar variación intra-comunal.
- Cobertura nacional: 215.807 / 216.341 manzanas con datos CASEN directos (99.75%)
- Validación: consistencia macro-comunal, correlación proxy-ingreso y prueba leave-one-commune-out.
- Uso recomendado: análisis comparativo territorial y priorización exploratoria, no medición exacta de hogares individuales.
Haz tu primera consulta territorial.
Acceso gratuito. Sin configuración. Resultados en segundos.