Ir al contenido principal

Ciencia reutilizable

Alguien los describió como papers ejecutables, sonó interesante. Se trata de IPython notebook, una consola interactiva donde podemos mezclar textos y código de programación de una forma bastante práctica y elegante.

Esto incluye gráficos, tablas y lectura de archivos con datos para procesamiento. Todo integrado en un diseño elegante, muy cómodo y sobre todo muy fácil de publicar en internet.

No solo es posible compartir a nivel de entrega de copias cerradas, el formato de salida permite al lector o colaborador retocar los datos, cálculos y análisis internos.

Por estas características se convierte en una opción muy interesante para análisis estadístico. En contraposición otros productos de software con esta misma finalidad que presentan dificultades de migración de datos de una plataforma a otra (usan formatos cerrados), falta de posibilidades de publicación automática en internet, altos costos de licenciamiento, etc.

Para un posgrado que estoy cursando necesito prepararme en estadísticas y los productos de software propuestos según mi entender tienen las limitaciones que describo.

No soy especialista en estadística, necesito comenzar y antes de esto tengo que elegir sobre que plataforma realizaré el estudio de esta materia.

El desafío es aprender estadística mientras describo el proceso, creo mi propio apunte. En el mundo de las estadística un conjunto de herramientas muy interesante es el que provee R, un lenguaje de programación orientado a estadísticas muy difundido desde hace mucho tiempo y con una gran comunidad de usuarios que lo mejoran continuamente.

Si bien R es prometedor algunos comentarios de su propia comunidad me preocupan. Muchos no consideran que sea un lenguaje de programación sino mas bien una colección de herramientas específicas. Otros aceptan que R es muy dinámico y no muy preocupado de la compatibilidad hacia el futuro, esto quiere decir que un estudio echo con R hoy (una secuencia de instrucciones que completan un análisis) puede no funcionar en el futuro. Al parecer R esta iPython notebookpensado para hacer estudios, tomar los resultados y descartar el análisis.

Estas consideraciones sobre R me hacen pensar en que necesito algo mas robusto y estable. Python cumple con esos requisitos pero no tiene desarrolladas todas las librerías con funciones sobre estadística que necesito. Si bien python no incluye todas las funciones de R a alguien se le ocurrió que no estaría mal que dentro de python pudiera usarse toda la potencia de R y desarrollo una librería que permite usar código R dentro de python. La librería no solo permite escribir en R sino pasar los resultados a python donde exportar resultados y hacer gráficos es un poco mas simple (según leí, no lo sé).

Visto esto me propuse comenzar a leer apuntes de estadísticas y explicar para cada función (media, varianza, desvío, etc) la forma de calcularlo con python y con R. Todo esto dentro de IPython notebook, herramienta que no había usado antes.

El resultado es un primer apunte de estadística muy corto y limitado pero que me abrió el camino de todas estas herramientas. El documento se puede descargar, editar, y reprocesar.

Mi primer experiencia con IPython notebok http://nbviewer.ipython.org/gist/avdata99/9942432

Informatización de los municipios

El siguiente es un anteproyecto que presente como trabajo para la facultad y que me gustaría poder atender en el futuro.

Especialización en producción y análisis de información para las políticas públicas Centro de Estudios Avanzados - Universidad Nacional de Córdoba

¿Qué herramientas necesitan los pequeños municipios en Córdoba para un proceso exitoso de informatización?

Problemática e hipótesis

Pasada la etapa de administración comunal simple los pequeños municipios1 que crecen en población se encuentran necesariamente con nuevos desafíos técnicos. En general los gobiernos locales comienzan con lo que denominamos un proceso de informatización. La cantidad de requisitos de los ciudadanos, el almacenamiento de información de la gestión y documentos internos, el cobro de impuestos, el control de la prestación de servicios, etc, requieren de herramientas cada vez más complejas y seguras.

Con informatización nos referimos concretamente al nivel de utilización de recursos de software en las áreas en las que es posible automatizar procesos: cobro de impuestos, comunicación de novedades, atención y seguimiento de reclamos, apertura de datos públicos, publicación de licitaciones, etc.

Este desafío en general es enfrentado con escasa colaboración de los estados provincial y nacional2. Las soluciones encontradas por los gobiernos locales muchas veces presentan múltiples dificultades:

  • Altos costos de desarrollo y mantenimiento.

  • Contratos cerrados que generan dependencia con empresas privadas.

  • Ausencia de integración con municipios vecinos que utilizan herramientas y estándares diferentes.

La hipótesis a validar es que es necesaria la intervención de los estados provincial o nacional. Se requiere la generación de software público y abierto de modo que las pequeñas ciudades puedan implementar con bajos costos, estándares abiertos y comunes a todas las ciudades. Que se favorezca la integración regional y el desarrollo colaborativo, como sugiere Susana Finquelievich “... no quedar sujetos a la dependencia limitante respecto de un determinado proveedor ...” (2005, p. 13).

Objetivos generales

Determinar si la informatización de los pequeños municipios es un proceso alcanzable por cada ciudad individualmente. Nos referimos no sólo desde el punto de vista de una solución que resuelva su propia problemática interna administrativa sino además pensando en:

  • La comodidad y accesibilidad de sus ciudadanos para realizar gestiones o trámites.

  • El acceso a la información pública por parte de investigadores, periodistas y vecinos.

  • La integración con los municipios vecinos y los gobiernos provincial y nacional.

Objetivos específicos

  • Determinar cuales son las áreas municipales que más necesitan automatización y control.

  • Evaluar los planes de informatización provinciales y nacionales priorizando aquellos que vayan más allá de la entrega de sólo equipamiento informático (computadoras, impresoras, etc).

  • Detectar casos de éxito que puedan replicarse a otros municipios haciendo hincapié en aquellas soluciones de código abierto.

Materiales requeridos

  • Una computadora móvil tipo netbook que permita la recolección de datos.

  • Software estadístico.

  • Combustible y pasajes para los traslados.

  • Viáticos para comidas y alojamiento mientras dura el estudio de campo.

Metodología

La investigación constará de dos ejes principales:

En primer lugar un análisis básico cuantitativo para determinar un indice de informatización municipal. El índice de informatización está basado en una encuesta por cuestionario estandarizado e incluirá indicadores que tendrán en cuenta:

  • La cantidad de equipos de cómputo en el municipio.

  • La existencia de conectividad a internet en el municipio.

  • Las áreas que ya tienen herramientas de software.

  • El nivel de capacitación específico del personal interno.

  • La facilidad y automatización para la realización de gestiones por parte de los ciudadanos.

  • La integración con municipios vecinos, gobiernos provincial y nacional.

  • La disponibilidad y accesibilidad de los periodistas e investigadores de información de la gestión.

  • El nivel de dependencia con proveedores externos: acceso real a los datos y el código fuente3 de aquellos productos de software que se hayan tercerizado.

En segundo lugar se realizarán entrevistas abiertas. Los lineamientos de esta conversación abierta apuntará a conocer cuales son las mayores dificultades en la gestión de la relación y trámites con los vecinos. No se descartará el análisis de procesos internos del municipio. El foco estará puesto en aquellas dificultades que puedan resolverse vía software.

Para la realización del cuestionario y la entrevista se buscará en cada municipio al referente tecnológico, en algunos municipios este cargo está definido y ocupado por personal calificado. La existencia o no del cargo del responsable tecnológico será contemplado en el indicador obtenido en el cuestionario.

Muestra

Al ser una cantidad alcanzable se tomará la población completa. Según la Dirección General de estadísticas y censos de la provincia de Córdoba son 49 localidades en estas condiciones (Censo, 2008).

Cronograma de actividades para el desarrollo del estudio

Tiempo total requerido: 10 meses.

Etapa 1 (2 meses): Definir un cuestionario estandarizado y el lineamiento general de la entrevista abierta.

Etapa 2 (1 mes): Probar el cuestionario estandarizado en municipios similares fuera de Córdoba para determinar sus debilidades y fortalezas. Se aplicarán las correcciones necesarias.

Etapa 3 (3 meses): Realizar las entrevistas de manera presencial en la mayor cantidad de casos y vía telefónica o internet cuando no sea posible.

Etapa 4 (4 meses): Cierre. Análisis de los datos. Creación del índice de informatización. Evaluación de las entrevistas abiertas. Producción de un informe final con soluciones propuestas.

Impacto esperado y contribuciones a la solución

Conocer el nivel de desarrollo técnico de los pequeños municipios, identificar sus dificultades y proponer un conjunto de soluciones accesibles para estos gobiernos locales.

Luego del estudio este informe deberá proponer propuestas concretas tal como sugiere la CEPAL (2003):

Las mejoras que entregue el proyecto al gobierno local debieran enmarcarse por lo tanto en una estrategia de intervenciones puntuales, que respete las tendencias actuales en el aparato de gestión local, contribuyendo a su reorientación.”

El índice de informatización obtenido no tendrá un impacto inmediato ni será concluyente para el presente estudio. Este se usará para estratificar los sujetos estudiados (en caso de que esta división resulte de utilidad) y será una referencia para futuros estudios longitudinales. El cuestionario detectará falencias generales en la administración municipal que serán exploradas en las entrevistas abiertas.

El cuestionario completo, los resultados en bruto y los producidos luego del análisis serán publicados en internet y puestos a disposición de otros investigadores. Esto permitirá la réplica de esta experiencia en otros distritos de nuestros país y la reutilización a futuro en la provincia de Córdoba.

Factibilidad

Los municipios se encuentran a distancias accesibles y el estudio de la población completa es razonable.

Hay material de referencia de otros autores disponible y es accesible. Ya existen iniciativas abiertas en gobiernos de Argentina4 y otros países5.

Presupuesto y justificación

Al estar los sujetos de investigación distribuidos en toda la provincia de Córdoba es importante la movilidad, viáticos y un equipo de cómputo capaz de almacenar los datos relevados (respuestas a cuestionario y grabación de las entrevistas). Se visitarán los municipios más cercanos en automóvil para lo que se requiere combustible Para los más alejados se planificarán viajes en transporte público. Cuando los viajes incluyan varios días será requerido costo de alojamiento y viáticos.

Presupuesto total requerido: $32.350

Una computadora tipo netbook: $5.000.

Se contratará un entrevistador que recibirá $150 por entrevista. (49 casos, $7.350 en total).

Movilidad y viáticos: $5.000.

Trabajo de investigación previo y posterior análisis cuantitativo y cualitativo: $15.000.

Bibliografía

Censo (2008) de sitio web de la Direccion General de estadísticas y censos de la provincia de Córdoba. Recuperado el 15 de marzo de 2014, de http://estadistica.cba.gov.ar

CEPAL, Proyecto de Gestión Urbana en Ciudades Intermedias (2003). Recuperado el 15 de marzo de 2014, de http://www.eclac.cl/dmaah/gucif/defcon.htm

Susana Finquelievich, Alejandro Artopoulos, Roxana Bassi, Vera Caruso, Florencia Del Gizzo, Roxana Goldstein, Michael Gurstein, Philip Jacob, Rafael Juárez, Erick Iriarte Ahón, Ester Kaufman, Gracia Morena Peña Rosales, Eduardo Poggi, Alejandro Prince, Scott Robinson, Adrián Rozengardt, Raúl Saroka, Artur Serra, Uca Silva. TIC y desarrollo local: Municipios e internet (2005)

Tambien disponible para descarga en http://www.roxanabassi.com.ar/files/ticydesarrollolocal.pdf

Referencias y proyectos mencionados

Socrata: www.socrata.com

CKAN: ckan.org

Gobierno abierto de Bahia Blanca: gabierto.bahiablanca.gov.ar

Munix, software libre en Rosario: www.rosario.gov.ar/sitio/gobierno/munix1.jsp

Inciativa Open311: open311.org

1 Para el presente estudio el concepto “pequeño municipio” se refiere a ciudades con entre 7.000 y 20.000 habitantes.

2 Se estudiarán las iniciativas existentes comenzando con el “Proyecto de financiamiento DETEM” (Desarrollo Técnico Municipal) del Ministerio de Ciencia y Tecnología argentino.

3El código fuente de un software es un conjunto de líneas de texto que son las instrucciones que debe seguir la computadora para ejecutar dicho programa. En general las empresas privadas no revelan este contenido y sólo proveen una interfaz donde ejecutar el programa.
4 Por ejemplo proyecto Munix en Rosario o el plan de gobierno abierto de Bahía Blanca entre otros.
5 Los proyectos de software libre de apertura de datos Socrata y CKAN, el estándar abierto de trámites cívicos open311, etc.  

Córdoba a nivel de radio censal

Este post es continuación de esta introducción a los censos en latinoamérica y de la gran resolución que le dio Manuel Aristarán

Según la clasificación de INDEC el radio censal es la menor unidad de agrupamiento que se publica sobre los datos un censo. En general corresponde a alrededor de 300 viviendas. Aún así los datos accesibles al público en general llegan solamente hasta el nivel departamental (de partidos en provincia de Buenos Aires o comunas en CABA).

Esto es interesante para hacer muchos análisis pero limitado para la búsqueda de un mapa con alta definición. Los datos del INDEC están disponibles aquí y se pueden consultar vía el software REDATAM (versión servidor). Despues de conseguir los polígonos aproximados de los radios censales y teniendo en cuenta que no eran exactos decidí pasarlos a puntos.

Con el software QGis pase de polígonos a puntos y crucé los datos en CSV extraídos de REDATAM para poder colocarlos sobre un mapa. El resultado es un mapa con alta definición que permite mostrar cualquiera de las variables tomadas en el censo argentino 2010.

Cordoba en HD, censo 2010

Además del "mapa de calor" que es muy descriptivo se puede pasar a un modo mas analítico que muestra los números de cada variable para cada radio censal.

Un detalle que creo que es muy útil es que cualquier cambio en las variables o en la ubicación del mapa actualiza la URL de modo que se pueda compartir exactamente lo que se esta viendo.

Creo que es una herramienta interesante para investigación, muchas veces mirar los datos de esta forma ayuda a comprender grandes volúmenes de información muy rápido. Un ejemplo bastante común es conocer las características de una zona, ciudad o barrio si simplemente estamos buscando donde mudarnos.