Ir al contenido principal

Muestra de datos de la DNE para preparar las PASO 2019

Originalmente publicado como hilo en Twitter.

Antes de cada elección, la autoridad electoral suele compartir con quienes lo necesitamos (medios, organizaciones, equipos técnicos) una muestra de cómo van a publicarse los datos el día del comicio, junto con las URLs donde estarán disponibles, para que tengamos tiempo de preparar nuestros sistemas.

Recibí la muestra de los datos de la Dirección Nacional Electoral. Los subo a un repositorio público para que todos comiencen a preparar sus sistemas para leer los resultados en las PASO. Este es el formato en que se podrán leer los datos ese día.

https://github.com/avdata99/datos-elecciones-nacionales-2019

Muestra de datos de la DNE

Leo el PDF que documenta el formato y no puedo entender por qué siguen eligiendo algo tan feo. Preferiría un JSON en lugar de ese DSV y, lo que más jode, no hay una URL única para los datos: son archivos comprimidos con nombres distintos que se van subiendo. Funciona, pero sigue pareciendo viejo.

Actualización: cambios menores en los datos. En el repo:

Actualización del formato

Actualización del formato

Actualización del formato

Actualización del formato

Update con datos reales:

Datos reales

Entrevista con Martín Álvarez-Espinar [s02e04]

Entrevista con Martín Álvarez-Espinar [s02e04]

Martín es el Responsable de Oficina del W3C en España, Ingeniero en Informática con experiencia técnica en el desarrollo de aplicaciones Web basadas en estándares y utilizando tecnologías semánticas. Trabaja como consultor sobre Administración Electrónica y en temas de Reutilización de Información del Sector Público utilizando mecanismos de la Web Semántica.

Ideas del episodio

  • En W3C están los creadores de la web y trabajan para que ese espacio sea un bien comunitario y para todos. Definen estándares y protocolos para que esto sea posible.
  • Los gobiernos y las empresas tienen para mejorar en la web todavía en accesibilidad, autenticación, estandarización de los datos abiertos y otros
  • Los datos abiertos deben estar en formatos abiertos y si es posible deben usar la web semántica como forma de enriquecerlos, de sumar metadatos que los hagan comparables, de describirlos mejor
  • Reutilizar ontologias o crear nuevas es muy utul.
  • Se pueeden añadir metadatos a los CSV. W3C tiene estándares aprobados para incluir metadatos en los CSV, ese puede ser un paso para evolucionar los CSV (se incluye fecha de creación, de modificacion y otros datos básicos.
  • En W3C existe el Data Exchange Working Grouop tiene un Wiki interno donde se proponen herramientas para aplicar estos estándares.
  • W3C define los estándares pero al parecer no desarrolla las herramientas, eso lo hace la comunidad.
  • El modelo RDF es el camino para aplicar web semántica a los datos abiertos.
  • Hay una escala de 5 estrellas de la calidad de datos pero no siempre la quinta estrella es lo mejor. Hay que ver cada caso. La web semántica puede no ser muy facil de manejar o intuitiva para todos. Muchas veces el CSV es lo mejor.
  • Las máquinas son capaces (con las herramientas indicadas) de procesar los datos semánticos. El CSV es más manejable por humanos.
  • La DBPedia es la parte semántica de Wikipedia. Es un destino interesante para los datos de los portales.
  • Los 'grafos de conocimiento' son conexiones entre información heterogénea (semántica) igual a la que nuestros cerebros entienden. Reflejan las conexiones entre los datos, sus propiedades y sus metadatos.
  • La web semántica puede verse todos los días cuando buscamos en cualquiera de los buscadores populares. Estos entienden que son y que propiedades tienen las cosas que buscamos. Eso mejora mucho los resultados que vemos al buscar.
  • Ontología: Un vocabulario específico que describe un dominio. Define las entidades de ese dominio y sus propiedades. Ej: una ontologia sobre personas incluye las propiedades comunes (cuando y donde nacio, donde trabajó, con quienes se relacionó, etc) que tienen estos elementos (las personas).
  • Nosotros podemos poner etiquetas de web semántica en nuestra página web. Estas no se ven en la web a nuestros ojos pero si son leídas por las máquinas que extraen información de la web.
  • En Barcelona se publicaron documentos RDF. En muchos casos transformaron los datos manualmente, no usaron una herramienta en particular para publicar RDFs. Se incluyeron además otros formatos (para llegar a más público)
  • Para los gobiernos que quieran empezar con datos abiertos se recomienda una estrategia que involucre a los usuarios de datos y que lo internalice, que se lo crea, que se apropie.
  • Los lazos con la comunidad deben ser fuerte. Hay que preguntarle que formatos quiere, cuales entiende. Ellos son nuestros clientes y deben estar desde el día uno del proyecto.
  • Los datos que planificamos como los más importantes pero en general nos damos cuenta que el público valora cosas diferentes. Por eso es importante preguntar y estar conectado a la comunidad.
  • Una dataset que resultó muy valioso es de las antenas de wifi en su 'diálogo' con los celulares de las personas que pasan cerca de cada una. Aún no conectándose queda un registro de la mac address (clave única) de los celulares con cada antena. Cuidando la privacidad de las personas es un gran dataset.
  • Otro dataset que resultó (inesperadamente) muy popular es el calendario de feriados.
  • Hay que mirar a: Gente de AGESIC en Uruguay
  • Hay que mirar a: María Jesus en el ayuntamiento de Zaragoza (han hecho web semantica incluso creado ontologías)

Más info y notas del episodio en cadenadedatos.org.

Entrevista con Oleguer Sagarra [s02e03]

Entrevista con Oleguer Sagarra [s02e03]

Oleguer es Cofundador y científico de datos en DRIBIA. Es también Coordinador técnico de la comision Europea DECODE Project. Oleguer también fue hasta hace muy poco jugador profesional de Hockey en el FCBarcelona. Oleguer es Físico con una maestría en Física computacional, Data Mining y Matemáticas Aplicadas y un doctorado en la Uni de Barcelona con estancia en el MIT en Movilidad Humana.

Ideas del episodio

  • El trabajo de Ula en Barcelona fue desarrollar un programa ejecutivo sobre le plan político de apertura de datos
  • Los datos son piezas de un puzzle que cada usuario se puede armar, son habilitadores de proyectos.
  • Se pensó especificiamente en conectar con la ciudadanía, no abrir datos a discreción. Esto incluye un portal de desarrolladores, la publicación de APIs, etc.
  • Se intentó superar la visión de marketing. Un portal de datos es un punto de salida, no de llegada.
  • La estrategía general debe ser de datos, lo de abiertos viene despues.
  • Las administraciones públicas deben usar desarrollos públicos, no solo por transparencia sino porque son dineros públicos.
  • CKAN es una plataforma libre y es una buena idea para que un gobierno comience con su portal de datos.
  • La plataforma Decidim es un software libre de participación democrática offline + online. Es un ejemplo de software libre propuesto por la administración pública.
  • Decicim es un fork de Consul (Decide Madrid).
  • Otro ejemplo es plataforma 'Sentilo' de IOT del Ayuntamiento de Barcelona.
  • Desde el sector privado se usan mucho los datos abiertos. Se usan para enriquecer otros datos privados que ya se usan. Los datos son parte de la infraestructura de una ciudad.
  • El proyecto de la Comisión Europea DECODE permite a los ciudadanos controlar y cuidar su privacidad y decicir cuando permite el uso de sus datos para bien público.
  • Este proyecto tiene una parte legal que define las licencias por las cuales los ciudadanos comparte los datos
  • Tiene una parte social para encontrar proyectos de interes acá
  • Una parte tecnológica con partner que trabajan en este aspecto.
  • Los datos son son encriptados y los ciudadanos pueden proveer las claves a los proyectos que les parecen interesantes.
  • Uno de los casos de uso estan basados en sensores en la vía pública.
  • Los gobiernos van por detras de las empresas en temas de explotación de datos. Los gobiernos tienen 3 problemas
  • 1 - Falta de profesionales calificadas
  • 2 - Falta de confianza entre las diferentes oficinas de datos. Hay silos separados de datos
  • 3 - Falta de herramientas, hay gente con buenas ideas que no se sienten empoderadas o que no saben construir los equipos internos
  • Es necesario crear y empoderar las oficinas de datos de los gobiernos. Hay que crear servicios de consultoróia interna en los gobiernos que les permita ver el valor de los datos.
  • Ula aceptaría ser parte de un gobierno si hubiera un equipo, voluntad y presupuesto para transformar esta realidad.
  • Los algoritmos funcionan bien, lo que está mal es la sociedad y los datos que tienen sesgos
  • Los algoritmos no deben tomar decisiones, deben asistir a las decisiones humanas.
  • Codigo y datos abiertos para controlar todas las deciciones que se tomen con estas tecnologías.
  • Los algoritmos no son cosas mágicas. Debemos poder entender porque los algoritmos dicen lo que dicen sobre nosotros.
  • Hay que mirar a: Con el equipo de Decicim. Arnold
  • Hay que mirar a: Francesca, la comisionada que llevo adelante el proceso de Barcelona

Más info y notas del episodio en cadenadedatos.org.