Ir al contenido principal

El árbol y el bosque

¿Se pueden liberar todos los datos individualmente pero en realidad no liberar una base de datos completa?

Si, veamos el caso de NICAr.

Después de varios días sin servicio (planificados) y muchos cambios en su sistema, NIC Argentina apareció con un captcha:

Selección_055

NIC Argentina es la oficina (pública) encarga de la gestión de todos los dominios de la zona .AR (dominios .com.ar, .org.ar, etc). Todos los sitios webs registrados y en uso en esta zona son administrados por esta oficina. Desde hace muchos años uno puede acceder al sitio nic.ar y consultar información acerca de un dominio en particular. Por ejemplo, usted puede saber quien es el dueño de este dominio, andresvazquez.com.ar:

Selección_057

Ahora, si usted quisiera saber cosas como:

  • ¿Que otros dominios tiene un registrante?
  • ¿Quien es el que tiene más dominios registrados?
  • ¿Cuantos dominios se registran por día?

y muchos otras cosas, no podría. Quiero decir, usted puede ver cada árbol pero nunca el bosque.

Pero ¿y si tomara lápiz y papel e ingresara a cada uno de los dominios existentes (aunque no exista la lista, adivinando palabras y combinaciones de letras) e hiciera una lista manual para analizar?

De esta forma podría ver el bosque. Podría saber mucho más. Podría revisar que los dominios -por ejemplo- no tengan mas de un año de vigencia como especifica el reglamento. O podría encontrar que no es así (ver dominio que vence dentro de 100 años).

En la vida real no es viable humanamente leer millones de sitios webs para tomar notas y construir una base de datos de este tamaño. Desde hace mucho tiempo y mediante técnicas de scraping uno puede delegar esa tarea a una computadora. De esta forma la computadora puede pasar horas consultando uno o más sitios webs simultáneamente (cada uno de los dominios en NIC.ar por ejemplo) y guardando los datos importantes en forma de una base de datos organizada.

De esta forma uno puede construir la base de datos (el bosque) a la que se le niega el acceso. Si la información de cada dominio es libre (los árboles), entonces se entiende que es una base de datos libre. Más aún se entiende ya que desde hace algún tiempo NIC Argentina publica en una nueva sección del Boletín Oficial (construida ad-hoc) todos los días, todos los dominios que se registran junto a los datos completos del registrante.

¿Como hace un gobierno o empresa que quiere limitar el consumo masivo de sus datos?

Usa un captcha, una especie de validador de humanos que impide que las computadoras accedan a la información que se desea ocultar.

NIC Argentina entonces (como ya han hecho muchos otros antes) libera todos los datos pero sólo de a uno por vez.

Desde la agrupación OpenDataCórdoba desde hace algunos años mantenemos una base de datos muy detallada de dominios en NIC Argentina. Todos los datos se publican en un sitio web y aplicación móvil.

Selección_058

Los datos acerca de dominios de internet en el mundo en general escasean, no se liberan en general ya que representan activos muy valiosos. Sin embargo hemos liberado nuestra base de datos completa el año pasado en un evento llamando NICAthon que invitaba a analistas de datos a producir información basada en estos datos.

Lamentablemente este trabajo de años debe discontinuarse hasta que NIC Argentina revea su decisión o exponga otros canales de información que nos permitan continuar con esta aplicación.

El peligro de los datos abiertos

En la medida que la tecnología avanza y comienza a atravesar los procesos internos de los gobiernos la cantidad de datos producidos aumenta sensiblemente. Cada nuevo sistema informático incorporado por alguna oficina de gobierno, cada aplicación móvil, cada nuevo trámite online; todo produce datos reutilizables[1].

Tomar cabalmente el control de estos datos y aprovecharlos es costoso. Esto implica enlazarlos[2] de alguna forma y producir información valiosa para la toma de decisiones. Esta área de trabajo ha explotado en los últimos años, la ciencia de datos cada vez cuenta con más materia prima (datos) y mejores herramientas tecnológicas para trabajar. Estos profesionales (personas que combinan capacidades en matemática avanzada, desarrollo de software y manejo de datos masivosno abundan y son en general caros.

El panorama actual entonces tiene por un lado cada vez más datos (aunque poco organizados) y escasez de profesionales accesibles para convertirlos en información valiosa.

¿Quienes se beneficiarían de sacar el mayor provecho de los datos?

  • Los gobiernos para tomar mejores decisiones.
  • Los medios de comunicación para contar historias basadas en datos.
  • La universidades y la ciencia para producir conocimiento útil para la sociedad toda.
  • Las empresas para tomar las mejores decisiones de negocio.

Los gobiernos liberan cada vez más datos como exigencia de la sociedad en materia de transparencia. Estos datos tienen mucho valor. Quienes puedan aprovecharlos tendrán ventajas sobre aquellos que si bien pueden acceder a los datos no pueden convertirlos en información útil. El peligro de abrir datos sin fomentar canales colaborativos de producción de información valiosa está latente.

El costo de estos nuevos profesionales nos hace plantearnos la necesidad de aunar esfuerzos para que los beneficios de la apertura de datos llegue a la mayor cantidad de personas. Las experiencias de MediaLabs[3] como entornos abiertos de desarrollo de ideas basadas en nuevas tecnologías y en datos pueden ser fomentadas por gobiernos e integradas por periodistas e investigadores de la academia.

La evolución en la exigencia de transparencia como ciudadanos será pedir a nuestros gobiernos que se integren a las instituciones en el esfuerzo de sacar el mejor provecho de los datos con los mejores profesionales. Hoy la escasez y el costo de estos profesionales hace peligrar el valor que los ciudadanos podemos recibir de los datos.

El paradigma actual de Gobierno Abierto plantea la colaboración como uno de los aspectos más importante a desarrollar. Ese es el desafío de los gobiernos actuales que comienzan el camino de apertura. Involucrar a otros actores sociales para el beneficio de todos.


[1] Datos que pueden ser post-procesados con equipos informáticos. Planillas de cálculo o datos estructurados de alguna forma. Se lo denomina también machine readable data. [2] Tim Berners-Lee (padre de la Web) sugiere que liberar datos que se puedan enlazar con datos de otros proveedores usando descriptores globales es el punto máximo en la liberación de datos. [3] Por ejemplo los del MIT y el de Madrid