El árbol y el bosque

      No hay comentarios en El árbol y el bosque

¿Se pueden liberar todos los datos individualmente pero en realidad no liberar una base de datos completa?

Si, veamos el caso de NICAr.

Después de varios días sin servicio (planificados) y muchos cambios en su sistema, NIC Argentina apareció con un captcha:

Selección_055

NIC Argentina es la oficina (pública) encarga de la gestión de todos los dominios de la zona .AR (dominios .com.ar, .org.ar, etc). Todos los sitios webs registrados y en uso en esta zona son administrados por esta oficina. Desde hace muchos años uno puede acceder al sitio nic.ar y consultar información acerca de un dominio en particular. Por ejemplo, usted puede saber quien es el dueño de este dominio, andresvazquez.com.ar:

Selección_057

Ahora, si usted quisiera saber cosas como:

  • ¿Que otros dominios tiene un registrante?
  • ¿Quien es el que tiene más dominios registrados?
  • ¿Cuantos dominios se registran por día?

y muchos otras cosas, no podría. Quiero decir, usted puede ver cada árbol pero nunca el bosque.

Pero ¿y si tomara lápiz y papel e ingresara a cada uno de los dominios existentes (aunque no exista la lista, adivinando palabras y combinaciones de letras) e hiciera una lista manual para analizar?

De esta forma podría ver el bosque. Podría saber mucho más. Podría revisar que los dominios -por ejemplo- no tengan mas de un año de vigencia como especifica el reglamento. O podría encontrar que no es así (ver dominio que vence dentro de 100 años).

En la vida real no es viable humanamente leer millones de sitios webs para tomar notas y construir una base de datos de este tamaño. Desde hace mucho tiempo y mediante técnicas de scraping uno puede delegar esa tarea a una computadora. De esta forma la computadora puede pasar horas consultando uno o más sitios webs simultáneamente (cada uno de los dominios en NIC.ar por ejemplo) y guardando los datos importantes en forma de una base de datos organizada.

De esta forma uno puede construir la base de datos (el bosque) a la que se le niega el acceso. Si la información de cada dominio es libre (los árboles), entonces se entiende que es una base de datos libre. Más aún se entiende ya que desde hace algún tiempo NIC Argentina publica en una nueva sección del Boletín Oficial (construida ad-hoc) todos los días, todos los dominios que se registran junto a los datos completos del registrante.

¿Como hace un gobierno o empresa que quiere limitar el consumo masivo de sus datos?


Usa un captcha, una especie de validador de humanos que impide que las computadoras accedan a la información que se desea ocultar.

NIC Argentina entonces (como ya han hecho muchos otros antes) libera todos los datos pero sólo de a uno por vez.

Desde la agrupación OpenDataCórdoba desde hace algunos años mantenemos una base de datos muy detallada de dominios en NIC Argentina. Todos los datos se publican en un sitio web y aplicación móvil.

Selección_058

Los datos acerca de dominios de internet en el mundo en general escasean, no se liberan en general ya que representan activos muy valiosos. Sin embargo hemos liberado nuestra base de datos completa el año pasado en un evento llamando NICAthon que invitaba a analistas de datos a producir información basada en estos datos.

Lamentablemente este trabajo de años debe discontinuarse hasta que NIC Argentina revea su decisión o exponga otros canales de información que nos permitan continuar con esta aplicación.