Ciencia reutilizable
Alguien los describió como papers ejecutables, sonó interesante. Se trata de IPython notebook, una consola interactiva donde podemos mezclar textos y código de programación de una forma bastante práctica y elegante.
Esto incluye gráficos, tablas y lectura de archivos con datos para procesamiento. Todo integrado en un diseño elegante, muy cómodo y sobre todo muy fácil de publicar en internet.
No solo es posible compartir a nivel de entrega de copias cerradas, el formato de salida permite al lector o colaborador retocar los datos, cálculos y análisis internos.
Por estas características se convierte en una opción muy interesante para análisis estadístico. En contraposición otros productos de software con esta misma finalidad que presentan dificultades de migración de datos de una plataforma a otra (usan formatos cerrados), falta de posibilidades de publicación automática en internet, altos costos de licenciamiento, etc.
Para un posgrado que estoy cursando necesito prepararme en estadísticas y los productos de software propuestos según mi entender tienen las limitaciones que describo.
No soy especialista en estadística, necesito comenzar y antes de esto tengo que elegir sobre que plataforma realizaré el estudio de esta materia.
El desafío es aprender estadística mientras describo el proceso, creo mi propio apunte. En el mundo de las estadística un conjunto de herramientas muy interesante es el que provee R, un lenguaje de programación orientado a estadísticas muy difundido desde hace mucho tiempo y con una gran comunidad de usuarios que lo mejoran continuamente.
Si bien R es prometedor algunos comentarios de su propia comunidad me preocupan. Muchos no consideran que sea un lenguaje de programación sino mas bien una colección de herramientas específicas. Otros aceptan que R es muy dinámico y no muy preocupado de la compatibilidad hacia el futuro, esto quiere decir que un estudio echo con R hoy (una secuencia de instrucciones que completan un análisis) puede no funcionar en el futuro. Al parecer R esta pensado para hacer estudios, tomar los resultados y descartar el análisis.
Estas consideraciones sobre R me hacen pensar en que necesito algo mas robusto y estable. Python cumple con esos requisitos pero no tiene desarrolladas todas las librerías con funciones sobre estadística que necesito. Si bien python no incluye todas las funciones de R a alguien se le ocurrió que no estaría mal que dentro de python pudiera usarse toda la potencia de R y desarrollo una librería que permite usar código R dentro de python. La librería no solo permite escribir en R sino pasar los resultados a python donde exportar resultados y hacer gráficos es un poco mas simple (según leí, no lo sé).
Visto esto me propuse comenzar a leer apuntes de estadísticas y explicar para cada función (media, varianza, desvío, etc) la forma de calcularlo con python y con R. Todo esto dentro de IPython notebook, herramienta que no había usado antes.
El resultado es un primer apunte de estadística muy corto y limitado pero que me abrió el camino de todas estas herramientas. El documento se puede descargar, editar, y reprocesar.
Mi primer experiencia con IPython notebok http://nbviewer.ipython.org/gist/avdata99/9942432
Comentarios
Comments powered by Disqus