¿Dónde está Avinash cuando se le necesita?

Soy Gemma Muñoz (@sorprendida). Avinash Kaushik es mi ídolo. Y este es mi blog de analítica digital, mi trabajo y mi pasión.

  • Sobre Mí
  • Mis Libros
  • Contacto
  • Archivo

16 Ene 2017 | Análisis Completo, Analista Web

El camino verdadero pasa por una cuerda, que no está extendida en alto, sino sobre el suelo. Parece preparada más para hacer tropezar, que para que se siga su rumbo.

Seguimos con la explicación del método MAMBO para el trabajo del analista o científico de datos. Ya explicamos hace unos días la (M) de Meditar sobre el negocio, la (A) de Adquisición de datos y hoy tenemos por delante explicar la (M) de Manejar los datos. ¿Preparados?

Esta fase es la que tiene más miga desde hace unos cuantos años. Hasta ahora, el analista tomaba los datos de la herramienta de analítica que tocara, Google Analytics por ejemplo, y empezaba a buscar insights directamente en dichos datos. Ahora no, ahora es más complicado pero mucho más divertido 🙂

Desde que entró en escena el Big Data, no basta con tomar los datos de la herramienta como si en ellos estuviera la verdad absoluta. Ahora toca extraer los datos de todas las herramientas disponibles, tratarlos, cruzarlos, limpiarlos y dejarlos listos para empezar a trabajar. Es una parte del proceso absolutamente decisiva, pues será el momento en el que detectemos si la calidad de los datos es suficientemente buena para seguir avanzando. Además, exploraremos la información para descubrir si ofrece lo que necesitamos para los siguientes pasos y validaremos que tenemos todos los datos para el análisis. Esta clase de operaciones, en general, están más cerca de perfiles ‘data scientist’ (científicos de datos), que están más cerca de la capa técnica que los analistas, que están más cerca de la capa de negocio.

De ahí que no me vaya a centrar ahora en hablar de herramientas para la preparación de los datos, sino en las diferentes operaciones que vamos a llevar a cabo sobre estos datos para poder avanzar en nuestra metodología. Por tanto… ¿Qué se plantea el analista, cuando tiene que enfrentarse a un análisis y encontrar respuestas a las preguntas de negocio? Lo primero que realizamos es un análisis exploratorio de los datos. Este análisis consiste en la comprobación de los formatos de las distintas variables que tenemos en nuestro conjunto de datos, se visualizan las primeras y las últimas filas y realizamos una descripción básica a nivel estadístico, valores medios máximos, mínimos y desviaciones.

El siguiente paso sería comprobar los ‘outlier’, es decir, los valores atípicos o valores extremos. Tendremos que buscar los valores extremos o atípicos, para que estos valores pueden ocasionar un análisis erróneo. Podemos hacerlo con algún método exploratorio básico, incluso graficando los datos, o con un modelo matemático que los detecte automáticamente en base a cálculos sobre desviaciones típicas o dispersión.

PREPARACION-DATASET-EAM

Otra de las situaciones con las que nos encontramos, es la de la existencia de valores anómalos, que no tienen por qué corresponderse con valores extremos. Estos valores muchas veces están enmascarados en nuestros datos y son una fuente de información muy valiosa.

El siguiente paso consistirá en añadir nuevos datos a nuestro ‘dataset’, incorporar nuevas variables fusionando distintas fuentes de los mismos. Del mismo modo, una de las partes que más tiempo consume al analista es la relacionada con la integración de datos de otras fuentes. En ocasiones, nos enfrentaremos a la necesidad de unir datos de nuestra herramienta de analítica con el back up interno de la empresa, que puede ser un CRM, RP u otra fuente de datos disponible. Estas operaciones pueden ser tan sencillas como hacer una unión entre tablas, el problema surge cuando no tenemos identificadores, variables o claves únicas por las que poder relacionar conjuntos de datos distintos.

El objetivo de esto es poder realizar análisis más ricos y potentes, creando cuanto más contexto mejor y obteniendo una foto mucho más completa de lo que necesitamos para empezar a buscar insights.

Por último, no hay que olvidar la ordenación de los datos y la limpieza de los mismos. Ordenar entiendo el concepto como poner todos los datos en un formato común para poder trabajar con ellos desde la herramienta de procesamiento elegida (R, Python…). Estas herramientas funcionan de manera más eficiente con datasets simplificados con pocas columnas pero muchas filas.

En resumen, el objetivo de esta clase de técnicas como comprobar los valores atípicos o incorporar nuevas fusiones de datos u ordenar el dataset o simplificarlo, no es otro que el de preparar los datos que extrajimos en el paso previo para comenzar a Buscar en los datos, que es el paso siguiente de nuestra metodología MAMBO.

Si quieres profundizar más en el concepto del manejo de los datos, puedes escuchar este podcast en PRNoticias sobre este tema 🙂

Related Posts

  • No son los años querida, es el rodajeNo son los años querida, es el rodaje
  • Quien busca no halla, pero quien no busca es halladoQuien busca no halla, pero quien no busca es hallado
  • El método es una técnica, un procedimiento para obtener el control del camino y lograr que sea viable.El método es una técnica, un procedimiento para obtener el control del camino y lograr que sea viable.
  • Las ideas no tienen importancia alguna. Las ideas son el uniforme vistoso que se les pone a los sentimientos y a los instintos. Una costumbre indica mucho más el carácter de un pueblo que una idea.Las ideas no tienen importancia alguna. Las ideas son el uniforme vistoso que se les pone a los sentimientos y a los instintos. Una costumbre indica mucho más el carácter de un pueblo que una idea.
  • Sin estudiar enferma el alma…Sin estudiar enferma el alma…
  • No importa cuán estrecho sea el camino, cuán cargada de castigo la sentencia. Soy el amo de mi destino; soy el capitán de mi alma.No importa cuán estrecho sea el camino, cuán cargada de castigo la sentencia. Soy el amo de mi destino; soy el capitán de mi alma.

¿Te gustaría leer más artículos como este?

Suscríbete ahora y recibirás mis nuevos artículos cómodamente en tu email

Gemma Muñoz   |  

Para mí la analítica web es mi trabajo y mi hobby. Hace poco descubrí que los japoneses a este tipo de pasión la llaman Ikigai. Mi ikigai es seguir aprendiendo, y disfrutar cada día con las métricas, las campañas, la estrategia, los resultados… poder seguir trabajando en lo que me gusta y motivar a quienes me rodean. Eso es lo especial, que me hace pensar y sentir viva. ¡Y sólo es trabajo!

Mis Proyectos

EAM_logo_Red & Black

Kschool_banners_AW_312x195

Deja un comentario Cancelar respuesta

Copyright © 2021 · Política de Privacidad
WordPress · Genesis Framework