Me encuentro que en la mayoría de empresas con las que trabajo almacenan muchos datos, incluso los tratan con nuevos lenguajes de analítica… pero no se toman decisiones de negocio asociadas a los datos.
El problema real es que estamos generando tantos datos que no tenemos capacidad ni tiempo para procesarlos de manera inteligente. Los analistas, los científicos de datos no dan abasto y mucho menos las empresas. Y los datos únicamente son señales, por sí mismos no aportan conocimiento. De hecho lo que me llama la atención es que la mayoría de los datos que estamos recogiendo lo hacemos con una idea en la cabeza y al final lo que hacemos es usarlos para otro propósito. Por eso hemos de tener sí o sí flexibilidad para poder usarlos en muy diferentes contextos. Y ahí entramos los analistas y los científicos de datos, debemos empezar definiendo problemas, preguntas de negocio y lo que se espera de nosotros es ser capaces de diseñar caminos e hipótesis para encontrar soluciones y cambiar las cosas. Pero de esto he hablado en multitud de ocasiones, hoy quiero ir un poco más allá.
Pero… ¿cómo lo hacemos? Los que me conocéis sabéis que me gusta mucho asociar todo a metodologías, entender bien los pasos que puedo seguir y cómo seguirlos. Hace unos meses accedí a una charla de Carlos Somohano, el fundador de Data Science London y me abrió los ojos.
La idea es simplificar las métricas pasando de millones de datos a las métricas clave de nuestro negocio y partir de preguntas clave para obtener las hipótesis. En un momento dado tendremos el equilibrio perfecto entre métricas necesarias y las hipótesis en base al análisis de las mismas que nos permita accionar. He traducido libremente y cambiado alguna cosilla de lo que propone Carlos, el resultado es el siguiente:

Tendremos la DICHA de pasar de millones de datos en bruto que al ponerlos en contexto nos permitirá establecer relaciones y nos dará señales de lo QUE HA PASADO. Podremos así describir a través de la información que nos dan estos datos y su evolución generar unos informes que nos permitan establecer nuestro Conocimiento, el cómo ha pasado. Mediante la experiencia, y el testing aprenderemos y automatizaremos muchos procesos que nos permitan entender el pasado, saber el por qué ha pasado. Encontrando la causa y probando las hipótesis podremos generar modelos y algoritmos que iremos combinando para intentar saber lo que aún no sabemos. Finalmente intentaremos actuar sobre el futuro, con análisis predictivos en base a los modelos e hipótesis y con la optimización en marketing, en el entorno, en el negocio. Solamente así, aplicando el conocimiento, seremos capaces de seguir creciendo.
Resumiendo, esto es lo que sabemos que sabemos, entramos en la zona de lo que sabemos que no sabemos y la dicha nos pillará cuando exploremos más allá, cuando lleguemos a saber lo que no sabemos que no sabemos 🙂

La parte estratégica está clara, verdad? Entonces pasemos al proceso real, lo que nos encontramos en nuestro día a día. Tenemos que intentar tener claras las respuestas a estas preguntas:
- Qué sabemos de nuestros productos, de nuestros servicios, de nuestro negocio?
- Qué podemos intuir en base a nuestra experiencia?
- Qué hipótesis podemos realizar?
- Dónde no nos hemos aventurado aún?
El proceso está claro, partimos de los datos brutos, por ejemplo las transacciones, ingresos, intentos de fraude, llamadas al call center… de todas las fuentes de origen propias y ajenas que tengamos a nuestra disposición. Extraemos los datos por medio de queries o de Mapreduce o de Lenguaje R o Python que también permiten análisis y generamos un dataset.

Este dataset será nuestra herramienta de trabajo, sobre la que buscaremos entre todos los datos las correlaciones que nos deriven en causalidades, en distintas formas de segmentación de clientes, de nuestros productos, y que nos permitan realizar un análisis de predicción potente.
El tratamiento está claro, hay que explorar los datos, representarlos visualmente, descubrir y aprender. Datos Información Conocimiento de nuevo. Para tener los insights que tendremos que presentar de manera visual y que llamen a la acción. Solamente así garantizamos que tendremos impacto directo en el negocio.
Los procesos implicados es partir del qué está sucediendo, dónde hacemos los descubrimientos y la exploración (sistema descriptivo), intentar entender el por qué sucedió por medio del análisis de las métricas clave, qué pudo haber sucedido o va a suceder con el análisis predictivo y la construcción de modelos y finalmente qué acciones debería tomar con la foto completa sobre la mesa y qué es lo que he aprendido para mejorar mis sistemas cognitivos.
Mi experiencia es que no tenemos por qué saberlo todo pero sí deberíamos tener una idea general que nos permita identificar qué optimizar y cómo. Para esto tenemos sí o sí que encontrar la metodología correcta para conectar el problema o la pregunta que queremos resolver con los datos correctos. Porque esto es el mundo real, el objetivo final es resolver problemas: No ser parte del problema, sino parte de la solución.
Como resumen me gustaría compartir un esquema que utilizo siempre que me preguntan la diferencia entre un analista de datos y un científico de datos. Básicamente todo se reduce a las preguntas que realizamos y las que no sabemos o no podemos realizar aún basándonos en las cosas que sabemos teniendo en cuenta las que podemos no saber 🙂 (via @AppliedDataLabs)

Si estáis aplicando otro marco de metodología en los proyectos de análisis me encantaría que comentaráis y las incluiré en el texto para enriquecerlo con vuestros comentarios. Gracias!
¿Qué ha pasado en Septiembre?
Lancé junto a muchos compañeros de profesión la guía de INKS de las profesiones de internet
Participé en RNE en una tertulia sobre blogs
Estamos cerrando las últimas plazas para el master de Analítica que empieza en 15 días, date prisa si te apetece convertirte en analista digital (quedan 2 plazas)
Deja un comentario