El conocimiento es poder: La minería de datos es saber más

Hoy en día muchos de los procesos de un negocio se basan en datos. La minería de datos te ayuda a reconocer tendencias y patrones para que puedas mejorar tus procesos, desarrollar tu negocio y tener más éxito. Vale la pena para las PYMEs. Averigua por qué.

Si compras en Zalando estás proporcionando datos. Se recogen datos cuando se prueban coches, cuando utilizas un ascensor o cuando se comprueba la entrada de ítems en un almacén. Estos datos contienen conocimiento que puede ser muy útil para tener éxito.

No se necesita descubrir un filón de oro, sino utilizar la minería de datos para descubrir patrones en la enorme cantidad de datos, y esos patrones valen su peso en oro. Esta información puede ayudar a las PYMEs a mejorar su atención al cliente, hacer que su producción sea más eficiente, agilizar su cadena de suministro, mejorar la calidad de sus productos y reducir los tiempos de parada.

Amazon, por ejemplo, utiliza la minería de datos para sugerir productos: Los clientes que compraron un cierto libro compraron también este otro. Sugerencias como ésta mejoran las ventas en un 33%.

El fabricante de ascensores Otis analiza datos utilizando para ello machine learning para obtener “mantenimiento preventivo”. Este nuevo servicio mejora los ciclos de vida de sus ascensores e incrementa la satisfacción de sus clientes.

Definición de Minería de Datos

La minería de datos es un método asistido por ordenador que utiliza conceptos obtenidos de las tecnologías de la información, estadísticas y matemáticas para analizar datos. Los algoritmos de de minería de datos revelan relaciones lógicas en forma de patrones y tendencias. Son de gran ayuda para identificar correlaciones, regularidades, problemas y puntos débiles.

Las estadísticas ayudan a comprobar hipótesis utilizando pequeñas muestras aleatorias, mientras que la minería de datos genera automáticamente nuevas hipótesis utilizando una enorme cantidad de datos. La inteligencia artificial (IA) y el machine learning se utilizan también para analizar los datos.

La minería no es sólo la acumulación de datos, sino la extracción de conocimiento procedente de esos datos. Es un proceso que va más allá del análisis de los KPI (Key Performance Indicators) que hacen los gestores.

La minería de texto es un método relacionado que utiliza documentos grandes de texto para extraer información. Utiliza datos no estructurados, a diferencia de lo que ocurre con la minería de datos convencional, que normalmente utiliza bases de datos.

El tipo de texto que puede analizarse va desde los mensajes de correo electrónico, informes, noticias, formularios de contacto, debates online y respuestas abiertas en encuestas.

Estos textos pueden analizarse y hacerse útiles en investigación y desarrollo, marketing o atención al cliente gracias a la minería de texto. Algunos servicios de minería de datos incluyen la minería de texto.

Descubriendo conocimiento en las bases de datos

La minería que llevan a cabo los ordenadores es un proceso complejo. Los especialistas en bases de datos lo definieron como un estándar en 1989 y le dieron el nombre de Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery in Databases, KDD).

Este modelo tiene como objetivo evitar los conjuntos de datos antiguos (los que no contienen ninguna correlación). Las fases del KDD son un “proceso no trivial”, como lo llaman los especialistas. Este proceso puede hacerse iterativo para aumentar la calidad del análisis.

KDD produce patrones válidos, nuevos, potencialmente útiles y claros, a partir de los datos de los que dispone.

Infographic of the different phases of the knowledge discovery in databases

Proceso de descubrimiento de conocimiento

No hay minería de datos sin Big Data

Si quieres sacar partido a la minería de datos, necesitas el Big Data, es decir, grandes conjuntos de datos. Una definición simplificada del Big Data es una cantidad de datos que no puede ser manejada en una hoja Excel. Excel tiene un límite de 1.048.567 filas y 16.384 columnas.

Hoy en día los datos se crean por todos lados a un ritmo que en ciertos negocios la capacidad de Excel puede quedar superada en minutos.

La minería de datos no requiere una cantidad de datos específica, pero sí datos relevantes. Tiene capacidad para para manejar una infinidad de datos, por lo puede decirse que la minería de datos y el Big Data van de la mano.

La definición técnica de Big Data es la recogida sistemática y almacenamiento de grandes cantidades de datos complejos, que cambian rápidamente.

El Big Data se caracteriza por estas seis V:

  1. Velocidad: En la recolección, procesado y evaluación.
  2. Volumen: En la cantidad de los datos
  3. Variedad: Puesto que los datos son diferentes y complejos
  4. Veracidad: Los datos tienen que ser reales y creíbles
  5. Valor: Tienen que ser valiosos para el negocio
  6. Validez: Su calidad tiene que estar asegurada

Un servidor convencional no es suficiente para almacenar y procesar estas cantidades de datos. Es mucho más práctico trabajar en colaboración con un Almacén de Datos (Data Warehouse) para poder procesar tantos datos y conseguir análisis en tiempo real.

El CRM: Una buena fuente para la minería de datos

Si documentas de forma amplia las relaciones con tus clientes en un sistema CRM (Customer Relationship Management), éste es un buen caso en el que puedes utilizar minería de datos.

Puedes buscar patrones en los datos y estos te ayudarán a adquirir nuevos clientes o a animar a clientes que no han estado activos por un tiempo. Incluso puedes encontrar ideas sobre cómo atraer de nuevo a clientes que has perdido.

La minería de datos te ayuda también a tomar mejores decisiones estratégicas. El nuevo conocimiento de que dispones influye en las campañas y programas de clientes, así como los procesos de producción y los conceptos de seguridad, y no sólo una vez, sino que este proceso se repite una y otra vez. Si analizas los datos en tiempo real, aumentará tu capacidad de reacción tanto ante los problemas con los éxitos.

Directa o indirectamente, este conocimiento nuevo extraído de los datos va a mejorar las ventas y los beneficios. Ayuda a crear valor. Y también es útil para crear nuevos productos y servicios e incluso nuevos modelos de negocio.

Por esta razón es por lo que el software de minería de datos es tan útil e importante para las PYMEs, e incluso les ayuda a superar a las grandes empresas.

Primero comprueba, luego analiza

Antes de que puedas empezar a trabajar con la minería de datos, tienes que examinar la calidad de los mismos. Muchas veces los datos disponibles provienen de varias fuentes como bases de datos, sensores y sistemas de seguimiento.

En esta fase es en la que se adquieren los conjuntos de datos y se los hace útiles para la minería de datos. La clave está en eliminar fuentes de error de los datos recogidos.

Hay que fijarse en cifras que faltan e informaciones erróneas. Este tipo de información se denomina “ruido” (“noise”). Los datos inconsistentes afectan negativamente a la evaluación. Puede tratarse por ejemplo en datos contradictorios entre sí, como por ejemplo una edad y una fecha de nacimiento que no cuadran.

La preparación de los datos lleva más tiempo que la propia minería de datos. Suele hablarse de una proporción 80:20: 80% del tiempo de preparación y 20% de análisis. La preparación de los datos depende mucho de la pregunta a la que se pretende dar respuesta con la minería de datos.

más información

Métodos de minería de datos

Se utilizan varios procesos para buscar patrones y correlaciones. Se diferencia entre preguntas que se responden por observación o por predicción.
  1. Reconocimiento de valores atípicos: ¿Cuáles son los objetos que no siguen las reglas de interdependencia y por qué?
  2. Análisis de grupos: ¿Qué similitudes se producen y pueden ser reunidas en grupos?
  3. Clasificación: ¿A qué categorías predefinidas, a las que no estuvieran previamente asignadas, pueden asignarse los datos?
  4. Análisis de asociaciones: ¿Qué ítems independientes pueden correlacionarse porque se den juntos con frecuencia?
  5. Análisis de regresión: ¿Qué relación existe entre una variable dependiente y una o más variables independientes?
  6. Análisis predictivo: ¿Qué predicciones pueden hacerse utilizando una variable?

El análisis de asociaciones, por ejemplo, es la base de las recomendaciones en las tiendas online. Los bancos utilizan la clasificación para comprobar las valoraciones de crédito. El análisis de grupos se emplea para definir los grupos en las campañas de publicidad dirigida.

Software de minería de datos: ¿Adquirido o en la nube?

Existen distintas herramientas, cada una de las cuales tiene sus pros y sus contras. A veces es mejor utilizar diferentes herramientas para diferentes tareas. Los productos basados en la nube y los servicios web tienen una buena relación calidad-precio y son fáciles de escalar, arriba o abajo, para añadir o eliminar usuarios y hacer diferentes análisis, lo cual es una facilidad para trabajar.

  • SAS: El líder desde 1976. Es un software de minería de datos utilizado por muchos grandes clientes. No es barato, pero es escalable. Dispone de un interfaz gráfico de usuario que hace que sea fácil trabajar con él.
  • KNIME: Un equipo de la Universidad de Constanza ha venido desarrollando este software libre desde 2004. Ahora dispode de una gran comunidad global de desarrolladores. Existe también una versión comercial.
  • Google Analytics: Una herramienta gratuita fácil de utilizar para evaluar la eficiencia de un sitio web, campañas en las redes sociales y la actividad de los clientes online.
  • Periscope Data: Esta start-up californiana ha lanzado cono éxito su servicio basado en la nube. La empresa fue adquirida por Sisense para hacer crecer su portfolio.
  • IBM Cognos Analytics: No tan conocido como Watson, pero igual de inteligente. Se trata de una herramienta en autoservicio, escalable, y que puede ser utilizada tanto en la nube como en tus propios sistemas.

Puedes empezar con la minería de datos ahora mismo

Si piensas que la minería de datos puede ayudarte a digitalizar tus procesos y tus productos, empieza por examinar cuáles son tus fuentes de datos disponibles. A continuación comprueba la calidad de esos datos. ¿Están completos, son claros y correctos?

Puedes además incluir en tu análisis fuentes de datos externas. Algunas son públicas, como la información del tiempo o de tráfico. Otras pueden ser accedidas con una licencia. No empieces tú solo: Busca un compañero con el que trabajar.

Minería de datos: Una herramienta para todo el mundo

En el futuro los empleados trabajarán con datos. Nadie tendrá que programar los ordenadores, estudiar ciencia de datos o desarrollar sus propios algoritmos.

Como usuario, lo más importante es que tengas curiosidad. Tu mente inquisitiva es la que tiene que hacer las preguntas que la minería de datos debe responder.

Las herramientas actuales ofrecen formas de visualizar los resultados. Los paneles de control muestran a los usuarios evaluaciones de temas que son relevantes, personalizados y definidos especialmente para ellos.

Muy pronto tu equipo estará discutiendo correlaciones ocultas y cómo utilizarlas. ¡Bienvenido al negocio movido por los datos!

Las #PYMEs pueden optimizar sus negocios rápidamente utilizando la minería de datos (#data #mining). ¿Cómo? ¡#jobwizards te lo explica! http://bit.ly/2J0k5Uh

CLIC PARA TUITEAR
Futuro & Formación