lunes, 26 de septiembre de 2011

De los datos en la minería de datos...



Esta claro que hoy en día uno de los activos más importante para las empresas son los datos, principalmente porque el conocimiento que se puede obtener de estos apoya la toma de decisiones que agregan valor a una compañía.

La minería de datos como solución de software, es una de las herramientas que permite adquirir dicho conocimiento a partir de los datos, pero se diferencia en que el conocimiento o patrón es inferido automáticamente mediante diversas técnicas pertenecientes al campo de la inteligencia artificial, a las cuales les dedicaremos algunas entradas en este blog.

Sin tener en cuenta por ahora la forma en que se obtiene el conocimiento, es importante entender cómo deben ser los datos o las entradas que alimentan una herramienta de minería de datos.

Esencialmente, las entradas son historia que describe algún evento en particular sobre el cual se desea conocer patrones. En la siguiente tabla, se ilustra un conjunto de ejemplos sobre las condiciones climáticas ideales para jugar fuera de casa.

Pronóstico
Temperatura
Humedad
Viento
Jugar
Soleado
85
85
No
No
Soleado
80
90
No
Lluvioso
65
70
No
Nublado
64
65
Soleado
72
95
No
No
Soleado
69
70
No
Lluvioso
75
80
No

En la tabla anterior, cada fila corresponde a un ejemplo, o como es llamado en minería de datos, una instancia del concepto a aprender (patrón), y cada columna corresponde a un atributo, que puede ser categórico o numérico. Un atributo categórico tiene solo un conjunto de posibles valores, mientras que un atributo numérico puede tener números enteros o reales.

Armar un conjunto de instancias como las de la tabla anterior no es una tarea fácil, cuando los datos están en distintas fuentes, es posible que éstas usen distintas convenciones o formatos, lo que podría llevar a inconsistencias en los patrones inferidos, por ejemplo, algunas fuentes de datos podrían usar las palabras “sí” y “no” para atributos binarios, mientras que otras podrían usar false y true, por lo tanto, antes de llevar a cabo el proceso de minería, es necesario hacer una integración de los datos, lo que generalmente se logra con un Data Warehouse, en el cual los datos son uniformes e ideales para procesos de extracción de conocimiento.

Un patrón inferido de las instancias de la tabla anterior podría ser el siguiente:

Si Pronóstico = “Soleado” y Humedad > 83, entonces Jugar = “No”.

En realidad no es el único patrón, podrían haber más y de distintos tipos, pero este tema corresponde a las salidas de una herramienta de minería de datos, las cuales describiremos en la siguiente entrada del blog, así que no dejen de visitarnos.

La tabla anterior fue adaptada del libro: "Data Mining: Practical Machine Learning Tools and Techniques", les recomendamos este libro si desean saber más sobre el tema.

No hay comentarios:

Publicar un comentario