Esta claro
que hoy en día uno de los activos más importante para las empresas
son los datos, principalmente porque el conocimiento que se puede
obtener de estos apoya la toma de decisiones que agregan valor a una
compañía.
La minería
de datos como solución de software, es una de las herramientas que
permite adquirir dicho conocimiento a partir de los datos, pero se
diferencia en que el conocimiento o patrón es inferido
automáticamente mediante diversas técnicas pertenecientes al campo
de la inteligencia artificial, a las cuales les dedicaremos algunas
entradas en este blog.
Sin tener en
cuenta por ahora la forma en que se obtiene el conocimiento, es
importante entender cómo deben ser los datos o las entradas que
alimentan una herramienta de minería de datos.
Esencialmente,
las entradas son historia que describe algún evento en particular
sobre el cual se desea conocer patrones. En la siguiente tabla, se
ilustra un conjunto de ejemplos sobre las condiciones climáticas
ideales para jugar fuera de casa.
Pronóstico
|
Temperatura
|
Humedad
|
Viento
|
Jugar
|
Soleado
|
85
|
85
|
No
|
No
|
Soleado
|
80
|
90
|
Sí
|
No
|
Lluvioso
|
65
|
70
|
Sí
|
No
|
Nublado
|
64
|
65
|
Sí
|
Sí
|
Soleado
|
72
|
95
|
No
|
No
|
Soleado
|
69
|
70
|
No
|
Sí
|
Lluvioso
|
75
|
80
|
No
|
Sí
|
En la tabla
anterior, cada fila corresponde a un ejemplo, o como es llamado en
minería de datos, una instancia del concepto a aprender (patrón), y
cada columna corresponde a un atributo, que puede ser categórico o
numérico. Un atributo categórico tiene solo un conjunto de posibles
valores, mientras que un atributo numérico puede tener números
enteros o reales.
Armar un
conjunto de instancias como las de la tabla anterior no es una tarea
fácil, cuando los datos están en distintas fuentes, es posible que
éstas usen distintas convenciones o formatos, lo que podría llevar
a inconsistencias en los patrones inferidos, por ejemplo, algunas
fuentes de datos podrían usar las palabras “sí” y “no” para
atributos binarios, mientras que otras podrían usar false y true,
por lo tanto, antes de llevar a cabo el proceso de minería, es
necesario hacer una integración de los datos, lo que generalmente se
logra con un Data Warehouse,
en el cual los datos son uniformes e ideales para procesos de
extracción de conocimiento.
Un patrón
inferido de las instancias de la tabla anterior podría ser el
siguiente:
Si
Pronóstico = “Soleado” y Humedad > 83, entonces
Jugar = “No”.
En realidad
no es el único patrón, podrían haber más y de distintos tipos, pero este
tema corresponde a las salidas de una herramienta de minería de
datos, las cuales describiremos en la siguiente entrada del blog, así
que no dejen de visitarnos.
La tabla anterior fue adaptada del libro: "Data Mining: Practical Machine Learning Tools and Techniques", les recomendamos este libro si desean saber más sobre el tema.
No hay comentarios:
Publicar un comentario