lunes, 3 de octubre de 2011

Los patrones...


Hasta el momento nos hemos referido al resultado que se espera de un proceso de minería de datos con distintos términos: patrón, conocimiento, concepto o salida; pero aún no es muy claro cómo las personas lo percibimos y lo usamos para lograr entendimiento sobre los datos actuales y poder predictivo sobre datos futuros.

Para entender el patrón, debemos ser capaces de ver y entender su estructura, la cual se puede expresar de distintas formas dependiendo de la técnica de minería de datos que se use.

A continuación se describen dos de las formas más comunes en que se expresa la estructura de los patrones, y para esto usaremos un conjunto de ejemplos o instancias del concepto a aprender, que en este caso corresponde a condiciones climáticas para jugar fuera de casa:

Pronóstico
Temperatura
Humedad
Hace_Viento
Jugar
Soleado
Cálida
Alta
Falso
No
Soleado
Cálida
Alta
Verdadero
No
Nublado
Cálida
Alta
Falso
Lluvioso
Templada
Alta
Falso
Lluvioso
Fría
Normal
Falso
Lluvioso
Fría
Normal
Verdadero
No
Nublado
Fría
Normal
Verdadero
Soleado
Templada
Alta
Falso
No
Soleado
Fría
Normal
Falso
Lluvioso
Templada
Normal
Falso
Soleado
Templada
Normal
Verdadero
Nublado
Templada
Alta
Verdadero
Nublado
Cálida
Normal
Falso
Lluvioso
Templada
Alta
Verdadero
No


Reglas:

Si Pronóstico = “Soleado” y Humedad = “Alta” , entonces Jugar = “No”
Si Pronóstico = “Lluvioso” y Hace_Viento = “Verdadero”, entonces Jugar = “No”
Si Pronóstico = “Nublado”, entonces Jugar = “Sí”
Si Humedad = “Normal”, entonces Jugar = “Sí”
Si ninguno de los anteriores, entonces Jugar = “Sí”


Árboles de decisión:



Las dos formas de expresión anteriores nos permiten entender el conjunto de ejemplos de la tabla anterior, al mismo tiempo que nos permiten predecir que sucederá con un nuevo caso en el cual no se conozca el resultado, por ejemplo:


Pronóstico
Temperatura
Humedad
Hace_Viento
Jugar
Lluvioso
Fría
Alta
Verdadero
?

Este nuevo caso, usando las reglas o el árbol de decisión, será clasificado como “No”, es decir, que no se debería jugar fuera de casa.

El tema tratado en esta entrada se puede encontrar en el libro "Data Mining: Practical Machine Learning Tools and Techniques".

No hay comentarios:

Publicar un comentario en la entrada