lunes, 17 de octubre de 2011

Tipos de problemas


Recordando, el objetivo principal de la minería de datos es la descripción y predicción de los datos, el cual se lleva a cabo mediante un proceso de preparación de un conjunto de ejemplos (instancias del concepto a aprender) y aplicación de técnicas para obtener patrones como los descritos la semana pasada.

Dependiendo de la técnica usada, podemos clasificar la tarea de minería de datos dentro de distintos grupos, a continuación describimos algunos de estos:

Clasificación:
Un atributo nominal es usado como “clase” para clasificar en distintas categorías el conjunto de ejemplos. La tarea de predicción consiste en identificar cual es el valor de la clase para nuevos ejemplos aún no clasificados.

Ejemplo:
En el siguiente gráfico hay un conjunto de ejemplos (puntos) con las clases 'rojo' y 'blanco', el modelo generado dividió el espacio en dos zonas, una roja oscura y una gris, de modo que para clasificar un nuevo ejemplo, basta con revisar a que zona pertenece.


Regresión:
Similar al anterior, pero en este caso el atributo usado como clase es numérico (entero o real). La tarea de predicción consiste en llevar a cabo un proceso de regresión para asignar un valor numérco a un nuevo ejemplo.

El concepto de regresión se usa principalmente en estadística donde se define como el proceso de predecir un número.

Ejemplo:
En el siguiente gráfico hay un conjunto de ejemplos de la misma clase, el modelo lineal generado permite poner un atributo numérico en función de otro, de modo que para clasificar un nuevo ejemplo, basta con aplicar el modelo con el valor del atributo independiente.


Agrupamiento (clustering):
Similar a clasificación, consiste en agrupar en distintas categorias los ejemplos, solo que en este caso no se tiene información de cual es el atributo que corresponde a la clase. El agrupamiento se realiza buscando similitudes entre los distintos ejemplos, los más similares se consideran un grupo (cluster) al cual se le da un nombre arbitrario. La tarea de predicción consiste en clasificar nuevos ejemplos dentro de estos grupos encontrados.

Ejemplo:
En el siguiente gráfico hay un conjunto de ejemplos para los cuales no se hace distinción de clase, el modelo generado dividió el espacio en tantas zonas como agrupaciones se encontraron, de modo que para clasificar un nuevo ejemplo, basta con revisar a que zona pertenece.



Si deseas más información, puedes consultar el siguiente documento: www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf

Los gráficos en esta entrada fueron generados usando una aplicación para 'experimentar' con distinos algoritmos de machine learning, que se puede descargar en: http://mldemos.epfl.ch/

1 comentario:

  1. ¿Está buscando un prestamista de préstamos positivo para solucionar su problema financiero? Entonces le gustaría que pedro ofreciera un préstamo, pedro me ofreciera un préstamo a una tasa de 3 roi y todo el proceso se desarrolló sin problemas como esperaba, puede enviarle un correo electrónico si necesita algún tipo de préstamos email: pedroloanss@gmail.com

    ResponderEliminar