Recordando, el objetivo
principal de la minería de datos es la descripción y predicción de
los datos, el cual se lleva a cabo mediante un proceso de preparación
de un conjunto de ejemplos (instancias del concepto a aprender) y
aplicación de técnicas para obtener patrones como los descritos la
semana pasada.
Dependiendo de la técnica
usada, podemos clasificar la tarea de minería de datos dentro de
distintos grupos, a continuación describimos algunos de estos:
Clasificación:
Un atributo nominal es usado como “clase” para clasificar
en distintas categorías el conjunto de ejemplos. La tarea de
predicción consiste en identificar cual es el valor de la clase para
nuevos ejemplos aún no clasificados.
En el siguiente gráfico
hay un conjunto de ejemplos (puntos) con las clases 'rojo' y
'blanco', el modelo generado dividió el espacio en dos zonas, una
roja oscura y una gris, de modo que para clasificar un nuevo ejemplo,
basta con revisar a que zona pertenece.
Regresión:
Similar
al anterior, pero en este caso el atributo usado como clase es
numérico (entero o real). La tarea de predicción consiste en llevar
a cabo un proceso de regresión para asignar un valor numérco a un
nuevo ejemplo.
El
concepto de regresión se usa principalmente en estadística donde se
define como el proceso de predecir un número.
En
el siguiente gráfico hay un conjunto de ejemplos de la misma clase,
el modelo lineal generado permite poner un atributo numérico en
función de otro, de modo que para clasificar un nuevo ejemplo, basta
con aplicar el modelo con el valor del atributo independiente.
Agrupamiento
(clustering):
Similar
a clasificación, consiste en agrupar en distintas categorias los
ejemplos, solo que en este caso no se tiene información de cual es
el atributo que corresponde a la clase. El agrupamiento se realiza
buscando similitudes entre los distintos ejemplos, los más similares
se consideran un grupo (cluster)
al cual se le da un nombre arbitrario. La tarea de predicción
consiste en clasificar nuevos ejemplos dentro de estos grupos
encontrados.
En
el siguiente gráfico hay un conjunto de ejemplos para los cuales no
se hace distinción de clase, el modelo generado dividió el espacio
en tantas zonas como agrupaciones se encontraron, de modo que para
clasificar un nuevo ejemplo, basta con revisar a que zona pertenece.
Si deseas más información, puedes consultar el siguiente documento: www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf
Los gráficos en esta entrada fueron generados usando una aplicación para 'experimentar' con distinos algoritmos de machine learning, que se puede descargar en: http://mldemos.epfl.ch/
¿Está buscando un prestamista de préstamos positivo para solucionar su problema financiero? Entonces le gustaría que pedro ofreciera un préstamo, pedro me ofreciera un préstamo a una tasa de 3 roi y todo el proceso se desarrolló sin problemas como esperaba, puede enviarle un correo electrónico si necesita algún tipo de préstamos email: pedroloanss@gmail.com
ResponderEliminar