Minería de Datos

lunes, 28 de noviembre de 2011

Reality mining

Los avances tecnológicos de la última década ha creado toda una revolución en la forma como interactúa nuestra sociedad. Hoy en día una persona puede estar conectada a la red en cualquier momento y lugar, puede consumir información y comunicarse con otros sin mayores limitaciones de tal forma que hace algunos años habría sido impensable.

Esta red virtual ha crecido a tal punto que casi cualquier dispositivo con el que interactuamos se encuentra conectado a ésta. Inclusive, algunos se atreven a decir que tiene vida, comparándola con un organismo complejo que nos oye y nos ve; lo peor de todo es que es cierto, sus sensores (dispositivos con que interactuamos) manejan nuestra información, no solo la básica, también esa del comportamiento, la que producimos en tiempo real, por ejemplo, con quien hablamos, de que hablamos, en que lugar estamos, etc.

Capturar y extraer conocimiento sobre este tipo de información se ha vuelto un nuevo nicho de la minería de datos, se le ha dado el nombre de Reality mining, donde la dinámica social del ser humano es el centro de atención. Para ilustrar un caso, la información obtenida de los celulares con GPS de los conductores de automóviles, además de ser usada para conocer en tiempo real el estado del tráfico, permitirá predecir congestión vial horas antes de que ocurra, o cómo configurar los semáforos para disminuir la congestión.

Otro caso de Reality mining es el estudio de relaciones interpersonales en una empresa. La captura de información se realiza con sensores infrarrojos, micrófonos, acelerómetros, sensores de ubicación, entre otros, la información que se obtiene permite identificar patrones de comportamiento para medir y predecir productividad o satisfacción de las personas en sus trabajos.

Este es un nuevo campo por explotar, el uso que se le puede dar a esta información en beneficio de las mismas personas es invaluable, sin importar la escala, ya sea en una empresa, un país o el mundo entero.

Referencias:

www.cs.cmu.edu/~tom/pubs/Science2009_perspective.pdf

www.insead.edu/v1/gitr/wef/main/fullreport/files/Chap1/1.6.pdf

lunes, 21 de noviembre de 2011

Minería de datos y BI

Buen día a nuestros lectores, para la publicación de hoy realizaremos una relación a nivel general de la minería de datos junto con la inteligencia de negocio (BI), si bien las dos son metodologías que trabajan sobre información y aunque puedan confundirse no son lo mismo. Pero si son totalmente complementarias una sobre otra.

La minería de datos busca patrones sobre gran cantidad de información por medio de algoritmos y metodologías que hemos explicado con anterioridad y estos patrones son de aporte para la toma de decisiones empresariales, pero es aquí donde entra la inteligencia de negocio lo que se hace con una herramienta BI es tomar la información de los patrones obtenidos por medio de la minería y logra realizar reportes e informes estadísticos como por ejemplo un BSC y de esta manera presentar informes a la junta directiva la cual puede tomar las decisiones dentro de la compañía. A continuación observamos un proceso de minería de datos combinado con BI:

Como se puede ver existe una parte de abstracción de datos y otra de análisis de los mismos donde se encuentran patrones y esto es lo que haría parte de la minería de datos, pero en la capa final vemos la parte de reportes detallados lo cual hace parte de la inteligencia de negocios y es lo que se puede presentar en un BSC (Cuadro de mando integral) ante la junta directiva y por medio de la cual se pueden tomar decisiones empresariales. Para finalizar dejamos el link para ver completamente la minería de datos junto con BI:

http://www.acis.org.co/fileadmin/Conferencias/ConferenciaOrdonezAcis2010.pdf

lunes, 14 de noviembre de 2011

Historia de la minería de datos

Los fundamentos teóricos de la minería de datos se basan en el estudio del aprendizaje automático en máquinas o machine learning, un área interdisciplinaria donde inteligencia artificial, ciencias cognitivas, estadística y biología han jugado un importante rol en el desarrollo de la misma.

El desarrollo de esta área ha pasado por varias etapas a través de su historia, y los cambios han sido de tal relevancia que hoy se puede hablar de paradigmas, tres de estos son descritos a continuación.

Tomada de: http://dict.leo.org/pages.ende/about_en.html

Modelado neuronal

Se pueden encontrar trabajos que datan de los años 30's donde el principal interés de los investigadores era la comprensión del funcionamiento del cerebro, estos estudios llevaron a la invención de modelos que trataban de explicar su comportamiento y al subsecuente desarrollo de las redes neuronales artificiales, consideradas como los primeros sistemas creados por el hombre que realmente tenían la capacidad de aprender.

Adquisición de conceptos simbólicos

A principios de los años 60's los estudios se centraron más en la forma en que queda representado el conocimiento, pues una de las desventajas de las redes neuronales es que su conocimiento queda implícito, no hay forma de entender su estructura.

Los métodos de aprendizaje desarrollados dentro de este paradigma, hacen suposiciones estructurales del concepto a aprender mediante el análisis de un conjunto de ejemplos positivos o negativos del mismo. La representación del conocimiento queda expresada en formas como árboles de decisión, reglas, expresiones lógicas o redes semánticas en lugar de métodos numéricos o estadísticos.

Aprendizaje de conocimiento de dominio

A mediados de los años 70's los trabajos se centran en la creación de sistemas de propósito específico, en contraste con los anteriores de propósito general. Se caracterizan por la gran cantidad de conocimiento previo relativo a un dominio específico que requieren, el cual es estructurado y es dado por un experto (una persona con bastantes conocimientos en un área específica).

Si desean saber más sobre este tema, pueden consultar el siguiente libro:

Machine learning: an artificial intelligence approach

lunes, 7 de noviembre de 2011

Minería de datos en recursos humanos

Buen día lectores continuando con la minería de datos luego de ver algo de sus algoritmos y sus herramientas, en esta publicación queremos dar una vista general a la minería de datos dentro de una solución de software como es un HRM (Gestión de recursos humanos), una gestión que es necesaria en todas las organizaciones puesto que todas necesitan de sus empleados para el cumplimiento de sus objetivos, y para esta gestión existen herramientas software que la hacen más fácil y aún generan más valor cuando se hace uso de la minería de datos sobre ella.

La minería de datos puedes ser usada en una solución HRM puesto que en ella encontramos la información referente a los empleados y esta no es poco, para el manejo de esta información la minería de datos da un valor agregado al HRM puesto que sobre un análisis de sus datos se pueden obtener por ejemplo una lista de los empleados más exitosos en la compañía así como de este estudio se puede obtener los perfiles de los mismos, de tal manera que la organización se centre en la búsqueda de perfiles iguales que le representen éxito posterior. También por mencionar otro uso que aporta la minería de datos a una solución HRM y que genera gran valor para la compañía es otro análisis de datos de el horario de mayor productividad en cuanto mano de obra se refiere, entonces de aquí se puede derivar una decisión de tener el mayor personal posible en el horario clasificado como más productivo y así evitar gastos de nomina en horarios que posiblemente no representan tanto beneficio para la compañía.

tomada de: bligoo.com

tomada de: jcvalda.wordpress.com

De estos datos anteriores en cuanto al uso de minería de datos sobre una herramienta tecnológica con la que cuenta una compañía, podemos entender que los beneficios que se obtienen con el uso de tecnologías junto con metodologías son representados en ingresos para que de esta manera la tecnología deje de ser aquel gasto que no genera nada a la compañía, y es que no solo sobre las soluciones de HRM de puede usar la minería de datos sino que existen más herramientas tecnológicas de las que se obtiene gran beneficio si se usa minería.

Finalmente compartimos un link para que conozcan mas usos de la minería de datos:

http://www.mitecnologico.com/Main/AplicacionesMineriaDeDatos

lunes, 31 de octubre de 2011

Herramientas en la minería de datos

En las dos publicaciones anteriores hicimos referencia a algunos de los algoritmos que se aplican en el proceso de minería de datos, con algunos ejemplos de usos reales. Ahora para continuar con esta metodología que permite generar conocimiento hoy escribimos de algunas herramientas que hacen parte de la minería, las cuales son:

· Redes neuronales:

Es una de las herramientas de la minería de datos que permite la realización de modelos para los problemas que son considerados más grandes y complejos, en los cuales nos podemos encontrar con un sin número de variable y de conexiones entre ellas.

Las redes neuronales están compuestas por nodos y capas, donde los nodos hacen parte de las capas y existe conexión tanto entre nodos como en las capas, por tal complejidad esta es una herramienta que se recomienda para problemas con gran cantidad de datos y en las que usaremos algoritmo de clasificación o regresión.

tomada de: sauruxum.blogspot.com

· Arboles de decisión:

En los arboles la minería de datos encuentra una herramienta por medio de la cual se pueden representar reglas, puesto que los modelos de los árboles son usados para examinar los datos e inducir las reglas para realizar predicciones.

Los árboles de decisión están formados por divisiones en forma de iteración en las que se encuentran grupos discretos de datos, está herramienta es recomendada cuando las variables de predicción son categóricas, perfectos para el manejo de datos no numéricos.

tomada de: dccia.ua.es

· Inducción de reglas:

Esta es una herramienta muy parecida a los arboles de decisión, puesto que se utiliza para la derivación de reglas, solo que en este caso las reglas pueden ser generas de manera independiente sin tener estructura de arboles, por lo cual se pueden encontrar diferentes patrones de clasificación.

Para el caso de la inducción de reglas se recomienda asignar un nivel de confiabilidad a las reglas y así poder aplicar la de más alto nivel para predicciones mas exactas.

tomada de: olmo.usal.es

A continuación dejamos un link interesante del tema de hoy para profundizar en el tema y otros mas:

http://inteligencianegocios.wordpress.com/category/mineria-de-datos/

lunes, 24 de octubre de 2011

Casos reales de uso...

Buen día a todos los lectores, si bien en una publicación anterior se dio a conocer un caso de éxito de la aplicación de minería de datos en dos grandes y reconocidas cadenas de hipermercado, permitiendo ver con esto el uso empresarial de la minería para la toma de decisiones. Ahora luego de las últimas publicaciones tratar el tema técnico de la minería, es de interés mostrar lo cerca que estamos de la minería de datos en operaciones que parecen sencillas pero que de fondo tienen algoritmos de minería de datos que claramente no son percibidos por nosotros ya que no es lo que nos importe estudiar en el momento.

Es tan cercano el uso de la minería de datos que en una sencilla búsqueda de internet a través de buscadores como google por mencionar alguno, de fondo en cada búsqueda lo que se hace es aplicar uno de los algoritmos de la minería de datos descritos en la anterior publicación como grupos, para el caso de búsqueda lo que se hace es una agrupación (clustering) por categorías y/o temáticas previamente a mostrar los resultados al usuario. Por otro lado en un caso más de la vida cotidiana la minería de datos se encuentra en el momento de realizar alguna transacción con alguna tarjeta debito o crédito puesto que al momento de de dicha transacción el sistema procesa un algoritmo de minería que en este caso es la regresión que mide una línea de equilibrio, por medio del cual se puede analizar si esta transacción está dada por el comportamiento habitual del usuario, para en caso de no ser así poder sospechar que no está siendo usada por el dueño y posiblemente poder tomar medidas de seguridad en el caso.

Tomada de: planetaip.blogspot.com
Tomada de: jhonnyd15.wordpress.com

Es así como se puede ver que la información está presente en la sociedad no solo a nivel empresarial y que del correcto manejo de la misma se pueden obtener grandes utilidades tanto como para las empresas como para los usuarios. A continuación encuentran el link relacionado con el tema para leer de estos y más casos de uso de la minería de datos:

http://es.scribd.com/doc/11352087/Mineria-de-Datos-en-Aduanas

Gracias, los esperamos como siempre para las proximas publicaciones.

lunes, 17 de octubre de 2011

Tipos de problemas

Recordando, el objetivo principal de la minería de datos es la descripción y predicción de los datos, el cual se lleva a cabo mediante un proceso de preparación de un conjunto de ejemplos (instancias del concepto a aprender) y aplicación de técnicas para obtener patrones como los descritos la semana pasada.

Dependiendo de la técnica usada, podemos clasificar la tarea de minería de datos dentro de distintos grupos, a continuación describimos algunos de estos:

Clasificación:

Un atributo nominal es usado como “clase” para clasificar en distintas categorías el conjunto de ejemplos. La tarea de predicción consiste en identificar cual es el valor de la clase para nuevos ejemplos aún no clasificados.

Ejemplo:

En el siguiente gráfico hay un conjunto de ejemplos (puntos) con las clases 'rojo' y 'blanco', el modelo generado dividió el espacio en dos zonas, una roja oscura y una gris, de modo que para clasificar un nuevo ejemplo, basta con revisar a que zona pertenece.

Regresión:

Similar al anterior, pero en este caso el atributo usado como clase es numérico (entero o real). La tarea de predicción consiste en llevar a cabo un proceso de regresión para asignar un valor numérco a un nuevo ejemplo.

El concepto de regresión se usa principalmente en estadística donde se define como el proceso de predecir un número.

Ejemplo:

En el siguiente gráfico hay un conjunto de ejemplos de la misma clase, el modelo lineal generado permite poner un atributo numérico en función de otro, de modo que para clasificar un nuevo ejemplo, basta con aplicar el modelo con el valor del atributo independiente.

Agrupamiento (clustering):

Similar a clasificación, consiste en agrupar en distintas categorias los ejemplos, solo que en este caso no se tiene información de cual es el atributo que corresponde a la clase. El agrupamiento se realiza buscando similitudes entre los distintos ejemplos, los más similares se consideran un grupo (cluster) al cual se le da un nombre arbitrario. La tarea de predicción consiste en clasificar nuevos ejemplos dentro de estos grupos encontrados.

Ejemplo:

En el siguiente gráfico hay un conjunto de ejemplos para los cuales no se hace distinción de clase, el modelo generado dividió el espacio en tantas zonas como agrupaciones se encontraron, de modo que para clasificar un nuevo ejemplo, basta con revisar a que zona pertenece.

Si deseas más información, puedes consultar el siguiente documento: www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf

Los gráficos en esta entrada fueron generados usando una aplicación para 'experimentar' con distinos algoritmos de machine learning, que se puede descargar en: http://mldemos.epfl.ch/