La minería
de datos o exploración
de datos (es la etapa de
análisis de "Knowledge Discovery in Databases" o KDD) es un campo de las ciencias
de la computación referido al
proceso que intenta descubrir patrones en grandes volúmenes de conjuntos
de datos. Utiliza los métodos
de la inteligencia
artificial, aprendizaje
automático, estadística y
sistemas de bases de datos.
El objetivo general del proceso de minería
de datos consiste en extraer información de un conjunto de datos y
transformarla en una estructura comprensible para su uso posterior.
Además de la etapa de análisis en bruto, que involucra aspectos de bases
de datos y de gestión de
datos, de procesamiento de
datos, del modelo y de las consideraciones de inferencia, de métricas de
Intereses, de consideraciones de la Teoría
de la complejidad computacional, de post-procesamiento de las
estructuras descubiertas, de la visualización y de la actualización en
línea.
La tarea de minería de datos
real es el análisis automático o semi-automático de grandes cantidades
de datos para extraer patrones interesantes hasta ahora desconocidos,
como los grupos de registros de datos (análisis clúster), registros poco
usuales (la detección de anomalías) y dependencias (minería por reglas
de asociación). Esto generalmente implica el uso de técnicas de bases de
datos como los índices espaciales.
Estos patrones pueden
entonces ser vistos como una especie de resumen de los datos de entrada,
y pueden ser utilizados en el análisis adicional o, por ejemplo, en la
máquina de aprendizaje y análisis predictivo. Por ejemplo, el paso de
minería de datos podría identificar varios grupos en los datos, que
luego pueden ser utilizados para obtener resultados más precisos de
predicción por un sistema de soporte de decisiones. Ni la recolección de
datos, preparación de datos, ni la interpretación de los resultados y la
información son parte de la etapa de minería de datos, pero que
pertenecen a todo el proceso KDD como pasos adicionales.
Los términos relacionados
con la obtención de datos, la pesca de datos y espionaje de los datos se
refieren a la utilización de métodos de minería de datos a las partes de
la muestra de un conjunto de datos de población más grandes establecidas
que son (o pueden ser) demasiado pequeñas para las inferencias
estadísticas fiables que se hizo acerca de la validez de cualquier
patrón descubierto. Estos métodos pueden, sin embargo, ser utilizados en
la creación de nuevas hipótesis que se prueban contra poblaciones de
datos más grandes.
Como ya se ha comentado, las técnicas de la minería de datos
provienen de la inteligencia
artificial y de la estadística,
dichas técnicas, no son más que algoritmos,
más o menos sofisticados que se aplican sobre un conjunto de datos para obtener
unos resultados.
Las técnicas más representativas son:
-
Redes neuronales.-
Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma
en que funciona el sistema
nervioso de los animales. Se
trata de un sistema de interconexión de neuronas en
una red que
colabora para producir un estímulo de salida. Algunos ejemplos de red
neuronal son:
-
Árboles de decisión.-
Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia
artificial, dada una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas de predicción basados
en reglas, que sirven para representar y categorizar una serie de
condiciones que suceden de forma sucesiva, para la resolución de un
problema.
Ejemplos:
-
Algoritmo
ID3.
-
Algoritmo
C4.5.
-
Agrupamiento o Clustering.-
Es un procedimiento de agrupación de una serie de vectores según criterios
habitualmente de distancia; se tratará de disponer los vectores de entrada
de forma que estén más cercanos aquellos que tengan características comunes.
Ejemplos:
-
Algoritmo
K-means.
-
Algoritmo
K-medoids.
Según el objetivo del análisis de los datos,
los algoritmos utilizados se clasifican,
en supervisados y no
supervisados (Weiss y Indurkhya, 1998):
1.
Negocios
La minería de datos puede contribuir significativamente en las
aplicaciones de administración
empresarial basada en la relación con el cliente. En lugar de contactar con el
cliente de forma indiscriminada a través de un centro de llamadas o enviando
e-mails, sólo se contactará con aquellos que se perciba que tienen una mayor
probabilidad de responder positivamente a una determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven
rápidamente el retorno de la inversión, pero también reconocen que el número de
modelos predictivos desarrollados puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden
cambiar, la empresa podría construir modelos separados para cada región y/o para
cada tipo de cliente. También puede querer determinar qué clientes van a ser
rentables durante una ventana de tiempo (una quincena, un mes, ...) y sólo
enviar las ofertas a las personas que es probable que sean rentables. Para
mantener esta cantidad de modelos, es necesario gestionar las versiones de cada
modelo y pasar a una minería de datos lo más automatizada posible.
2. Análisis de la cesta de compra
El ejemplo clásico de aplicación de la minería de datos tiene que
ver con la detección de hábitos de
compra en supermercados. Un estudio muy citado detectó que los viernes había
una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y
cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado
padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en
casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El
supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los
pañales para fomentar las ventas compulsivas.
3.
Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones
de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.—
existe un comprensible interés en detectar cuanto antes aquellos clientes que
puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a
la competencia. A estos clientes —y en función de su valor— se les podrían hacer
ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo
último de retenerlos. La minería de datos ayuda a determinar qué clientes son
los más proclives a darse de baja estudiando sus patrones de comportamiento y
comparándolos con muestras de clientes que, efectivamente, se dieron de baja en
el pasado.
4. Fraudes
Un caso análogo es el de la detección de transacciones de lavado
de dinero o de fraude en
el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en
la relación de los contribuyentes con el fisco. Generalmente, estas operaciones
fraudulentas o ilegales suelen seguir patrones característicos que permiten, con
cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así
mecanismos para tomar medidas rápidas frente a ellas.
5.
Recursos humanos
La minería de datos también puede ser útil para los departamentos
de recursos humanos en
la identificación de las características de sus empleados de mayor éxito. La
información obtenida puede ayudar a la contratación de personal, centrándose en
los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la
ayuda ofrecida por las aplicaciones para Dirección
estratégica en una empresa se
traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el
margen de beneficios o compartir objetivos; y en la mejora de las decisiones
operativas, tales como desarrollo de planes de producción o
gestión de mano de obra.
6. Comportamiento en Internet
También es un área en boga el del análisis del comportamiento de
los visitantes —sobre todo, cuando son clientes potenciales— en una página de Internet.
O la utilización de la información —obtenida por medios más o menos legítimos—
sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O
para, una vez que adquieren un determinado producto, saber inmediatamente qué
otro ofrecerle teniendo en cuenta la información histórica disponible acerca de
los clientes que han comprado el primero.
7.
Terrorismo
La minería de datos ha sido citada como el método por el cual la
unidad Able Danger del
Ejército de los EE. UU. había identificado al líder de los atentados
del 11 de septiembre de 2001, Mohammed
Atta, y a otros tres secuestradores del "11-S" como posibles miembros de
una célula de Al Qaeda que
operan en los EE. UU. más de un año antes del ataque. Se ha sugerido que tanto
la Agencia Central de Inteligencia y
su homóloga canadiense, Servicio de
Inteligencia y Seguridad Canadiense, también han empleado este método.
8. Juegos
Desde comienzos de la década de 1960, con la disponibilidad de oráculos para
determinados juegos combinacionales,
también llamados finales de juego de
tablero (por ejemplo, para las tres
en raya o en finales
de ajedrez) con cualquier configuración de inicio, se ha abierto una nueva área
en la minería de datos que consiste en la extracción de estrategias utilizadas
por personas para estos oráculos. Los planteamientos actuales sobre reconocimiento
de patrones, no parecen poder aplicarse con éxito al funcionamiento de estos
oráculos. En su lugar, la producción de patrones perspicaces se
basa en una amplia experimentación con bases
de datos sobre esos finales
de juego, combinado con un estudio intensivo de los propios finales
de juego en problemas bien
diseñados y con conocimiento de la técnica (datos previos sobre el final del
juego). Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en
el juego de puntos-y-cajas (o Timbiriche)
y John Nunn en finales
de ajedrez.
9.
Ciencia e Ingeniería
En los últimos años la minería de datos se está utilizando
ampliamente en diversas áreas relacionadas con la ciencia y
la ingeniería. Algunos ejemplos de
aplicación en estos campos son:
9.1
Genética:
En el estudio
de la genética humana,
el objetivo principal es entender la relación cartográfica entre
las partes y la variación individual en las secuencias del ADN humano
y la variabilidad en la susceptibilidad a las enfermedades. En términos más
llanos, se trata de saber cómo los cambios en la secuencia de ADN de un
individuo afectan al riesgo de desarrollar enfermedades comunes (como por
ejemplo el cáncer). Esto es muy
importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las
enfermedades. La técnica de minería de datos que se utiliza para realizar esta
tarea se conoce como "reducción de dimensionalidad multifactorial".
9.2 Ingeniería eléctrica:
En el
ámbito de la ingeniería eléctrica,
las técnicas de minería de datos han sido ampliamente utilizadas para
monitorizar las condiciones de las instalaciones de alta
tensión. La finalidad de esta monitorización es obtener información valiosa
sobre el estado del aislamiento de los equipos. Para la vigilancia de las
vibraciones o el análisis de los cambios de carga en transformadores se utilizan
ciertas técnicas para agrupación de
datos (clustering) tales como
los mapas auto-organizativos (SOM:
Self-organizing map). Estos mapas sirven para detectar condiciones anormales
y para estimar la naturaleza de dichas anomalías.
9.3 Análisis de gases:
También se han aplicado técnicas de minería de datos para el análisis
de gases disueltos (DGA: Dissolved
gas analysis) en transformadores
eléctricos. El análisis de gases disueltos se conoce desde hace mucho tiempo
como la herramienta para diagnosticar transformadores. Los mapas
auto-organizativos (SOM) se
utilizan para analizar datos y determinar tendencias que podrían pasarse por
alto utilizando las técnicas clásicas (DGA).