Análisis de información y minería de datos para la toma de decisiones

Primera Sección: Base teórica

Definiciones

1. Inteligencia de Negocios (Business Intelligence – BI)

Definición:
La Inteligencia de Negocios (BI) se refiere a un conjunto de procesos, tecnologías y herramientas que permiten a las organizaciones transformar datos crudos en información significativa y útil para la toma de decisiones estratégicas. BI implica la recopilación, integración, análisis y presentación de datos empresariales, facilitando la identificación de tendencias, patrones y oportunidades que pueden guiar las decisiones de negocio.

Características Principales:

  • Acceso a Información Relevante: BI proporciona acceso a datos precisos y oportunos.
  • Análisis Profundo: Permite el análisis detallado de datos históricos y actuales.
  • Visualización de Datos: A través de dashboards e informes, facilita la comprensión de datos complejos.

2. OLAP (Online Analytical Processing)

Definición:
OLAP es una tecnología que permite realizar consultas y análisis multidimensionales sobre grandes volúmenes de datos. Esta tecnología es utilizada comúnmente en el ámbito de la Inteligencia de Negocios para analizar datos desde diferentes perspectivas o dimensiones, facilitando la exploración y comparación de datos.

Características Principales:

  • Multidimensionalidad: OLAP permite analizar datos desde múltiples dimensiones (por ejemplo, tiempo, geografía, producto).
  • Agilidad en las consultas: Ofrece respuestas rápidas a consultas complejas.
  • Soporte para grandes volúmenes de datos: Diseñado para manejar grandes cantidades de información.

3. Minería de Datos (Data Mining)

Definición:
La minería de datos es el proceso de descubrir patrones, correlaciones y tendencias ocultas en grandes conjuntos de datos mediante el uso de técnicas estadísticas, de aprendizaje automático y de inteligencia artificial. Este proceso permite extraer información útil y relevante que puede ser utilizada para la toma de decisiones y para prever comportamientos futuros.

Características Principales:

  • Descubrimiento Automático de Patrones: Identifica relaciones y tendencias ocultas en los datos.
  • Predicción de Comportamientos Futuros: Utiliza modelos para prever tendencias y comportamientos futuros.
  • Optimización de Procesos: Ayuda a mejorar la eficiencia y efectividad de los procesos empresariales.

Ejemplos prácticos en la Industria de TI

  1. Optimización del Rendimiento de Infraestructura:
    Las empresas de TI podemos utilizar BI para monitorear y analizar el rendimiento de nuestra infraestructura tecnológica (servidores, redes, bases de datos). Al identificar patrones de uso y posibles cuellos de botella, podemos tomar decisiones informadas para optimizar los recursos y mejorar el tiempo de actividad del sistema.
  2. Análisis de Comportamiento de Usuarios en Aplicaciones Web:
    Utilizando BI, las empresas de TI podemos analizar el comportamiento de los usuarios en aplicaciones web y móviles. Este análisis nos permite identificar funciones populares, detectar problemas de usabilidad y personalizar la experiencia del usuario, lo que puede mejorar la satisfacción del cliente y aumentar la retención.
  3. Gestión de Proyectos de Desarrollo de Software:
    Podemos BI utilizar para gestionar proyectos de desarrollo de software al analizar datos relacionados con tiempos de desarrollo, calidad del código, costos y recursos. Con estos datos, los gerentes podemos realizar ajustes en tiempo real, optimizando la entrega de proyectos y asegurando el cumplimiento de los plazos y presupuestos.

Proceso de descubrimiento de la información

El proceso de KDD (Knowledge Discovery in Databases), o Descubrimiento de Conocimiento en Bases de Datos, es una metodología utilizada para descubrir patrones y conocimiento útil a partir de grandes volúmenes de datos. Es un proceso completo que involucra varias etapas, desde la recopilación de datos hasta la interpretación final de los resultados. Consiste de las siguientes etapas:

1. Selección de Datos

En esta etapa, se seleccionan los datos relevantes para el análisis a partir de una base de datos. Se deben identificar y recopilar datos que sean pertinentes para el problema específico que se desea resolver.

2. Preprocesamiento de Datos

Una vez seleccionados, los datos suelen estar “sucios” o incompletos. En el preprocesamiento, se limpian, eliminan duplicados, se manejan valores faltantes y se normalizan para asegurarse de que estén en un formato adecuado para el análisis.

3. Transformación de Datos

Aquí, los datos se transforman y consolidan en formatos adecuados para el análisis. Esto puede incluir la reducción de dimensionalidad, la selección de variables, o la creación de nuevas variables derivadas. El objetivo es preparar los datos de manera que sean aptos para la aplicación de algoritmos de minería de datos.

4. Minería de Datos

Esta es la etapa central del proceso. En la minería de datos, se aplican técnicas y algoritmos para extraer patrones, modelos, o relaciones interesantes a partir de los datos. Esto puede incluir técnicas como clasificación, regresión, clustering (agrupamiento), reglas de asociación, entre otras.

5. Evaluación e Interpretación

Los patrones o modelos descubiertos se evalúan para determinar su utilidad y relevancia. Aquí se valida si los resultados obtenidos son consistentes y útiles para los objetivos establecidos al inicio del proceso. También se interpreta el significado de estos resultados en el contexto del problema.

6. Presentación del Conocimiento

Finalmente, el conocimiento descubierto se presenta de manera comprensible y utilizable para la toma de decisiones. Esta presentación puede ser a través de informes, visualizaciones, o sistemas de soporte a la decisión que ayuden a los tomadores de decisiones a aplicar los hallazgos en el contexto real.

Diagrama de flujo del proceso

Diagrama de flujo

Cuadro comparativo de las tareas de minería de datos

Técnica de Minería de Datos

Descripción

Tarea de Minería de Datos

Árboles de Decisión (Decision Trees)

Un árbol de decisión es un modelo predictivo que divide repetidamente los datos en subconjuntos más pequeños basados en características o atributos. Cada nodo del árbol representa una decisión basada en un solo atributo, y las ramas representan el resultado de esa decisión. El proceso se repite hasta que se alcanza una decisión final (hoja). Es útil para problemas de clasificación y predicción.

Clasificación, Predicción



Máquinas de Soporte Vectorial (Support Vector Machines, SVM)

SVM es un algoritmo de aprendizaje supervisado que busca encontrar el hiperplano que mejor separa las diferentes clases en los datos. El objetivo es maximizar la distancia entre las clases más cercanas (márgenes) para mejorar la precisión en la clasificación. Es eficaz en problemas de alta dimensionalidad.

Clasificación

Clustering K-Means

K-Means es una técnica de agrupamiento (clustering) no supervisada que agrupa los datos en K grupos (clusters) basados en la similitud de los atributos. El algoritmo itera para minimizar la distancia entre los puntos de datos y el centroide de su grupo correspondiente. Se utiliza principalmente para segmentación y categorización de datos.

Categorización

Redes Neuronales Artificiales (Artificial Neural Networks, ANN)

Las redes neuronales artificiales son modelos inspirados en el cerebro humano que consisten en capas de nodos (neuronas). Estas capas están interconectadas y procesan la información mediante la ponderación y la activación de las entradas. Son especialmente útiles para problemas complejos de predicción y clasificación.

Clasificación, Predicción

Análisis de Regresión

La regresión es un método estadístico que modela la relación entre una variable dependiente y una o más variables independientes. La regresión lineal, en particular, se utiliza para predecir valores continuos. El análisis de regresión es ampliamente utilizado para tareas de predicción.

Predicción

Técnicas complementarias para transformar la información

Herramientas ETL

ETL (Extract, Transform, Load) son procesos fundamentales en la integración y gestión de datos. Se encargan de:

  1. Extracción: Recoger datos de diversas fuentes, que pueden ser bases de datos, archivos de texto, aplicaciones, etc.
  2. Transformación: Convertir esos datos al formato adecuado, limpiándolos, normalizándolos, y aplicando reglas de negocio.
  3. Carga: Almacenar los datos transformados en un destino, como un data warehouse.

Ejemplos de herramientas ETL:

  • Talend: Una plataforma de código abierto para la integración de datos que permite manejar grandes volúmenes de información.
  • Informática PowerCenter: Herramienta robusta que facilita el procesamiento de datos para la analítica empresarial.
  • Microsoft SQL Server Integration Services (SSIS): Parte del ecosistema de SQL Server, diseñada para realizar operaciones ETL de manera eficiente.
  • Apache Nifi: Permite la automatización del flujo de datos entre diferentes sistemas con reglas definidas.

MOLAP (Multidimensional Online Analytical Processing)

MOLAP es una técnica de procesamiento de datos en línea que usa estructuras multidimensionales (cubos) para realizar consultas y análisis en un data warehouse. Los datos se pre-procesan y almacenan en un formato multidimensional, lo que acelera el acceso a la información.

Ventajas de MOLAP:

  • Respuesta rápida a consultas complejas.
  • Almacenamiento compacto de datos.
  • Fácil acceso a resúmenes y agregados para análisis detallados.

Data Warehouse

Un data warehouse o almacén de datos es un sistema que consolida datos provenientes de múltiples fuentes para facilitar su análisis y toma de decisiones. Se caracteriza por almacenar grandes volúmenes de información histórica y estar optimizado para consultas y reportes de tipo analítico.

Características:

  • Integración de datos: Reúne información de diversas fuentes.
  • Orientado a temas: Organiza los datos alrededor de áreas específicas del negocio.
  • Histórico: Mantiene registros de largo plazo.
  • No volátil: Los datos una vez cargados no se alteran.

DataMarts

Los DataMarts son subconjuntos de un data warehouse que están enfocados en áreas específicas de la organización, como ventas, finanzas o marketing. Permiten que ciertos departamentos tengan acceso a datos relevantes sin la necesidad de acceder a todo el almacén de datos.

Ventajas:

  • Especialización: Ofrecen información adaptada a las necesidades de departamentos o equipos específicos.
  • Acceso más rápido: Al ser más pequeños que un data warehouse, las consultas se procesan de manera más rápida y eficiente.

Cómo estas tecnologías ayudan a formar un almacén de datos más completo

  1. Herramientas ETL son esenciales para integrar y limpiar los datos de diversas fuentes de manera eficiente. Al transformar los datos y cargarlos en un data warehouse, aseguran que la información esté lista para su análisis y consulta, sin errores o inconsistencias.
  2. MOLAP optimiza el acceso a datos pre-procesados y agregados, lo que permite que los usuarios empresariales realicen análisis complejos de manera rápida. Esto es crucial para reportes y análisis multidimensionales, proporcionando un acceso inmediato a insights clave.
  3. Un Data Warehouse centraliza toda la información histórica y de negocio, permitiendo que la organización acceda a datos consolidados para la toma de decisiones estratégicas. Actúa como la columna vertebral para toda la arquitectura de datos, integrando diversas fuentes en un solo lugar.
  4. DataMarts permiten que los usuarios accedan a datos específicos y personalizados según sus necesidades sin sobrecargar el sistema completo. Esto fomenta un acceso más rápido y eficiente a los datos relevantes para cada área.

Vista Minable

1. Concepto de “Vista Minable”

Una Vista Minable es una proyección específica de datos en un almacén de datos (data warehouse) que está diseñada y optimizada para ser utilizada en procesos de minería de datos. Su objetivo principal es estructurar los datos de manera que faciliten la identificación de patrones, tendencias y relaciones significativas. Las vistas minables se crean a partir de una o varias tablas del almacén de datos y usualmente se enfocan en un subconjunto de los datos relevantes para un análisis particular. Estas vistas permiten reducir la cantidad de datos a procesar y mejorar la eficiencia de los algoritmos de minería.

2. Vista Minable Diseñada

A partir de las tablas que tengo en mi almacén de datos, puedo diseñar una vista minable que relacione información sobre museos y visitantes. Esta vista me permitirá analizar la relación entre el número de visitantes y el tipo de museo o estado donde se encuentran los museos.

  • Tablas involucradas:
    • Museos (Información general de los museos)
    • Visitantes (Registros de visitantes por museo)
    • Estado (Ubicación geográfica de los museos)
  • Atributos seleccionados para la vista minable:
    • Nombre del museo (de la tabla Museos)
    • Estado (de la tabla Estado)
    • Total de visitantes (de la tabla Visitantes)
    • Tipo de museo (de la tabla Museos)
    • Año (de la tabla Visitantes)

La vista resultante podría verse como una combinación de estas tablas, ofreciendo un resumen de los museos y su cantidad de visitantes por estado y tipo.

Diseño de consulta en MS Access

Imagen 1. Vista de diseño de la consulta

Tabla de consulta en MS Access

Imagen 2. Vista de tabla de la consulta

3. Formas de Explotación de la Vista Minable

  1. Análisis de Tendencias de Visitantes por Tipo de Museo: Utilizando esta vista minable, se puede analizar cómo ha cambiado la afluencia de visitantes a los diferentes tipos de museos a lo largo de los años. Por ejemplo, podríamos descubrir si los museos de historia natural han ganado popularidad en los últimos años o si los museos de arte han perdido visitantes. 
  2. Comparación Geográfica de Visitantes por Estado: Esta vista también permitiría realizar un análisis geográfico de la distribución de visitantes. Podríamos detectar si ciertos estados o regiones reciben más visitantes en sus museos, lo que ayudaría a los gobiernos locales a tomar decisiones sobre inversión en infraestructura cultural. Además, podría servir para detectar estados con bajo flujo de visitantes y diseñar estrategias para mejorar la atracción turística en esos lugares.

Herramientas de minería de datos

1. Proceso de instalación de Orange

  • Descargar orange

Imagen 1.  Descarga de Orange

 

  • Instalar orange

Imagen 2. Instalación de Orange

2. Visualización de la vista minable y demás pasos realizados

  • Agregar Archivo CSV

Imagen 3. Agregar archivo CSV

 

  • Generar tabla de vista minable

Imagen 4. Generar tabla de vista minable

 

  • Generar una gráfica de visualización

Imagen 5. Generar ejemplo de visualización

Segunda Sección: Resultados

Procedimiento para obtener valores estadísticos básicos y visualizar datos en Orange

1. Cargar el conjunto de datos

  • Abrí Orange e inicié un nuevo proyecto.
  • Utilicé el widget File para cargar el conjunto de datos desde un archivo CSV. Para ello, arrastré el widget File al área de trabajo.
  • Hice doble clic en el widget File y seleccioné el archivo deseado. Una vez cargado, los datos estaban disponibles para ser manipulados y analizados.

Imagen 1. Cargar el conjunto de datos

2. Explorar el conjunto de datos

  • Para verificar los datos cargados, añadí el widget Data Table y lo conecté al widget File.
  • Hice doble clic en el widget Data Table para abrir la tabla y explorar los datos, identificando los campos numéricos y asegurándome de que estaban correctamente cargados.

Imagen 2. Explorar el conjunto de datos

3. Calcular valores estadísticos básicos

    • Para obtener los valores estadísticos del campo numérico de interés, añadí el widget Feature Statistics y lo conecté al widget Data Table.
    • El widget calculó automáticamente los siguientes valores estadísticos:
      • Distribución
      • Media (Mean)
  • Moda (Mode)
      • Mediana (Median)
  • Dispersión 
    • Mínimo (Min)
    • Máximo (Max)
  • Estos valores se presentaron de manera clara en el panel del widget.

Imagen 3. Calcular valores estadísticos básicos

 

4. Visualización de la dispersión de datos

  • Para obtener una visualización gráfica de los datos, añadí el widget Scatter Plot al área de trabajo y lo conecté al flujo de datos.
  • Configuré el widget para visualizar la relación entre la variable edad y otra variable relevante del conjunto de datos.
  • Personalize los colores del gráfico de dispersión para mejorar la visualización y facilitar la interpretación de los datos.

Imagen 4. Visualización de la dispersión de datos

Implementación de Tareas de Minería de Datos en Orange: Categorización y Predicción

Para esta actividad decidí explorar dos tareas de minería de datos utilizando Orange: categorización y predicción. Para esta actividad, trabajé con un conjunto de datos sobre visitantes de museos en diferentes estados de México, el cual incluye atributos como la edad de los visitantes, el tipo de museo visitado y las fechas de visita. Estas tareas permitirán categorizar a los visitantes y predecir posibles patrones de visitas.

1. Tarea de Categorización

  1. Carga del Conjunto de Datos:
    • Abrí Orange y utilicé el widget File para cargar el conjunto de datos proporcionado.
    • Verifiqué que los atributos como “Edad”, “Estado”, y “Tipo de Museo” estén correctamente definidos.
  2. Preprocesamiento de Datos:
    • Filtré los atributos necesarios usando el widget Select Columns, seleccionando las variables “Edad” y “Tipo de Museo” para definir las categorías de visitantes.
    • Apliqué  normalización de datos estándar para mejorar la categorización.
  3. Aplicación del Método de Categorización:
    • Usé el widget K-Means para clasificar a los visitantes en diferentes grupos
    • Configuré el número de clusters para agrupar visitantes de acuerdo a características de edad o tipo de museo.
  4. Visualización de Resultados:
    • Conecté el widget Scatter Plot para visualizar la agrupación de visitantes. Representé las variables “Edad” y “Tipo de Museo” en los ejes para observar patrones de agrupación.

Imagen 1. Categorización de datos

2. Tarea de Predicción

La predicción se centrará en anticipar el rango de edad probable de los visitantes en función del tipo de museo y la frecuencia de visitas.

  1. Preparación del Conjunto de Datos:
    • Utiliza el widget File para cargar el conjunto de datos, asegurándote de que las variables como “Edad” y “Tipo de Museo” estén configuradas correctamente.
    • Define “Edad” como la variable objetivo para la predicción.
  2. División del Conjunto de Datos:
    • Con el widget Data Sampler, divide los datos en conjuntos de entrenamiento y prueba, asignando el 70% para el entrenamiento y el 30% para la prueba.
  3. Selección del Modelo de Predicción:
    • Emplea el widget Random Forest para predecir el rango de edad de los visitantes. Este modelo es adecuado para identificar patrones complejos en datos demográficos y categóricos.
  4. Evaluación del Modelo:
    • Conecta los datos de prueba al widget Test & Score para medir la precisión del modelo utilizando métricas como el error cuadrático medio (RMSE) o el coeficiente de determinación (R²).
  5. Visualización de Resultados:
    • Conecté el widget Scatter Plot para visualizar la distribución de los coeficientes generados

Imagen 2. Distribución de coeficientes

Análisis de Datos y Minería de Datos en Museos

1. Selección de Tarea de Minería de Datos

La vista minable contiene datos de visitantes y museos, lo cual me permite identificar patrones de visitas en función de la edad, tipo de museo, y ubicación. La tarea de minería de datos que considero relevante para esta vista sería el Análisis de Agrupamiento (Clustering). Implementar agrupamiento nos permitirá identificar segmentos de visitantes que comparten características similares, como la edad y el tipo de museo que prefieren.

Objetivo

El objetivo es descubrir patrones en el comportamiento de los visitantes en distintos museos, lo que puede ayudar a los administradores de museos a enfocar mejor sus esfuerzos de marketing y a personalizar la experiencia del visitante.

Implementación en Orange

  1. Cargar Datos: Importar los datos a Orange desde un archivo CSV para preprocesamiento.
  2. Preprocesamiento: Seleccionar características relevantes (Edad, Tipo de Museo, Estado).
  3. Clustering: Utilizar el widget de Clustering K-means para clasificar a los visitantes en grupos con características similares.
  4. Análisis de Resultados: Visualizar los resultados mediante un gráfico de dispersión para interpretar los segmentos y extraer conclusiones sobre las preferencias de los visitantes.

2. Tableros de Control para Seguimiento

Estado de actividades

 

Actividad

Estado

Fecha de Inicio

Fecha de Finalización

Notas

Carga de Datos

Completado

11/11/2024

11/13/2024

Importar datos CSV en Orange

Preprocesamiento de Datos

Completado

11/11/2024

11/13/2024

Seleccionar y limpiar características

Implementación de Algoritmo de Clustering

Completado

11/11/2024

11/13/2024

Configurar y ajustar el algoritmo K-means

Visualización de Resultados

Completado

11/11/2024

11/13/2024

Generar gráficos de dispersión y análisis visual

Documentación del Proceso

Completado

11/11/2024

11/13/2024

Documentar resultados y conclusiones

 

Métricas de Análisis

 

Métrica

Descripción

Valor Actual

Número de Clústeres

Cantidad de clústeres creados en el análisis de clustering

5

Distribución de Visitantes por Clúster

Cantidad de visitantes en cada clúster

  • C1 = 11
  • C2 = 14
  • C3 = 10
  • C4 = 15
  • C5 = 25

Preferencias de los Grupos (Tipo de Museo, Edad)

Descripción del tipo de museo y edad promedio por grupo

  • Museo Local = 56
  • Museo Nacional = 56
  • Museo Regional = 66
  • Museo de sitio = 60
  • Sala de exposición = 50

3. Resultados Obtenidos y Visualización

Luego de realizar el análisis de clustering, se encontró que:

  • Agrupación por Edad: La mayoría de los visitantes de museos de sitio pertenecen a un rango de edad mayor, mientras que las exposiciones atraen a visitantes más jóvenes.
  • Preferencias geográficas: Los visitantes de ciertos estados prefieren tipos específicos de museos, posiblemente influenciados por el patrimonio cultural local.
  • Patrones de Visita: Los visitantes mayores suelen visitar más frecuentemente los museos regionales y de sitio, mientras que los visitantes más jóvenes tienen preferencias más variadas.

Imagen 1. Representación gráfica del clustering de los datos

Imagen 2. Análisis de la mediana de edad de visitantes por cluster

4. Conclusión

La técnica de clustering aplicada a los datos de visitantes en museos ha revelado patrones importantes de segmentación. Estos patrones pueden guiar futuras estrategias de promoción y mejora de servicios. Este enfoque basado en datos proporciona a los administradores de museos una herramienta efectiva para comprender mejor a sus visitantes y maximizar el impacto de sus esfuerzos en función de las preferencias y características de sus audiencias.

Referencias

  1. Bioinformatics Laboratory, University of Ljubljana. (n.d.). Orange Data Mining. Orange Data Mining. https://orangedatamining.com/getting-started/
  2. Boulil, K., Le Ber, F., Bimonte, S., Grac, C., & Cernesson, F. (2014). Multidimensional modeling and analysis of large and complex watercourse data: an OLAP-based solution. Ecological informatics, 24, 90-106.
  3. Collado, A. (2007). Herramientas ETL, una solución para la integración de datos. Estrategia financiera, (237), 62-64.
  4. Coto Jiménez, M. (2014). Minería de datos: concepto y aplicaciones.
  5. Ghezzi, C. (Ed.). (2001). Designing data marts for data warehouses. ACM Transactions on Software Engineering and Methodology (TOSEM), 10(4), 452-483.
  6. Hernández, J.  (2004). Almacenes de datos. En Introducción a la minería de datos. Pp.43-52. Madrid (España): Pearson Educación S.A.
  7. Hernández, J.  (2004). El proceso de extracción del conocimiento. En Introducción a la minería de datos (pp.19-40). Madrid (España): Pearson Educación S.A.
  8. Hernández, J.  (2004). Exploración y selección. En Introducción a la minería de datos. Pp.97-133. Madrid (España): Pearson Educación S.A.
  9. Oramas, J. (2009). La inteligencia de negocios, un concepto informático. SISTEMAS, (111), 42-51.
  10. Pérez López, C., & Santin González, D. (2007). Minería de datos. Técnicas y herramientas: técnicas y herramientas. Ediciones Paraninfo, SA.
  11. Riquelme Santos, J. C., Ruiz, R., & Gilbert, K. (2006). Minería de datos: Conceptos y tendencias. Inteligencia Artificial: Revista Iberoamericana de Inteligencia Artificial, 10 (29), 11-18.
  12. Soto, J. A. (2005). Business Intelligence: conceptos y actualidad.