Blog personal de Luis Córdoba Fallas.

sábado, 5 de febrero de 2011 1 comentarios

Tendencias de la Minería de Datos

Como  ya se ha visto, la minería de datos y todo el conjunto de técnicas implícitas en esta, engloban un conjunto de soluciones para la extracción de conocimiento implícito en las bases de datos, con el pasar del tiempo y la evolución y modernización de los procesos de información, esta ha sufrido una serie de adaptaciones con el fin de crecer paralelamente con todas las demás disciplinas en donde esta se aplica, así mismo  la aplicación de esta se ha visto aprovechada cada vez en más áreas, ampliando así los  campos en donde esta es aplicada.
Con la presente investigación se pretende  ampliar de manera breve el panorama sobre las tendencias actuales sobre el uso o aplicación de la minería de datos, en numerosos y novedosos campos además del impacto o aporte que estas brindan en su accionar, además de la evolución de estas a partir de la necesidad de ser aplicada en diversos campos.

      Nuevas Tendencias

La minería de datos con el pasar del tiempo y conforme a los cambios tecnológicos ha sufrido para bien una serie de cambios notables, en donde se ha buscado ajustar las distintas técnicas hacia las nuevas estrategias de mercado, como los modelos de compra en línea además de diversos usos y aplicaciones enfocados hacia el desarrollo de la web. De aquí ha surgido una gran importancia sobre la aplicación de la MD en datos no estructurados, como texto, páginas de internet, etc.

Por otro lado se ha puesto en evidencia la necesidad de, mejorar los tiempos de respuesta en la búsqueda de información o explotación de la MD, además de la exigencia de procesos que funcionen prácticamente en línea, por ejemplo detección de fraude por medio de dispositivos electrónicos o tarjetas de crédito. 

Dentro de estas tendencias, también se destaca el uso de la MD en nuevas disciplinas  y en algunos casos se han mejorado o explotado nuevos algoritmos, para mejorar su uso en campos de acción ya existentes, se pueden citar y describir brevemente algunas de las siguientes.

      Aplicación en sistemas Web.

Se han implementados diversas metodologías de MD para su uso sobre páginas web y este en la actualidad es uno de los campos más explorados, ya que con la unificación de servicios por medio de la web, se hace más fuerte la necesidad de implementar medios de explotación de datos más eficientes y que puedan lograr mejores resultados para el desarrollo de la misma, un ejemplo muy claro ligado a la educación, es la aplicación de la MD en Sistemas E-learning, con el fin de   obtener reglas predictivas que permitan hacer mejoras a los cursos que mediante este tipo de sistemas se imparten.
Una implementación muy simple y común se puede encontrar en los navegadores web, en donde se incluyen métodos bayesianos de aprendizaje automático, principalmente utilizados para detección de correo no deseado y el análisis de correo electrónico.

      Aplicación a procesos sociales.

Este es otro novedoso campo dentro de las tendencias de aplicación de la MD, en donde se utilizan técnicas de estadística clásica y técnicas de inteligencia artificial, para buscar patrones dentro de la información almacenada por los sistemas de información de procesos sociales (Prospección de datos) y se implementan por Ejemplo: en casos como el estudio de la incapacidad permanente y estudios para la prevención de Violencia de Género realizados por el grupo de “Investigación y Aplicaciones en IA de la Universidad de Málaga, España” con este estudio se pretende obtener información útil para valorar la situación social de una persona y desarrollar sistemas de ayuda a la valoración de dichas situaciones.
Este tipo de implementaciones de la MD ayudan a dar una mejora en la implementación de los procesos sociales.

      MD para Asociación en Contextos Semánticos.

En este tipo de implementación se trabaja con minería de textos, sobre documentos no estructurados, con la finalidad de obtener conocimiento semántico de coherencia. La idea es encontrar asociaciones y patrones secuenciales, que a su vez son aprendidos por una red neuronal, que luego encontrara asociaciones entre patrones del mismo concepto de manera más automatizada.

     Análisis de Datos Sensoriales con MD.

Esta es una implementación enfocada a la industria alimenticia, en donde se aplican técnicas de regresión, con la finalidad de relacionar descripciones sensoriales humanas con las preferencias de los consumidores para determinar cuáles son las mejores decisiones a la hora poner en marcha   la producción de un producto específico, todo esto con el objetivo de acaparar un mejor mercado de consumidores.

     Aplicación en Inteligencia de negocios (Business Intelligence).

En este campo se han mejorado las técnicas de aplicación para el desarrollo de los mismos, se han hecho implementaciones de redes neuronales para la predicción de ventas basadas en tendencias anteriores, asociaciones para detección de patrones de consumo de un artículo o servicio, además de clasificación para encontrar en una selección de afiliados a los clientes potencialmente más destacados, determinar el impacto de un artículo sobre un determinado mercado, todo este tipo de aplicaciones tienen como finalidad mejorar mediante los resultados obtenidos, la toma de decisiones. Llegar a un mejor entendimiento del negocio, sacando el máximo provecho de los datos existentes.

      Reconocimiento de Imágenes en huellas dactilares con MD.

Se han realizado implementaciones de MD para el reconocimiento de huellas dactilares, mediante clasificación, en donde por medio de  los patrones de la huella se permite clasificarla y asignarla a un conjunto o clase, que se traduce en una sección de la base de datos a ser revisada, por último la correspondencia entre huellas se basa en encontrar la similitud entre dos patrones de características cuyos componentes están representados por los puntos que caracterizan a cada huella.
Su aplicación más común ha sido la criminalística,  en donde se intenta localizar un sujeto realizando una búsqueda comparativa de los patrones de una muestra, y los patrones de la información contenida en las bases de datos, sin embargo el uso de esta aplicación se ha extendido y en la actualidad también se utilizan para el acceso a los sistemas de información, así mismo para el acceso a sitios físicos dentro de las empresas en donde el acceso de personal es restringido, todo esto está basado en que las huellas dactilares del ser humano son un identificador único, de modo que puede ser utilizado como un tipo de cedula de Identidad.  

     MD en la Medicina.

Este es uno de los campos en donde se le ha dado mucha importancia al uso de la MD, se implementa principalmente para la generación de hipótesis científicas, todo esto basado en historiales clínicos y médicos, un ejemplo muy claro detección de patrones en imágenes médicas, en donde se pueden entrenar sistemas capaces de detectar anomalías, de modo que se puede entrenar un sistema que sea capaz de detectar las imágenes similares a un tumor en una radiografía.
Adicionalmente existen muchas implementaciones para el área de la medicina como la biomedicina, análisis de investigación científica como los estudios del Genoma, en donde los datos son utilizados para extraer información sobre expresión genética, además del uso de MD para el diagnóstico de accidentes cerebro-vasculares en donde se han desarrollado sistemas para dar soporte a él diagnóstico de las causas de accidentes,  también el uso en el control de la distribución de fármacos, como el implantado en cuba (Debesa F, Jiménez G, Pérez J, Ávila J. La estrategia de Fármaco-epidemiología en Cuba) en donde se implementó un sistema de redes neuronales para la implementación en la fármaco-vigilancia, este sistema se implementó a nivel nacional.
      
Conclusiones

Sin lugar a duda las nuevas   tendencias de implementación de la Minería de datos van de la mano con la implementación de sistemas de información en distintas áreas.
De modo que la tendencia de la minería de datos se está desarrollando casi que en cualquier ámbito en donde los sistemas de  generen información que  pueda ser guardada en cualquier tipo de repositorio de datos, o archivos de texto digitales.

También se puede evidenciar que existen diversas implementaciones de las técnicas de minería de datos para cualquier tarea o problema que se plantee, sin embargo es muy evidente que aún falta camino por recorrer en cuanto al desarrollo de este tema, porque como se ha visto, su aplicación en los campos de hoy en día va más allá de simplemente analizar procesos de producción que fue en donde se dieron los inicios de tan potente proceso, y se está proyectando en nuevos campos en donde espera que se pueda desarrollar, para su aprovechamiento.

Es importante destacar la relevancia que se le da hoy en día a la MD, ya que como hemos visto se ha implementado en numerosos campos de ciencia y tecnología, se utiliza para la aplicación de procesos médicos para detección de enfermedades, investigaciones médicas, así como científicas, estudios de mercados, aplicaciones de estudios de comportamientos socioculturales  y un sin número de usos que denotan su gran importancia.


Sin lugar a Duda aunque hay mucho camino por recorrer las tendencias futuras apunta a mejorar las herramientas que actualmente existen para la aplicación de esta, a mejorar y desarrollar nuevos algoritmos para abarcar nuevos campos, a mejorar   en cuanto a escalabilidad se refiere y sin lugar a duda a convertirse en una poderosa herramienta que brinde muchas soluciones a muchos problemas en donde se requiera aplicar.


Ing. Luis Córdoba Fallas
1 comentarios

Datamart, Datawarehouse, DSS, EIS

Con la evolución de las tendencias informáticas ha surgido un auge en el desarrollo de las distintas tecnologías, mismas que han sido producto también de la fuerte demanda que han ejercido  las empresas y grandes corporaciones en la insaciable búsqueda de la conquista por el mercado, esto mediante la explotación y utilización de su información contenida en bases de datos propias y la obtenida de fuentes externas provenientes de los distintos sitios, toda esta información se somete a un proceso de tratamiento y modelado con el fin de transfórmala en conocimiento.


Basado en lo anterior en el  presente trabajo se pretende mediante la investigación hacer una breve descripción sobre estas distintas tecnologías informáticas actuales para el almacenamiento modelado y tratamiento y presentación de datos, como lo son los almacenes de datos (Datawarehouses), los Datamart, en el ámbito de almacenamiento y los DSS o sistemas de toma de decisiones y los EIS sistemas de información ejecutar, en el ámbito de presentación,  de la misma manera se pretende ampliar de manera breve la su aplicabilidad funcional y su relación en el  contexto de la minería de datos.

1.    Almacén de datos (Datawarehouse)

Los almacenes de datos nacieron con el propósito de proporcionar metodologías y tecnologías para recopilar e integrar datos de una organización con la finalidad  de analizar y obtener resúmenes complejos y conocimiento.

Un almacén de datos es un conjunto o repositorio de datos históricos y descriptivos, orientados hacia un determinado ámbito ya sea una empresa una organización o cualquier otra con fines particulares. Estos datos son recolectados de fuentes internas y externas, y organizados de manera que se puedan aplicar herramientas para resumir, describir y analizar los datos de manera eficiente, con la finalidad de soportar o ayudar a la toma de decisiones en cualquiera de las entidades en que se utilice.

Dicho de una manera más sencilla un almacén de datos, es un expediente detallado y completo de una organización, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación de los datos y con esto ayudar a la toma de decisiones.



                                                             Ejemplo: Esquema básico de almacén de datos.

También existen otras definiciones específicas escritas por los primeros autores en el tema de los almacenes de datos como:
     
Ralph Kimball: Este es un conocido autor en el tema de los almacenes de datos y define un almacén de datos como “una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis”, este también determino que “un datawarehouse no es otra cosa que la unión de todos los datamart en una entidad” 


Bill Inmon: este es otro de los primeros autores que escribieron sobre los almacenes de datos y este los definió de acuerdo a las características de los repositorios de datos, estas se muestran a continuación.
     
·         Orientado a temas.- Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.
·         Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
·         No volátil.- La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.
·         Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.

1.1 Campo de Aplicación.

Con un almacén de datos lo que se quiere es contener los datos históricos necesarios o  útiles para una determinada organización o empresa, de manera más simple se utiliza como repositorio de datos para luego transformarlo en información útil, de esta manera da respuesta a los  usuarios expertos, que mediante la utilización de sistemas de soporte de decisión DSS, sistemas de información ejecutiva EIS o herramientas para hacer consultas o informes los usuarios pueden obtener fácilmente nuevo conocimiento.
Bajo esta perspectiva su ámbito de aplicación abarca cualquier entidad en la que surjan las necesidades antes  escritas.

1.2  Ventajas

ü  Facilidad de acceso de los usuarios finales a una gran cantidad de datos
ü  Facilitan el acceso a los sistemas de toma de decisiones
ü  Pueden trabajar en conjunto con las aplicaciones empresariales

1.3  Desventajas

ü  Los costos de mantenimiento son elevados, por lo que a largo plazo su mantenimiento resulta muy caro
ü  Los almacenes de datos suelen quedar obsoletos muy pronto


2.    Datamart.

2.1 ¿Qué es un Datamart?                     

Los Datamart son subconjuntos o segmentos específicos de datos diseñados con el propósito de ayudar a una mejor toma de decisiones sobre un área o departamento  de una empresa.
Estos se puede decir que son una versión especial de los almacenes de datos (Datawarehouses) solo que dirigidos a un ámbito específico del negocio, o bien se pueden describir como parte de una estructura más avanzada y extensa de un almacén de datos. 

2.2  Ventajas de los Datamart

ü  Fácil acceso a los datos que se utilizan con frecuencia
ü  Mejora  los tiempos de respuesta hacia el usuario final
ü  El costo es inferior al de aplicar un almacén de datos
ü  Los usuarios potenciales son identificados con más claridad
ü  Se pueden crear vistas colectivas

3.    Datamart vs Datawarehouse.

ü  Los datamart son creados para satisfacer las necesidades específicas de un departamento, los Datawarehouse son creados para satisfacer las necesidades de una corporación en concreto
ü  Están construidos por datos agregados y resumidos, los Datawarehouse son datos con un nivel de detalle más amplio
ü  los datos incluidos en los Datamart son más recientes históricamente hablando que los  datos de los Datawarehouse
ü  las consultas de los Datamart suelen ser muy distintas a las de los Datawarehouse
ü  en los Datamart los usuarios son recolectores de información, en los Datawarehouse los usuarios son exploradores de la misma.
4.    Sistemas para la toma de decisiones (DSS)

Los DSS son herramientas muy poderosas que nacieron bajo la necesidad de las empresas de tener una ventaja competitiva en los mercados actuales, ya que apoyan a todas las fases del proceso de toma de decisiones

4.1 Definición.

Un sistema de soporte para toma de decisiones es una herramienta de Business intelligence, muy flexible y adaptable que proporciona una interfaz muy amigable,  con un enfoque especifico hacia el análisis de los datos de una organización y permite soportar la toma de decisiones bajo el previo análisis de una situación específica.

El objetivo de los DSS es mejorar la efectividad de las decisiones, de modo que no remplazan a los directivos sino que simplemente soportan el proceso en la toma de decisiones.

4.2 Características.

Hoy en día se están implementando en muchas empresas a nivel mundial sistemas de soporte a la toma de decisiones (DSS) ya que resultan ser herramientas muy ventajosas y competitivas en el ámbito empresarial, que permiten dar solución a muchas limitantes de los programas de gestión, estas son algunas de las características principales.
ü  Presentación de informes dinámicos y flexibles, de modo que permite extraer y manipular la información de una manera muy flexible.
ü  Permite al usuario escoger de manera interactiva, que información necesita y como combinarla.
ü  No requiere conocimientos técnicos avanzados, ya que tienen una interfaz muy amigable y sencilla que permite explorar los datos y generar gráficos en informes sin necesidad de conocimientos avanzados.
ü  Los usuarios disponen de información adecuada a su perfil o a fines con su área de trabajo o su campo de aplicación.
ü  Es flexible el acceso a la información histórica al mismo tiempo que la actual, de manera que permiten hacer comparaciones de información de manera cronológica.
ü  Disponibilidad de información, el usuario dispone de la información en el momento que la requiera.

4.3  Tipos de DSS

Existen múltiples tipos de sistemas de soporte a las decisiones, que son sistemas específicos enfocados a brindar soluciones a problemas específicos, dentro de estos podemos encontrar.

Ø        Sistemas de información Gerencial (MIS), estos dan soporte a las tareas organizacionales de una empresa en un aspecto más amplio.
Ø  Sistemas expertos basados en inteligencia artificial (SSEE), utilizan redes neuronales para el aprendizaje y la simulación del conocimiento de un experto y utilizarlo para la resolución de problemas, este concepto está muy ligado a la minería de datos.
Ø   Sistemas de información ejecutiva (EIS), estos sistemas son los mas comunes ya que proveen a los gerentes el acceso  de  manera sencilla a la información organizacional, este concepto se detalla de manera más amplia en la sección siguiente.

5.    Sistemas de Información Ejecutiva

Un EIS por sus siglas en inglés (Executive Information System) es una herramienta software de inteligencia empresarial o Bussines Intelligence, son sistemas de alto nivel que pretenden mediante el acceso a las diversas  bases de datos de la empresa, ofrecer a los ejecutivos por medio de una interfaz amigable, elementos o información básica, que les ayude a obtener los datos más importantes del negocio, estas herramientas están orientadas a los usuarios de nivel gerencial, además permiten monitorizar un área específica a partir de información interna y externa.

De manera muy sencilla se puede definir un EIS como: “Una herramienta tipo software informático que muestra informes y  listados de manera consolidada de las diversas áreas del negocio”.

Estas herramientas están basadas en elementos y metáforas graficas que facilitan la interacción del usuario con las computadoras y las aplicaciones que corren en estas, de modo que permiten a los altos ejecutivos optimizar la labor de obtener los datos más importantes de la organización, además de resumirlos y presentarlos de la manera más sencilla posible.

Los EIS suelen necesitar de un Datawarehouse o de un Datamart, que actúen como fuente central de información, procesando un modelando las bases  de datos transaccionales de la empresa

5.1 Características

Los EIS tienen la capacidad de presentar la información en forma de gráficos columnas y textos, para facilitar el análisis rápido de las condiciones y tendencias de un negocio, dentro de las características principales se pueden encontrar.

ü  Son sistemas soportados por elementos y hardware de tecnología especializada, como monitores y video de alta resolución y todo tipo de periféricos especializados.
ü  Extraen, filtran, comprimen y dan seguimiento a la información o datos críticos del negocio.
ü  Están diseñados para cubrir el ámbito de necesidades  y particularidades de la alta administración empresarial.
ü  Son sistemas desarrollados bajo altos estándares en las interfaces entre hombre y máquina.
ü  Se caracterizan por mostrar la información de la manera más simple posible mediante el uso de gráficos información tabular y columnas de textos.
ü  Pueden acceder información que esté disponible en línea, extrayéndose de las bases de datos transaccionales, de la misma manera son capases de trabajar con almacenes de datos o información histórica de la organización.
ü  Recolectan información de distintas áreas de la organización

5.2  Beneficios de los EIS

Los sistemas de información ejecutiva se caracterizan por brindar facilidades a los ejecutivos como el acceso fácil a la información mediante graficas visuales e intuitivas, dentro de los muchos beneficios se pueden citar.

ü  Más información competitiva, por el fácil acceso a los datos externos el mejor acceso a la información hacen que sean herramientas sensibles al medio.
ü  Acceso rápido a la información, además de que es información más relevante y concisa, de modo que la información está a tiempo y cuando se le necesita.
ü   Mejores logros de los objetivos, ya que produce una mejor toma de decisiones por lo que existe un mejor desarrollo de alternativas
ü  Producen ahorros en costos de análisis.
ü  Reducen los tiempos de respuesta hacia las necesidades de los clientes.

6.    Diferencia entre DSS y EIS

La diferencia entre los DSS y los EIS erradica en que el DSS tiene como principal objetivo explotar al máximo la información que se encuentra en las estructura de datos de la organización ya sean Datawarehouse o Datamart, mientras que los demás sistemas como los EIS están diseñados para tareas o campos más específicos en este caso, la toma de decisiones a nivel gerencial, de modos que estos últimos están enfocados a un grupo de usuarios ya definidos.

7.    Conclusiones

Se puede decir que las estructuras de datos y las herramientas mencionadas anteriormente tienen una fuerte relación entre si, de la misma manera se relacionan fuertemente puesto que todas parecen tener un fin en común, la búsqueda de nuevo conocimiento en base a la información con que se cuenta ya se obtenida de fuentes internas o externas.

Se logró realizar un planteamiento en donde se ve a los Datamart como bodegas de datos a nivel departamental, mientras que los Datawarehouses se enfocan a nivel organizacional.

Por otro lado podemos decir que gracias a la evolución de las tecnologías de información, existen hoy en día herramientas para la implementación, como los DSS y sus derivados como los EIS, que facilitan en trabajo en diversos campos de aplicación a nivel empresarial, tal y como lo hemos visto anteriormente, estas mismas herramientas proveen una nueva perspectiva para las empresas y corporaciones que compiten en el mercado de la actualidad.

      Ing. Luis Córdoba Fallas
 
;