El Papel Crucial de las Arquitecturas de Datos: Clave para la Eficiencia, la Toma de Decisiones y la Adopción de la Inteligencia Artificial
Hoy en día, es bien sabido que los datos que gestionan las empresas y organizaciones son fundamentales para integrar modelos de Inteligencia Artificial en sus aplicaciones. Por ejemplo, los “copilotos” o agentes virtuales basados en modelos generativos, están siendo entrenados o contextualizados con datos o documentos específicos para que generen conversaciones útiles en ámbitos de negocio. Los modelos predictivos, para automatizar o apoyar decisiones, también dependen de datos específicos para su entrenamiento.
Sin embargo, para que los datos sean útiles, se requiere mucho esfuerzo de procesamiento. Y a su vez, para que el procesamiento sea eficiente, se requiere de arquitecturas de datos -software, hardware, nubes, protocolos, lenguajes de programación, etc.- correctamente diseñadas.
Dada su importancia para la modernización digital, el conocimiento de conceptos de arquitectura de datos y sus implicancias debería estar no solo en las personas más técnicas, sino en niveles directivos y niveles gerenciales.
A riesgo de simplificar en exceso, el problema central que abordan las arquitecturas de datos es el de integrar información, es decir, reunir contínuamente datos, que viven en múltiples fuentes de datos, en un sólo punto de acceso, y luego transformarlos para permitir su procesamiento eficiente en aplicaciones analíticas (desde paneles de información hasta modelos de inteligencia artificial).
Los años 90 marcaron el auge del Data Warehouse empresarial. La idea central es establecer un modelo de datos unificado para la gestión de la empresa, que se alimenta continuamente desde bases de datos operacionales. En el mundo y en nuestro país, existieron no pocos proyectos en este ámbito con enormes presupuestos y tiempos de desarrollo extensos. Tal vez el Data warehouse más famoso del mundo fue el de Amazon, que fue el centro de la estrategia analítica de este e-commerce, basada en algoritmos de recomendación de productos y logística.
La dificultad de mantener una estructura única y rígida y la creciente necesidad de integrar datos no estructurados, generó en la década del 2000 un nuevo patrón de arquitectura conocido como Data Lake. Aquí los datos se van almacenando en un repositorio, sin la necesidad de adecuarlos a un modelo de datos unificado como en un Data Warehouse. El modelo de datos se genera dinámicamente para cada aplicación analítica, permitiendo mayor flexibilidad.
Debido a la presión de integrar en forma cada vez más ágil datos desde sus orígenes, en los últimos años ha surgido un patrón de arquitectura denominada Data Fabric (“Tejido de Datos”), donde la información se “conecta” sin necesariamente extraerse previamente, enfatizando que la arquitectura entregue una administración unificada de todos los datos y herramientas para gestionar calidad, seguridad, protección de datos personales, etc. En el corazón de esta arquitectura están las denominadas APIs que permiten conectar datos desde aplicaciones. Un Data Fabric, conecta datos residentes en Data Warehouses, Data Lakes, datos provenientes de sensores (IoT), aplicaciones externas e internas, entre otras fuentes. La idea es implementar una experiencia del tipo “marketplace” para que usuarios fuera y dentro de las empresas puedan buscar y acceder a datos, asociados a necesidades analíticas, operativas e incluso servicios y productos.
Las arquitecturas de datos juegan un rol fundamental en articular capacidades de procesamiento y gestión de datos para eficientar procesos, mejorar la toma de decisiones, generar productos innovadores y adoptar Inteligencia Artificial. Diseñar e implementar arquitecturas de datos de calidad será un factor clave para aprovechar productivamente la nueva ola tecnológica.
Por
Carlos Hurtado L.
PhD Computer Science.
Presidente Ejecutivo y Director de
Consultoría de Microsystem