CallTrust DataSpace | Claves de un diseño de espacio de datos eficiente.
CallTrust Dataspace sigue las mejores prácticas de diseño para un espacio de datos. En este artículo desgranamos las claves del diseño dun un espacio de datos eficiente.
Orígen de los datos
Los orígenes de datos definen las fuentes de información que alimentan el ecosistema. En el contexto de un espacio de datos, como CallTrust DataSpace, las fuentes principales son los operadores de telecomunicaciones y grandes corporaciones con servicios de atención al cliente.
Para la carga de datos, se consideran mecanismos para importar información o permitir que los usuarios suministren diferentes conjuntos de datos:
- Datos de Tráfico Telefónico: Los datos centrales son los ficheros de detalle de llamadas (CDRs). Estos incluyen datos como el número llamante y llamado, IP de origen, troncal de voz utilizado, y mensajes o indicadores sobre el fin de la llamada.
- Sistemas Existentes: Se utilizan herramientas como Data Discovery que proveen conectores capaces de interactuar con diversos sistemas de almacenamiento ya existentes, como bases de datos relacionales (BBDD), NoSQL, y sistemas distribuidos como MinIO o Hadoop.
- Proveedores y Consumidores: El diseño del modelo de negocio contempla que los operadores actúan tanto como proveedores (aportando datos) como consumidores (beneficiándose de la información procesada).
Tipo de datos: hetereogeneidad en cuanto a formato.
La heterogeneidad de los datos es un desafío clave. Aunque los datos de detalle de llamadas (CDR) suelen ser archivos tipo CSV con campos como número de origen y destino, no existe un formato estandarizado entre los diferentes operadores de telecomunicaciones, lo que requiere que cada uno use un formato propio.
Para abordar esta heterogeneidad y asegurar la interoperabilidad, el diseño debe incluir:
- Modelo Semántico Común: Es necesario establecer un modelo semántico a utilizar y definir ontologías comunes de las entidades y sus servicios. Por ejemplo en el sector de la salud se utiliza un Modelo de Datos Común (CDM) llamado OMOP ( Observational Medical Outcomes Partnership), que hace transparente la heterogeneidad de las fuentes originales a las aplicaciones de análisis.
- Mecanismos de Traducción: El proveedor de tecnología es responsable de implementar sistemas de normalización, homogeneización y transformación de datos. Quobis, por ejemplo, desarrollará un middleware específico para acomodar la información proporcionada por los operadores y adaptarla al formato del espacio de datos
Volumen y tamaño de datos
El volumen se refiere al tamaño de los datos que el sistema debe manejar.
- Capacidad de Gestión: La arquitectura tecnológica debe ser capaz de gestionar grandes volúmenes de datos.
- Escalabilidad del Almacenamiento: Se plantea un sistema de almacenamiento distribuido. El diseño debe ser capaz de escalar y adaptarse a las demandas, como el incremento exponencial del volumen de datos esperado cuando se conectan operadores de gran calado. Bases de datos distribuidas NoSQL como Cassandra son ideales para manejar grandes cantidades de datos en múltiples servidores, ofreciendo alta disponibilidad y escalabilidad horizontal.
- Procesamiento Masivo: La infraestructura debe contar con equipos virtualizados capaces de realizar el procesamiento intensivo de datos en tiempo real.
Periodicidad: frecuencia de muestreo (subida o carga).
La periodicidad es la frecuencia con la que los datos se muestrean, suben o cargan.
- Flujos de Datos: La carga de datos puede realizarse de forma puntual (bulk o batch) o de manera periódica y bajo una determinada frecuencia (streaming).
- Opciones de Integración: Los operadores pueden enviar información de manera masiva (por lotes) mediante protocolos como TFTP, o bien transmitir los detalles de las llamadas de forma recurrente y en tiempo real por cada llamada a través de una API.
- Optimización: Se deben analizar las opciones de mejora para la carga de datos, buscando optimizar el rendimiento y la utilización de recursos en función del tipo de subida (bulk o streaming).
Latencia/disponibilidad: tiempo desde la ingesta hasta su disponibilidad.
La latencia y disponibilidad se refieren al tiempo que tarda el dato en estar listo para su uso desde que es ingerido.
- Requisitos de Tiempo Real: Para casos de uso de detección de fraude, la información debe ser accesible en tiempo real. El servicio principal se ofrece a través de una API que permite consultar la calidad de un número de teléfono relacionado con una llamada en curso.
- Disponibilidad Continua: La arquitectura se basa en principios de resiliencia y debe asegurar la alta disponibilidad de los datos.
- Mecanismos de Carga y Almacenamiento: En escenarios de Bulk y Streaming, se utiliza un repositorio temporal antes de que un proceso automático de consolidación almacene los datos en el sistema definitivo, de manera transparente para el usuario.
Actualizaciones: respecto al origen de datos
Las actualizaciones se refieren a la forma en que el espacio de datos se mantiene sincronizado con los datos de origen:
- Contribución en Tiempo Real: Es una característica clave del proyecto CallTrust DataSpace la actualización continua y en tiempo real de los datos.
- Frecuencia de Actualización: Se fomenta la contribución de datos por parte de los operadores para actualizar el sistema con la información más reciente sobre las numeraciones que generan tráfico.
- Infraestructura para el Flujo de Datos: Se contempla el desarrollo de métodos de integración que incluyen APIs y middleware para facilitar la transferencia de datos en tiempo real y la carga eficiente.
Transformaciones: cambios tras la ingesta
Las transformaciones son los cambios aplicados a los datos después de la ingesta.
- Anonimización y Procesamiento: Los datos recolectados deben ser procesados y anonimizados antes de ser expuestos a los consumidores. Los consumidores no acceden a la información bruta (CDRs), sino a datos procesados y clasificados.
- Generación de Valor: El procesamiento se realiza para extraer información relevante y útil y generar indicadores útiles. Por ejemplo, se desarrollará un algoritmo para procesar datos y tomar decisiones sobre la calidad de la numeración, generando un «rating» para el número llamante.
- Linaje de Datos: Es crucial implementar un sistema de linaje para conocer qué cambios y transformaciones se han realizado sobre los datos originales a lo largo del tiempo, garantizando la trazabilidad, integridad y fiabilidad.
Estudio de los datos: fiabilidad y seguridad de los datos
Este factor engloba la necesidad de asegurar la calidad y la protección de la información.
- Gobernanza del Dato: Fundamental para gestionar la disponibilidad, integridad, usabilidad y seguridad de los datos durante todo su ciclo de vida. Incluye la implementación de políticas y reglas de gestión (legales y técnicas) para generar un entorno de confianza.
- Calidad del Dato (Fiabilidad): Se incorpora la evaluación avanzada de indicadores de calidad (automáticos y configurables) que miden la completitud, consistencia, unicidad o validez semántica. Los mecanismos incluyen:
- Módulo de perfilado técnico y estadístico para identificar si los datos son de calidad.
- Reglas de calidad de datos aplicables a diferentes tipos de datos (numérico, texto).
- Uso de estándares como DQV para describir y evaluar la calidad de los datos.
- Seguridad y Privacidad: Es un principio transversal. Esto abarca:
- Cumplimiento Normativo: Protección de datos personales conforme a regulaciones como GDPR y el Reglamento de Gobernanza de Datos.
- Soberanía del Dato: Mecanismos para definir y aplicar políticas de control de acceso y uso (controlando cómo los datos son explotados por terceros), utilizando lenguajes como ODRL y componentes como el conector EDC.
- Anonimización: Garantizar la anonimización de datos sensibles antes de ser expuestos.
- Trazabilidad y Linaje: La implementación de un sistema de linaje garantiza la integridad y permite auditar el origen y las transformaciones de los datos

