La solución cubre diferentes fases, incluyendo la ingestión de datos, la validación de datos y el procesamiento de datos de Slowly Changing Dimensions (SCD). Combina múltiples marcos de datos, como la ingestión de datos genéricos, la validación de datos y las SCD de tipo 1 y 2, que son fácilmente configurables, personalizables y desplegables para cualquier plataforma de Microsoft Azure.
La solución vDataAid se desarrolla utilizando Azure Data Factory para la ingestión de datos y Spark Notebook para la validación de datos. La tubería de integración de datos de Azure es una tubería genérica utilizada para la ingestión y la validación de datos que está completamente dirigida por metadatos.
Por ejemplo, el primer paso en la configuración de cualquier fuente de datos es capturar los detalles de la ingesta, como las rutas de origen y destino, los objetos que se van a ingerir, etc., en tablas de metadatos preconfiguradas. A continuación, utilizamos la única canalización genérica para la ingesta, la validación y las transformaciones (SCD) de todos los objetos sin necesidad de crear y mantener varias canalizaciones.