""

Desempacando el SAP Data Warehouse Cloud – Parte 7

En este artículo, completamos nuestra serie sobre SAP Data Warehouse Cloud, analizando la mejor manera de hacer uso de los flujos de datos utilizando el editor incorporado, para importar, transformar y consolidar datos de múltiples fuentes.

Si ha estado siguiendo esta serie de blogs, ya estará familiarizado con SAP Data Warehouse Cloud. En este episodio final, profundizaremos en el Dataflow editor, para analizar completamente sus capacidades y brindarle algunos consejos y sugerencias para desarrollar flujos de datos ETL (extraer, transformar y cargar) en SAP DWC.

1.   ¿Qué es un flujo de datos?

Primero, necesitamos entender qué es un flujo de datos. En este caso, estamos hablando específicamente de un ETL dataflow. Podemos pensar en ello como un proceso lineal, que extrae datos de uno o más sistemas, realiza transformaciones a los datos y los consolida en una sola estructura (o tabla). Los flujos de datos pueden ser independientes o pueden agruparse en pequeñas cadenas, según sus requisitos exactos.

2.   Casos de uso

Al usar flujos de datos en SAP Data Warehouse Cloud, hay dos casos de uso principales a considerer:

  • Importación de datos a nuestro sistema DWC: si tenemos varios sistemas externos independientes, es posible que los datos que contienen no estén alineados. El primer paso sería cargar los datos de los distintos sistemas en un solo sistema, en este caso, SAP Data Warehouse Cloud. Esto mejorará el rendimiento de cualquier transformación / consulta posterior realizada a través de la aplicación, ya que todos los datos se cargarían en una única ubicación, evitando posibles retrasos debido a limitaciones de conexión.

  • Transformar los datos existentes en nuestro sistema para obtener la información deseada:  Una vez que tenemos los datos cargados en nuestro sistema, el siguiente paso sería crear un flujo de datos que integre la información que requerimos. Supongamos que tenemos información sobre los datos maestros relacionados con los productos que provienen de un sistema y de otro sistema recibimos información sobre las ventas. Podemos combinar dichos datos usando un flujo de datos, y podemos realizar análisis sobre el resultado de esa transformación. Dado que los datos se consolidan en una sola tabla, este proceso.

3.   Flujo de datos

Vamos a sumergirnos directamente, abrir el Dataflow editor en  SAP Data Warehouse Cloud y echar un vistazo al diseño que se nos presenta. Debemos navegar hasta la pestaña Data Builder, y dentro de ella aparecerá la opción para crear un nuevo flujo de datos. También podemos editar los flujos de datos existentes.

Dos paneles son visibles:

3.1.  Selección de fuente de datos

En este panel vemos todas las diferentes fuentes de datos que tenemos disponibles, con dos pestañas  - Repository Sources.

Figura 1- Contenido del panel de selección de fuente de datos

3.1.1. Repository (Repositorio)

En esta área, vemos todas las tablas y vistas que hemos importado a nuestro sistema SAP Data Warehouse Cloud . Le recomendamos que utilice los datos de aquí si desea crear flujos de datos complejos.

3.1.2.  Sources (Fuentes)

Aquí, podemos ver todas las diferentes fuentes de datos que hemos conectado a nuestro sistema y el contenido dentro de ellas. Queremos extraer los datos deseados de esas fuentes e insertarlos en nuestro sistema, para poder usarlos como un área de preparación, donde se realizarán más cálculos sobre los datos.

3.2. Transformación de datos

En esta área, podemos encontrar las herramientas que usaremos para transformar los datos, en función de nuestros requisitos.

A continuación, se ofrece una breve explicación de cada función:

3.2.1.  Join (Unir)

Esta característica nos permite unir dos fuentes de datos diferentes mediante un conjunto de campos de nuestra elección. Al realizar un join podemos seleccionar el tipo de join que queremos hacer (Inner, Left Outer, etc…), y podemos configurar los mapeos de los campos que realizarán la acción de unir.

Figura 2- Definición de unión

3.2.2.   Unión

Al realizar una unión, estamos combinando datos de dos fuentes diferentes en una. Esta acción se realiza sin ninguna restricción, por lo que, por ejemplo, si queremos combinar la información del producto de dos fuentes diferentes, podemos hacerlo mediante una cláusula de unión y decidir qué campos se asignan al conjunto de resultados.

3.2.3.   Proyección

Cuando usamos la función de proyección, podemos decidir qué campos de una fuente de datos estamos proyectando hacia adelante en el flujo. Esto es útil cuando tenemos una fuente de datos muy grande en términos de campos y solo queremos algunos de ellos para nuestro proceso. También podemos realizar un filtrado de datos en esta área, con el fin de restringir la salida del flujo. Podemos pensar en esta función como la parte "SELECCIONAR" y "DÓNDE" de una consulta SQL.

3.2.4.   Agregación

Al utilizar esta función, podemos realizar la agregación de datos, según nuestros requisitos. Podemos establecer qué campos queremos agregar (y el tipo de agregación) y qué campos queremos establecer como "estáticos". Podemos pensar en esto como la cláusula "GROUP BY".

3.2.5.   Script

Cuando usamos SAP Data Warehouse Cloud, podemos ejecutar pequeños scripts de Python (si estamos familiarizados con la programación en Python) para realizar cálculos más complejos "sobre la marcha" dentro del editor de Dataflow.

3.2.6.   Agregar tabla

Esta opción nos permite agregar una nueva fuente de datos o, alternativamente, podemos arrastrar y soltar una fuente desde el panel de selección de fuentes de datos.

4. Conclusiones

Seguir los puntos anteriores debería brindarle una buena descripción general inicial de lo que el editor de flujo de datos en SAP Data Warehouse Cloud puede hacer por usted. La herramienta es lo suficientemente potente como para realizar una consolidación de datos considerable y compleja de fuentes externas y facilitar las transformaciones necesarias para preparar sus datos para el siguiente paso en su capa analítica.

Con esto concluye nuestra serie de 7 artículos sobre “Unboxing SAP Data Warehouse Cloud”. Si se ha unido a nosotros a la mitad, le recomendamos que consulte los artículos anteriores para obtener más información sobre la funcionalidad y las características de la plataforma.

Si está interesado en obtener más información sobre cómo configurar SAP Data Warehouse Cloud como su almacén de datos empresarial, comuníquese con nosotros y estaremos encantados de brindarle toda la información que necesita.


EspañolEnglish