In this article, we complete our series on SAP Data Warehouse Cloud, looking at how best to make use of dataflows using the inbuilt editor, to import, transform and consolidate data from multiple sources.
If you have been following this series of blogs, you’ll already be familiar with SAP Data Warehouse Cloud. In this final episode, we are going to dive deeper into the Dataflow editor, to fully analyse its capabilities and give you some hints and tips for developing ETL (extract, transform, and load) dataflows in SAP DWC.
1. ¿Qué es un flujo de datos?
First, we need to understand what a dataflow is. In this case, we are talking specifically about an ETL dataflow. We can think about it as a linear process, that extracts data from one or more systems, performs transformations to the data, and consolidates it into a single structure (or table). Dataflows can be independent or can be grouped into small chains, depending on your exact requirements.
2. Casos de uso
When using dataflows in SAP Data Warehouse Cloud, there are two main use cases to consider:
Importing data into our DWC system: If we have multiple independent external systems, the data within them might not be aligned. The first step would be to load the data from the various systems into one single system, in this case, SAP Data Warehouse Cloud. This will improve the performance of any subsequent transformations/queries performed via the application, as all the data would be loaded into a single location, avoiding potential delays due to connection constraints.
Transforming existing data in our system to obtain the desired information: Once we have the data loaded into our system, the next step would be to create a dataflow that integrates the information we requre. Let’s say we have information about the master data regarding products coming from one system, and from another system we receive information about sales. We can combine said data using a dataflow, and we can perform analytics on the result of that transformation. Since the data is consolidated into a single table, this process will be faster and more efficient than accessing the different systems containing the original data.
3. Flujo de datos
Let’s dive straight in, open the Dataflow editor in SAP Data Warehouse Cloud and have a look at the layout we are presented with. We must navigate to the Data Builder tab, and within that, the option to create a new dataflow will appear. We can also edit existing dataflows.
Dos paneles son visibles:
3.1. Selección de fuente de datos
In this panel we see all the different data sources we have available, with two tabs - Repository and Sources.
3.1.1. Repository (Repositorio)
In this area, we see all the tables and views we have imported into our SAP Data Warehouse Cloud system. We encourage you to use the data from here if you want to create complex data flows.
3.1.2. Sources (Fuentes)
Aquí, podemos ver todas las diferentes fuentes de datos que hemos conectado a nuestro sistema y el contenido dentro de ellas. Queremos extraer los datos deseados de esas fuentes e insertarlos en nuestro sistema, para poder usarlos como un área de preparación, donde se realizarán más cálculos sobre los datos.
3.2. Transformación de datos
En esta área, podemos encontrar las herramientas que usaremos para transformar los datos, en función de nuestros requisitos.
A continuación, se ofrece una breve explicación de cada función:
3.2.1. Join (Unir)
Esta característica nos permite unir dos fuentes de datos diferentes mediante un conjunto de campos de nuestra elección. Al realizar un join podemos seleccionar el tipo de join que queremos hacer (Inner, Left Outer, etc…), y podemos configurar los mapeos de los campos que realizarán la acción de unir.
3.2.2. Unión
Al realizar una unión, estamos combinando datos de dos fuentes diferentes en una. Esta acción se realiza sin ninguna restricción, por lo que, por ejemplo, si queremos combinar la información del producto de dos fuentes diferentes, podemos hacerlo mediante una cláusula de unión y decidir qué campos se asignan al conjunto de resultados.
3.2.3. Proyección
Cuando usamos la función de proyección, podemos decidir qué campos de una fuente de datos estamos proyectando hacia adelante en el flujo. Esto es útil cuando tenemos una fuente de datos muy grande en términos de campos y solo queremos algunos de ellos para nuestro proceso. También podemos realizar un filtrado de datos en esta área, con el fin de restringir la salida del flujo. Podemos pensar en esta función como la parte "SELECCIONAR" y "DÓNDE" de una consulta SQL.
3.2.4. Agregación
Al utilizar esta función, podemos realizar la agregación de datos, según nuestros requisitos. Podemos establecer qué campos queremos agregar (y el tipo de agregación) y qué campos queremos establecer como "estáticos". Podemos pensar en esto como la cláusula "GROUP BY".
3.2.5. Script
When using SAP Data Warehouse Cloud, we can run small python scripts, (if we are familiar with programming in python) in order to perform more complex calculations “on the fly” within the Dataflow editor.
3.2.6. Agregar tabla
Esta opción nos permite agregar una nueva fuente de datos o, alternativamente, podemos arrastrar y soltar una fuente desde el panel de selección de fuentes de datos.
4. Conclusiones
Following the points above should give you a good initial overview of what the Dataflow editor in SAP Data Warehouse Cloud can do for you. The tool is powerful enough to perform considerable and complex data consolidation from external sources, and facilitate the required transformations to prepare your data for the next step into your analytic layer.
Con esto concluye nuestra serie de 7 artículos sobre “Unboxing SAP Data Warehouse Cloud”. Si se ha unido a nosotros a la mitad, le recomendamos que consulte los artículos anteriores para obtener más información sobre la funcionalidad y las características de la plataforma.
If you’re interested in learning more about setting up SAP Data Warehouse Cloud as your enterprise data warehouse, please get in touch, and we’ll be happy to give you all the information you need.