""

Clariba Big Data Series: Manos a la obra con SAP VORA

SAP Vora es una solución de informática en memoria de SAP que permite desarrollar aplicaciones analíticas a partir de fuentes de datos masivas (Big Data) y NoSQL. En este artículo, le presentaremos sus principales componentes y características. Además, divulgaremos algunas ideas iniciales sobre su rendimiento mediante el uso de un caso de prueba desarrollado en Clariba. Comencemos con una breve introducción.

¿Qué es SAP Vora?

SAP Vora is a product developed by SAP, which uses one of the most widely used open source Big Data platforms on the market, Apache Spark (https://spark.apache.org/). SAP Vora acts as an add-on which extends the standard features of Spark, improving its capabilities for business and analytical purposes (for example, allowing the use of hierarchies, OLAP queries, etc.)

Imagen1.jpg


Una pieza fundamental del producto es su integración con SAP HANA, que es la pieza central de la cartera de SAP para soluciones analíticas y de base de datos. Si bien SAP HANA es una excelente plataforma que ofrece muchos servicios de integración, bases de datos y aplicaciones diferentes, es una solución de Big Data no distribuida (no es capaz de distribuir procesamiento o almacenamiento en múltiples nodos). Aquí es donde, por otra parte, SAP Vora es capaz de realizar el procesamiento distribuido en memoria y agrega capacidades analíticas clave en memoria a Hadoop y Spark. Gracias a su paralelismo distribuido, podemos usarlo para tratar los escenarios de big data en los que SAP HANA por sí solo resultaría demasiado limitante.

SAP HANA combinado con SAP Vora ofrece el escenario perfecto para big data y análisis: SAP HANA puede almacenar datos transaccionales y datos no estructurados, sin estructurar de SAP Vora, ambos combinados con fines analíticos utilizando las potentes funciones de SAP HANA.

Ejemplo de implementación

Arquitectura

A continuación se muestra un resumen de la arquitectura de SAP Vora, que consiste en un complemento que se ejecuta en Apache Spark.

hanavora01.jpg

En nuestro caso, los componentes utilizados para implementar SAP Vora son los siguientes:

  • Hadoop (ecosistema)

  • MapReduce (transformaciones)

  • HDFS (archivos distribuidos)

  • Zookeeper (coordinación)

  • Ambari (asistente de despliegue de clusters)

  • Hive (adaptador SQL)

  • Chispa (procesamiento en memoria)

  • HBase (persistencia de datos)

Nuestra prueba

At Clariba we have tested different solutions scenarios with SAP Vora (https://www.clariba.com/blog/tech-20170926-big-data-series-sap-hana-tested-with-data-lakes-our-insights-joan-sanchez). In these scenarios, SAP Vora was configured as a complement to SAP HANA. First, data was loaded in bulk to Apache Hadoop. After that, data virtualization was configured using the SAP HANA Smart Data Access module. This allows SAP HANA to display virtual tables to be used for analytical applications. However, any operation on the data stored in these tables will not be stored in SAP HANA, it will be delegated to SAP Vora instead.

Las diferentes fases de la implementación se muestran a continuación:

  • Preparation of the SAP Vora cluster: In our case we used AWS instances. The operating system chosen for our Vora Cluster was an SLES 11 sp4 (SUSE Linux Enterprise Server), version 20160415, with 64-bit architecture.

  • Deployment of Vora through Ambari: Ambari is deployed in the AWS cluster, which is a platform for monitoring purposes.

screnshoot01.png
  • SAP HANA connection configuration - SAP Vora: The remote source that connects SAP HANA with the SAP Vora cluster is then configured.

screnshoot02.png
  • Data virtualization with SDA: After the connection between SAP HANA and SAP Vora, existing tables in the cluster will be displayed.

screnshoot03.png
  • Implementation of Calculation Views: In our case, data from SAP HANA and SAP Vora can be displayed and/or joined using calculation views in SAP HANA. Operations or amendments to this data will be carried out by SAP Vora.

  • Data visualization: Using SAP Design Studio, we then access the mentioned virtualized tables and display their data in dashboards. At this point, SAP HANA can push analytical operations such as hierarchical display, break downs, etc. down to SAP Vora. As an example, below screenshots are showing data of more than three years from the Bicing (public bicycle rental service) of Barcelona (http://www.bicing.cat). Approximately 90GB of uncompressed data are being used. In this case we obtained an average response time of 15 seconds.

screnshoot04.png
screnshoot05.png

Perspectivas y conclusiones

  • SAP Vora facilita la implementación de un lago de datos para almacenar grandes cantidades de datos que no son de SQL, junto con SAP HANA. Proporciona una buena alternativa para reducir el TCO cuando se trata de un gran volumen de datos en bruto.

  • Ambari ofrece una manera buena y eficiente de monitorear el clúster y de implementar SAP Vora. La función de virtualización de datos (SDA) de HANA permite desarrollar potentes aplicaciones de análisis, que pueden recuperar y combinar datos provenientes del lago de datos (SAP Vora).

  • SAP Vora facilita la reducción de las operaciones de alta demanda (OLAP, desglose ...), lo que permite lograr un buen rendimiento.

  • Comparado con otras plataformas de Big Data, SAP Vora ofrece un muy buen rendimiento, mejor que Apache Spark o Apache Hadoop + Hive, por mencionar algunas.

Referencias

EspañolEnglish