Clariba Big Data Series: Manos a la obra con SAP VORA

SAP Vora es una solución de informática en memoria de SAP que permite desarrollar aplicaciones analíticas a partir de fuentes de datos masivas (Big Data) y NoSQL. En este artículo, le presentaremos sus principales componentes y características. Además, divulgaremos algunas ideas iniciales sobre su rendimiento mediante el uso de un caso de prueba desarrollado en Clariba. Comencemos con una breve introducción.

¿Qué es SAP Vora?

SAP Vora es un producto desarrollado por SAP, que utiliza una de las plataformas de Big Data de código abierto más utilizadas en el mercado, Apache Spark ( https://spark.apache.org/ ). SAP Vora actúa como un complemento que amplía las características estándar de Spark, mejorando sus capacidades para fines comerciales y analíticos (por ejemplo, permitiendo el uso de jerarquías, consultas OLAP, etc.)

Imagen1.jpg


Una pieza fundamental del producto es su integración con SAP HANA, que es la pieza central de la cartera de SAP para soluciones analíticas y de base de datos. Si bien SAP HANA es una excelente plataforma que ofrece muchos servicios de integración, bases de datos y aplicaciones diferentes, es una solución de Big Data no distribuida (no es capaz de distribuir procesamiento o almacenamiento en múltiples nodos). Aquí es donde, por otra parte, SAP Vora es capaz de realizar el procesamiento distribuido en memoria y agrega capacidades analíticas clave en memoria a Hadoop y Spark. Gracias a su paralelismo distribuido, podemos usarlo para tratar los escenarios de big data en los que SAP HANA por sí solo resultaría demasiado limitante.

SAP HANA combinado con SAP Vora ofrece el escenario perfecto para big data y análisis: SAP HANA puede almacenar datos transaccionales y datos no estructurados, sin estructurar de SAP Vora, ambos combinados con fines analíticos utilizando las potentes funciones de SAP HANA.

Ejemplo de implementación

Arquitectura

A continuación se muestra un resumen de la arquitectura de SAP Vora, que consiste en un complemento que se ejecuta en Apache Spark.

hanavora01.jpg

En nuestro caso, los componentes utilizados para implementar SAP Vora son los siguientes:

  • Hadoop (ecosistema)

  • MapReduce (transformaciones)

  • HDFS (archivos distribuidos)

  • Zookeeper (coordinación)

  • Ambari (asistente de despliegue de clusters)

  • Hive (adaptador SQL)

  • Chispa (procesamiento en memoria)

  • HBase (persistencia de datos)

Nuestra prueba

En Clariba hemos probado diferentes escenarios de soluciones con SAP Vora (https://www.clariba.com/blog/tech-20170926-big-data-series-sap-hana-tested-with-data-lakes-our-insights-joan-sanchez ). En estos escenarios, SAP Vora se configuró como un complemento de SAP HANA. Primero, los datos se cargaron en masa a Apache Hadoop. Después de eso, la virtualización de datos se configuró utilizando el módulo de acceso a datos inteligentes de SAP HANA. Esto permite que SAP HANA muestre tablas virtuales que se utilizarán para aplicaciones analíticas. Sin embargo, cualquier operación en los datos almacenados en estas tablas no se almacenará en SAP HANA, sino que se delegará en SAP Vora.

Las diferentes fases de la implementación se muestran a continuación:

  • Preparación del clúster de SAP Vora: en nuestro caso utilizamos instancias de AWS. El sistema operativo elegido para nuestro Vora Cluster fue un SLES 11 sp4 (SUSE Linux Enterprise Server), versión 20160415, con arquitectura de 64 bits.

  • Implementación de Vora a través de Ambari: Ambari se implementa en el clúster de AWS, que es una plataforma para fines de monitoreo.

screnshoot01.png
  • Configuración de la conexión SAP HANA - SAP Vora : La fuente remota que conecta SAP HANA con el clúster de SAP Vora se configura.

screnshoot02.png
  • Virtualización de datos con SDA: Después de la conexión entre SAP HANA y SAP Vora, se mostrarán las tablas existentes en el clúster.

screnshoot03.png
  • Implementación de vistas de cálculo: En nuestro caso, los datos de SAP HANA y SAP Vora se pueden mostrar y / o unir utilizando vistas de cálculo en SAP HANA. Las operaciones o modificaciones a estos datos serán llevadas a cabo por SAP Vora.

  • Visualización de datos: Al usar SAP Design Studio, luego accedemos a las tablas virtualizadas mencionadas y mostramos sus datos en paneles. En este punto, SAP HANA puede impulsar operaciones analíticas como la visualización jerárquica, desgloses, etc. a SAP Vora. A modo de ejemplo, las capturas de pantalla a continuación muestran datos de más de tres años del Bicing (servicio público de alquiler de bicicletas) de Barcelona (http://www.bicing.cat). Se están utilizando aproximadamente 90 GB de datos sin comprimir. En este caso obtuvimos un tiempo de respuesta promedio de 15 segundos.

screnshoot04.png
screnshoot05.png

Perspectivas y conclusiones

  • SAP Vora facilita la implementación de un lago de datos para almacenar grandes cantidades de datos que no son de SQL, junto con SAP HANA. Proporciona una buena alternativa para reducir el TCO cuando se trata de un gran volumen de datos en bruto.

  • Ambari ofrece una manera buena y eficiente de monitorear el clúster y de implementar SAP Vora. La función de virtualización de datos (SDA) de HANA permite desarrollar potentes aplicaciones de análisis, que pueden recuperar y combinar datos provenientes del lago de datos (SAP Vora).

  • SAP Vora facilita la reducción de las operaciones de alta demanda (OLAP, desglose ...), lo que permite lograr un buen rendimiento.

  • Comparado con otras plataformas de Big Data, SAP Vora ofrece un muy buen rendimiento, mejor que Apache Spark o Apache Hadoop + Hive, por mencionar algunas.

Referencias

EspañolEnglish