""

Mejora la velocidad y la precisión del escaneo de documentos con Machine Learning en SAP Cloud Platform

Extracción de información de fuentes de papel

Introducción

A pesar de que la mayoría de los negocios se realizan digitalmente, muchas organizaciones aún tienen un requisito importante para importar datos de fuentes en papel a sus bases de datos, a menudo elementos como facturas, recibos u órdenes de compra.

Existen varias herramientas para el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) que hacen que este trabajo sea más fácil. Sin embargo, la mayoría requiere ciertos estándares de formato de texto para extraer la información con precisión y clasificarla correctamente.

Para abordar este problema, nos propusimos buscar una herramienta que nos permita capturar información de una fuente en papel y se nos ocurrió un servicio dentro de SAP Cloud Platform llamado Document Information Extraction.

Este servicio funciona con algoritmos de aprendizaje automático previamente capacitados que permiten su uso como una solución plug and play para documentos como facturas que son compatibles con el servicio.

Para demostrar la viabilidad del uso de la extracción de información del documento, lo probaremos en una factura de ejemplo para evaluar con qué precisión es capaz de interpretar la información del documento.

Preparativos

Antes de comenzar, necesitas una cuenta de SAP con acceso a SAP Cloud Platform y a Document Information Extraction. Esto se puede lograr al obtener una cuenta de prueba gratuita si aún no eres usuario. También deberás instalar Postman como cliente REST.

Para comenzar, accedemos al Espacio de desarrollo dentro de la cabina de SAP donde vamos a asignar la instancia de Extracción de información del documento.

imag1.png

Una vez que se completa esta configuración inicial, el siguiente paso es crear la clave de servicio. Esto generará un JSON con la clave de servicio que incluye la URL del punto final de la API junto con un nombre de usuario y contraseña.

La URL proporcionada en la clave de servicio debe completarse con "/ document-information-extract / v1" para acceder a la interfaz API que manejaremos en esta prueba de concepto. La URL completa nos lleva a esta página:

imag2.png

Aquí es donde sucede la magia. Esta es la interfaz que vamos a utilizar para la herramienta, pero antes de que podamos transformar la imagen escaneada de una factura en datos, aún debemos completar un par de pasos. Necesitamos generar un token de portador de autorización, que vamos a obtener utilizando Postman con HTTP GET y luego vamos a crear el cliente al que enviaremos el documento para la extracción de información.

Para obtener el token portador, simplemente copiamos el valor de URL en la clave de servicio JSON en el nodo uaa y le agregamos “oauth / token? Grant_type = client_credentials”. Dentro de la pestaña Autorización, seleccionaremos "autorización básica" y utilizaremos las credenciales dentro de la clave de servicio. Si esto se hace correctamente, deberíamos obtener una respuesta que contenga el token de acceso.

Ahora, para continuar creando el cliente, vamos a hacer clic en el botón Authorize dentro de la API y en el campo "Value" vamos a ingresar el texto "Bearer" seguido de un espacio y el texto en el nodo de token de acceso que recibimos en el último paso.

Luego, hacemos clic en la opción POST en la sección Cliente y probamos el código previamente escrito que debería generar un ClientId y un ClientName. El código se puede cambiar para modificar ClientId y ClientName. Después de ejecutar este código, deberíamos obtener un código 201 como la respuesta que confirma que el cliente se creó correctamente.

Después de todos estos pasos, finalmente estamos listos para probar el servicio de extracción de información de documentos.

Para enviar un documento para su procesamiento, haremos clic en la opción POST.

imag3.png

Después de hacer clic en "Try it out", deberíamos tener la opción de cargar un documento PDF. Para esta prueba de concepto, vamos a cargar una factura de un taller de reparación de automóviles y ver qué tan preciso es el servicio para identificar los datos.

Caso de prueba

Factura cargada:

imag4.jpg

El envío de los documentos nos dará una respuesta con una identificación para cada documento. Para obtener los resultados, utilizaremos la opción GET {uuid} y la identificación que obtuvimos al enviar los documentos, junto con el ID de cliente que estamos utilizando, como se muestra a continuación:

imag5.png

La respuesta contendrá un JSON con la información recuperada del documento. En nuestras pruebas recuperamos los siguientes datos de la factura:

imag6.jpg

Conclusión

La herramienta de extracción de información de documentos en SAP Cloud Platform es fácil de configurar y usar, y es muy precisa cuando se analizan documentos con formatos compatibles.

Tiene el potencial de ahorrar cantidades variables de tiempo de administración y procesamiento en comparación con el uso de un proceso completamente manual, al tiempo que mantiene altos niveles de precisión.

Para las organizaciones que dependen de la transferencia de grandes cantidades de datos desde copias físicas al almacenamiento digital, el uso de la plataforma SAP Cloud puede generar ahorro de costes.

EspañolEnglish