Casos de uso de DAPROC de GCP

¿Cuál es el uso de DatapROC en GCP??
¿Por qué usamos DatapROC??
Qué tipo de trabajos se pueden ejecutar en Google Dataproc?
¿Cuándo debo usar DatapRroc y DataFlow??

¿Cuál es el uso de DatapROC en GCP??

DatapROC es un servicio administrado de Spark y Hadoop que le permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, consultas, transmisión y aprendizaje automático. La automatización de Dataproc lo ayuda a crear grupos rápidamente, administrarlos fácilmente y ahorrar dinero apagando los clústeres cuando no los necesite.

¿Por qué usamos DatapROC??

DatapROC es un servicio completamente administrado y altamente escalable para ejecutar Apache Hadoop, Apache Spark, Apache Flink, Presto y más de 30 herramientas y marcos de código abierto. Use DatapROC para Data Lake Modernization, ETL y Secure Data Science, a escala, integrado con Google Cloud, a una fracción del costo.

Qué tipo de trabajos se pueden ejecutar en Google Dataproc?

¿Qué tipo de trabajos puedo ejecutar?? DatapROC proporciona soporte fuera del cuadro y de extremo a extremo para muchos de los tipos de trabajo más populares, incluidos Spark, Spark SQL, Pyspark, MapReduce, Hive y Pig Jobs.

¿Cuándo debo usar DatapRroc y DataFlow??

Se debe utilizar datapROC si el procesamiento tiene alguna dependencia de las herramientas en el ecosistema de Hadoop. DataFlow/Beam proporciona una separación clara entre la lógica de procesamiento y el motor de ejecución subyacente.