AWS Glue localmente

¿Puedo ejecutar AWS Glue localmente??
¿Cómo funciona el pegamento AWS internamente??
¿Podemos crear un trabajo de pegamento sin rastreador??
¿Es bueno el pegamento AWS para ETL??
¿Cuándo no deberías usar AWS Glue??
¿Es AWS Glue dentro de VPC??
¿Es el pegamento de AWS como flujo de aire??
¿Es el pegamento de AWS sin estado??
Por qué el pegamento es mejor que EMR?
¿Por qué AWS Glue es tan lento??
¿Es difícil el pegamento de AWS??
¿Cuál es la diferencia entre pegamento y rastreador de pegamento??
Puede pegamento gatear json?
¿Cuál es la diferencia entre rastreador y clasificador en AWS Glue??
¿Puede AWS Glue escribir en la base de datos de las premisas??
¿En qué se ejecuta el pegamento de AWS??
¿Es difícil el pegamento de AWS??
¿El pegamento de AWS necesita un VPC??
¿El pegamento necesita VPC??
¿Puede AWS Glue conectarse a MySQL??
¿Puede AWS Glue conectarse a REST API??
¿Cuál es la diferencia entre la tubería de datos de AWS Glue y AWS??

¿Puedo ejecutar AWS Glue localmente??

Con los archivos AWS Glue Jar disponibles para el desarrollo local, puede ejecutar el paquete AWS Glue Python localmente.

¿Cómo funciona el pegamento AWS internamente??

AWS Glue utiliza otros servicios de AWS para orquestar sus trabajos de ETL (Extraer, transformar y cargar) para construir almacenes de datos y lagos de datos y generar flujos de salida. AWS Glue llama a las operaciones de API para transformar sus datos, crear registros de tiempo de ejecución, almacenar su lógica de trabajo y crear notificaciones para ayudarlo a monitorear sus ejecuciones de trabajo.

¿Podemos crear un trabajo de pegamento sin rastreador??

No. No necesitas crear un rastreador para ejecutar trabajo de pegamento. Crawler puede leer múltiples fuente de datos y mantener actualizado el catálogo de pegamento.

¿Es bueno el pegamento AWS para ETL??

AWS Glue puede ejecutar sus trabajos de extracto, transformación y carga (ETL) a medida que llegan los nuevos datos. Por ejemplo, puede configurar AWS Glue para iniciar sus trabajos de ETL para que se ejecute tan pronto como los nuevos datos estén disponibles en Amazon Simple Storage Service (S3).

¿Cuándo no deberías usar AWS Glue??

AWS Glue no puede admitir los sistemas de bases de datos relacionales convencionales. Solo puede admitir bases de datos estructuradas. Por lo tanto, debe tener un sistema SQL para el almacenamiento de la base de datos para implementar el pegamento AWS con éxito.

¿Es AWS Glue dentro de VPC??

La tabla de ruta para el AWS Glue VPC tiene conexiones de par. Los tiene para que AWS Glue pueda iniciar conexiones a todas las bases de datos. Todos los VPC de la base de datos tienen una conexión de emparejamiento al AWS Glue VPC. Tienen estas conexiones para permitir que el tráfico de retorno llegue a AWS Glue.

¿Es el pegamento de AWS como flujo de aire??

Apache Airflow y AWS Glue se hicieron con diferentes objetivos, pero comparten un terreno común. Ambos le permiten crear y administrar flujos de trabajo. Debido a esta similitud, algunas tareas que puede hacer con el flujo de aire también se pueden realizar con Glue y Viceversa.

¿Es el pegamento de AWS sin estado??

Tiene una arquitectura sin estado con control de concurrencia, lo que le permite procesar una gran cantidad de archivos muy rápidamente. Esto es útil para prototipos rápidamente de trabajos de datos complejos sin una infraestructura como Hadoop o Spark. AWS Glue y S3-Lambda se pueden clasificar como herramientas de "big data".

Por qué el pegamento es mejor que EMR?

El pegamento se adapta a los datos de datos más simples y los flujos de trabajo de integración, mientras que EMR es una plataforma de servicio administrada de operaciones de datos más integrales.

¿Por qué AWS Glue es tan lento??

Algunas razones comunes por las cuales sus trabajos de pegamento de AWS tardan mucho tiempo en completarse son las siguientes: grandes conjuntos de datos. Distribución no uniforme de datos en los conjuntos de datos. Distribución desigual de tareas en todos los ejecutores.

¿Es difícil el pegamento de AWS??

AWS Glue Studio es una interfaz gráfica fácil de usar que acelera el proceso de autorización, ejecución y monitoreo de trabajos de extracto, transformación y carga (ETL) en AWS Glue.

¿Cuál es la diferencia entre pegamento y rastreador de pegamento??

AWS Glue contiene características como el catálogo de datos de pegamento AWS que le permite catalogarse de datos, lo que las pone a disposición en todos los servicios de análisis de AWS; el AWS Glue Crawler, que realiza el descubrimiento de datos en las fuentes de datos; y trabajos de pegamento de AWS que ejecutan el ETL en su tubería en Scala o Pyspark.

Puede pegamento gatear json?

Puede usar AWS Glue para leer archivos JSON de Amazon S3, así como archivos JSON comprimidos BZIP y GZIP. Configura el comportamiento de compresión en la conexión Amazon S3 en lugar de en la configuración discutida en esta página.

¿Cuál es la diferencia entre rastreador y clasificador en AWS Glue??

Los tipos de clasificadores incluyen la definición de esquemas basados en patrones de Grok, etiquetas XML y rutas JSON. Si cambia una definición del clasificador, cualquier dato que se rastreó previamente usando el clasificador no se reclasifica. Un rastreador realiza un seguimiento de los datos previamente rastreados.

¿Puede AWS Glue escribir en la base de datos de las premisas??

AWS Glue también puede conectarse a una variedad de tiendas de datos JDBC locales como PostgreSQL, MySQL, Oracle, Microsoft SQL Server y MariadB. Los trabajos de AWS Glue ETL pueden usar Amazon S3, almacenes de datos en una VPC o las tiendas de datos JDBC locales como fuente.

¿En qué se ejecuta el pegamento de AWS??

AWS Glue es compatible con los datos almacenados en Amazon Aurora, Amazon RDS para MySQL, Amazon RDS para Oracle, Amazon RDS para PostgreSQL, Amazon RDS para SQL Server, Amazon RedShift, Dynamodb y Amazon S3, así como MySQL, Oracle, Microsoft SQL Server, y bases de datos PostgreSQL en su nube privada virtual (Amazon VPC) en ejecución ...

¿Es difícil el pegamento de AWS??

AWS Glue Studio es una interfaz gráfica fácil de usar que acelera el proceso de autorización, ejecución y monitoreo de trabajos de extracto, transformación y carga (ETL) en AWS Glue.

¿El pegamento de AWS necesita un VPC??

Paso 1: Configure un VPC

El AWS Glue VPC necesita al menos una subred privada para que AWS Glue use. Asegúrese de que los nombres de host DNS estén habilitados para todos sus VPC (a menos que planee consultar sus bases de datos mediante dirección IP más adelante, lo que no se recomienda).

¿El pegamento necesita VPC??

Puede establecer una conexión privada entre su pegamento VPC y AWS creando un punto final de interfaz VPC. Los puntos finales de la interfaz están alimentados por AWS PrivateLink, una tecnología que le permite acceder de forma privada a las AWS Glue API sin una puerta de enlace de Internet, dispositivo NAT, conexión VPN o AWS Direct Connect Connection.

¿Puede AWS Glue conectarse a MySQL??

AWS Glue proporciona soporte integrado para las tiendas de datos más utilizadas (como Amazon Redshift, Amazon Aurora, Microsoft SQL Server, MySQL, MongoDB y PostgreSQL) utilizando conexiones JDBC.

¿Puede AWS Glue conectarse a REST API??

Sí, es posible. Puede usar Amazon Glue para extraer datos de las API REST. Aunque no hay un conector directo disponible para que Glue se conecte al mundo de Internet, puede configurar un VPC, con una subred pública y privada.

¿Cuál es la diferencia entre la tubería de datos de AWS Glue y AWS??

AWS Glue ejecuta trabajos ETL en sus recursos virtuales en un entorno Apache Spark sin servidor. La tubería de datos de AWS no se limita a Apache Spark. Le permite usar otros motores como colmena o cerdo. Por lo tanto, si sus trabajos ETL no requieren el uso de Apache Spark o múltiples motores, AWS Data Tubeline podría ser preferible.