16 horas
Del lunes 28 de agosto al jueves 7 de septiembre.
De 20:00 a 22:00 horas (tiempo de la CDMX).
Sesiones diarias de lunes a jueves.
Experiencia en programación orientada a objetos en cualquier lenguaje .
Conocimientos básicos de Python.
Procesador a 64 bit con virtualización habilitada desde el BIOS.
8 GB RAM.
Windows, Mac OS X o alguna distribución de GNU/Linux.
10 GB disponibles de almacenamiento.
Contar con Virtualbox o Docker instalado.
Big data y el ecosistema de Apache Hadoop
Apache Spark y PySPark
RDD y Dataframes
Introducción a SparkSQL
Data warehouse, delta y datalakes
Principios de SQL para analítica
Expresiones con SELECT
Tablas en línea
Tipos de datos
Formatos de archivos compatibles
Lenguaje de consulta de datos (DQL)
Uso de la cláusula JOIN
Operadores de conjuntos
Expresiones de tablas comunes con WITH
Particionamiento con CLUSTER BY y DISTRIBUTE BY
PIVOT y UNPIVOT
Funciones generadoras
Funciones de ventana
LATERAL VIEW
Fuentes y receptores de datos
Bases de datos y tablas
Muestreo
Lenguaje de manipulación de datos (DML)
Imagen de máquina virtual basada en Virtualbox.
Contendor con PySpark + Delta + Jupyter.
Apuntes en línea de libre acceso.
Sesiones en vivo.
Acceso exclusivo a las grabaciones de las sesiones.
Se otorgará un diploma de asistencia a quienes hayan acudido al menos al 80% de las sesiones.
Depósito o transferencia exclusivamente en pesos mexicanos.
Es necesario que se registre en el siguiente formulario, incluyendo el comprobante de pago.
En caso de no hacerlo, no podrá obtener a la información del taller.
En caso de necesitar apoyo e información adicional, puede enviar un mensaje a nuestro correo.