Acerca de la prueba PySpark
Este examen evalúa la capacidad de una persona para utilizar PySpark y manipular RDDs mediante Python. PySpark proporciona la PySpark Shell, que conecta la API de Python con el Spark core e inicia el Spark context.
Hoy en día, Python es preferido por la mayoría de los científicos de datos y profesionales de análisis debido a sus extensas bibliotecas, haciendo que la combinación con Spark sea especialmente ventajosa. Apache Spark incluye su propio gestor de clústeres para alojar aplicaciones, mientras que depende de Apache Hadoop para necesidades de almacenamiento y procesamiento. Emplea HDFS (Hadoop Distributed File System) para el almacenamiento de datos y es compatible con la ejecución de aplicaciones Spark en YARN.
Relevante para:
- Data Engineer
- Senior Data Scientist