À propos du test PySpark
Cet examen évalue la capacité d'une personne à utiliser PySpark et à manipuler des RDDs avec Python. PySpark fournit le PySpark Shell, qui connecte l'API Python au Spark core et démarre le Spark context.
Aujourd'hui, Python est privilégié par la majorité des data scientists et des professionnels de l'analyse en raison de ses nombreuses bibliothèques, rendant la combinaison avec Spark particulièrement avantageuse. Apache Spark comprend son propre gestionnaire de cluster pour héberger des applications, tout en s'appuyant sur Apache Hadoop pour les besoins de stockage et de traitement. Il utilise HDFS (Hadoop Distributed File System) pour le stockage des données et est compatible avec l'exécution d'applications Spark sur YARN.
Pertinent pour :
- Data Engineer
- Senior Data Scientist