Apache Spark est écrit en langage de programmation Scala. Pour prendre en charge Python avec Spark, la communauté Apache Spark a publié un outil, PySpark. En utilisant PySpark, vous pouvez travailler avec des RDDs en langage de programmation Python également. C’est grâce à une bibliothèque appelée Py4j qu’ils sont en mesure de le faire. Il s’agit d’un tutoriel d’introduction, qui couvre les bases des documents pilotés par les données et explique comment traiter ses différents composants et sous-composants.
Ce tutoriel est préparé pour les professionnels qui aspirent à faire carrière dans le langage de programmation et le cadre de traitement en temps réel. Ce tutoriel est destiné à rendre les lecteurs à l’aise pour démarrer avec PySpark ainsi que ses différents modules et sous-modules.
Prérequis
Avant de procéder aux différents concepts donnés dans ce tutoriel, il est supposé que les lecteurs sont déjà conscients de ce qu’est un langage de programmation et un framework. En plus de cela, il sera très utile, si les lecteurs ont une solide connaissance d’Apache Spark, Apache Hadoop, du langage de programmation Scala, du système de fichiers distribués Hadoop (HDFS) et de Python.
.