Apache Spark jest napisany w języku programowania Scala. Aby wesprzeć Python ze Sparkiem, społeczność Apache Spark wydała narzędzie, PySpark. Używając PySpark, możesz pracować z RDD również w języku programowania Python. Jest to możliwe dzięki bibliotece o nazwie Py4j. Jest to tutorial wprowadzający, który obejmuje podstawy Data-Driven Documents i wyjaśnia, jak radzić sobie z różnymi komponentami i podkomponentami.
Tutorial ten jest przygotowany dla tych profesjonalistów, którzy aspirują do zrobienia kariery w języku programowania i przetwarzaniu w czasie rzeczywistym. Ten przewodnik ma na celu ułatwić czytelnikom rozpoczęcie pracy z PySpark wraz z jego różnymi modułami i podmodułami.
Wymagania wstępne
Przed przystąpieniem do różnych koncepcji podanych w tym przewodniku, zakłada się, że czytelnicy są już świadomi czym jest język programowania i framework. Dodatkowo, bardzo pomocna będzie znajomość Apache Spark, Apache Hadoop, języka programowania Scala, Hadoop Distributed File System (HDFS) oraz Pythona.