Apache Spark är skriven på programmeringsspråket Scala. För att stödja Python med Spark har Apache Spark släppt ett verktyg, PySpark. Med PySpark kan du arbeta med RDD:er även i programmeringsspråket Python. Det är tack vare ett bibliotek som heter Py4j som de kan åstadkomma detta. Det här är en inledande handledning som täcker grunderna för datadrivna dokument och förklarar hur man hanterar dess olika komponenter och underkomponenter.
Denna handledning är förberedd för de yrkesverksamma som strävar efter att göra karriär inom programmeringsspråk och ramverk för realtidsbehandling. Denna handledning är avsedd att göra läsarna bekväma med att komma igång med PySpark tillsammans med dess olika moduler och undermoduler.
Förutsättningar
För att gå vidare med de olika koncepten som ges i den här handledningen, förutsätts det att läsarna redan är medvetna om vad ett programmeringsspråk och ett ramverk är. Dessutom är det till stor hjälp om läsarna har goda kunskaper om Apache Spark, Apache Hadoop, programmeringsspråket Scala, Hadoop Distributed File System (HDFS) och Python.