Apache Spark a Scala programozási nyelven íródott. A Python Sparkkal való támogatására az Apache Spark közösség kiadott egy eszközt, a PySparkot. A PySpark segítségével Python programozási nyelven is lehet RDD-kkel dolgozni. Ezt egy Py4j nevű könyvtárnak köszönhetően tudják elérni. Ez egy bevezető oktatóanyag, amely az adatvezérelt dokumentumok alapjaival foglalkozik, és elmagyarázza, hogyan kell kezelni a különböző komponenseket és alkomponenseket.
Ez az oktatóanyag azoknak a szakembereknek készült, akik a programozási nyelv és a valós idejű feldolgozási keretrendszerek területén szeretnének karriert csinálni. Ennek a bemutatónak az a célja, hogy az olvasók kényelmesen elsajátíthassák a PySparkot, valamint annak különböző moduljait és almoduljait.
Előfeltételek
Az ebben a bemutatóban megadott különböző fogalmakkal való folytatás előtt feltételezzük, hogy az olvasók már tisztában vannak azzal, hogy mi egy programozási nyelv és egy keretrendszer. Ezen kívül nagyon hasznos lesz, ha az olvasók alapos ismeretekkel rendelkeznek az Apache Spark, az Apache Hadoop, a Scala programozási nyelv, a Hadoop elosztott fájlrendszer (HDFS) és a Python területén.