Apache Spark je napsán v programovacím jazyce Scala. Pro podporu jazyka Python ve Sparku vydala komunita Apache Spark nástroj PySpark. Pomocí PySparku můžete pracovat s RDD také v programovacím jazyce Python. Je to díky knihovně s názvem Py4j, která toho dokáže dosáhnout. Jedná se o úvodní výukový kurz, který se zabývá základy datově řízených dokumentů a vysvětluje, jak pracovat s jeho různými komponentami a dílčími součástmi.
Tento kurz je připraven pro odborníky, kteří usilují o kariéru v oblasti programovacího jazyka a rámce pro zpracování dat v reálném čase. Tento výukový kurz je určen k tomu, aby čtenáři mohli pohodlně začít pracovat s PySparkem spolu s jeho různými moduly a podmoduly.
Předpoklady
Předtím, než se pustí do různých konceptů uvedených v tomto výukovém kurzu, se předpokládá, že čtenáři již vědí, co je to programovací jazyk a framework. Kromě toho bude velmi užitečné, pokud budou mít čtenáři důkladné znalosti programů Apache Spark, Apache Hadoop, programovacího jazyka Scala, distribuovaného souborového systému Hadoop (HDFS) a jazyka Python.
.