PySpark Tutorial

PySpark Tutorial

Apache Spark is geschreven in de programmeertaal Scala. Om Python met Spark te ondersteunen, heeft de Apache Spark-gemeenschap een tool uitgebracht, PySpark. Met PySpark kun je ook in de programmeertaal Python met RDD’s werken. Het is dankzij een bibliotheek genaamd Py4j dat ze in staat zijn om dit te bereiken. Dit is een inleidende tutorial, die de basis van Data-Driven Documents behandelt en uitlegt hoe om te gaan met de verschillende componenten en subcomponenten.

Deze tutorial is voorbereid voor die professionals die een carrière in programmeertaal en real-time processing framework ambiëren. Deze tutorial is bedoeld om de lezers comfortabel te maken in het aan de slag gaan met PySpark samen met de verschillende modules en submodules.

Voorwaarden

Voordat we verder gaan met de verschillende concepten die in deze tutorial worden gegeven, wordt er vanuit gegaan dat de lezers al op de hoogte zijn van wat een programmeertaal en een framework is. Daarnaast is het erg nuttig als de lezers een gedegen kennis hebben van Apache Spark, Apache Hadoop, Scala-programmeertaal, Hadoop Distributed File System (HDFS) en Python.

Advertenties

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.