Apache Spark è scritto in linguaggio di programmazione Scala. Per supportare Python con Spark, la comunità Apache Spark ha rilasciato uno strumento, PySpark. Utilizzando PySpark, è possibile lavorare con RDD anche in linguaggio di programmazione Python. È grazie ad una libreria chiamata Py4j che sono in grado di ottenere questo risultato. Questo è un tutorial introduttivo, che copre le basi dei Data-Driven Documents e spiega come affrontare i suoi vari componenti e sottocomponenti.
Questo tutorial è preparato per quei professionisti che aspirano a fare carriera nel linguaggio di programmazione e nel framework di elaborazione in tempo reale. Questo tutorial ha lo scopo di mettere i lettori a proprio agio nell’iniziare con PySpark insieme ai suoi vari moduli e sottomoduli.
Prequisiti
Prima di procedere con i vari concetti dati in questo tutorial, si presume che i lettori siano già a conoscenza di cosa sia un linguaggio di programmazione e un framework. Oltre a questo, sarà molto utile, se i lettori hanno una solida conoscenza di Apache Spark, Apache Hadoop, il linguaggio di programmazione Scala, Hadoop Distributed File System (HDFS) e Python.