PySpark Tutorial

PySpark Tutorial

Apache Spark ist in der Programmiersprache Scala geschrieben. Um Python mit Spark zu unterstützen, hat die Apache Spark-Gemeinschaft ein Tool, PySpark, veröffentlicht. Mit PySpark können Sie mit RDDs auch in der Programmiersprache Python arbeiten. Dies ist einer Bibliothek namens Py4j zu verdanken, die dies ermöglicht. Dies ist ein einführendes Tutorial, das die Grundlagen von Data-Driven Documents abdeckt und erklärt, wie man mit den verschiedenen Komponenten und Unterkomponenten umgeht.

Dieses Tutorial richtet sich an Fachleute, die eine Karriere in der Programmiersprache und im Rahmen der Echtzeitverarbeitung anstreben. Dieses Tutorial soll den Lesern den Einstieg in PySpark mit seinen verschiedenen Modulen und Untermodulen erleichtern.

Voraussetzungen

Bevor man mit den verschiedenen Konzepten in diesem Tutorial fortfährt, wird vorausgesetzt, dass die Leser bereits wissen, was eine Programmiersprache und ein Framework ist. Darüber hinaus ist es sehr hilfreich, wenn die Leser über fundierte Kenntnisse in Apache Spark, Apache Hadoop, Scala Programmiersprache, Hadoop Distributed File System (HDFS) und Python verfügen.

Werbung

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.