PySpark Tutorial

PySpark Tutorial

Apache Spark este scris în limbajul de programare Scala. Pentru a sprijini Python cu Spark, comunitatea Apache Spark a lansat un instrument, PySpark. Folosind PySpark, puteți lucra cu RDD-uri și în limbajul de programare Python. Acest lucru se datorează unei biblioteci numite Py4j, care le permite să realizeze acest lucru. Acesta este un tutorial introductiv, care acoperă elementele de bază ale Data-Driven Documents și explică cum să se ocupe de diferitele sale componente și subcomponente.

Acest tutorial este pregătit pentru acei profesioniști care aspiră să facă o carieră în limbajul de programare și în cadrul de procesare în timp real. Acest tutorial este menit să îi facă pe cititori să se simtă confortabil în a se familiariza cu PySpark împreună cu diversele sale module și submodule.

Precondiții

Înainte de a continua cu diversele concepte prezentate în acest tutorial, se presupune că cititorii sunt deja conștienți de ceea ce este un limbaj de programare și un framework. În plus, va fi foarte util, dacă cititorii au cunoștințe solide despre Apache Spark, Apache Hadoop, limbajul de programare Scala, Hadoop Distributed File System (HDFS) și Python.

Anunțuri

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.