Apache Spark está escrito en el lenguaje de programación Scala. Para dar soporte a Python con Spark, la comunidad de Apache Spark lanzó una herramienta, PySpark. Usando PySpark, puedes trabajar con RDDs en el lenguaje de programación Python también. Esto se consigue gracias a una librería llamada Py4j. Este es un tutorial introductorio, que cubre los fundamentos de los Documentos Dirigidos por Datos y explica cómo tratar con sus diversos componentes y subcomponentes.
Este tutorial está preparado para aquellos profesionales que aspiran a hacer una carrera en el lenguaje de programación y el marco de procesamiento en tiempo real. Este tutorial pretende que los lectores se sientan cómodos al empezar a utilizar PySpark junto con sus diversos módulos y submódulos.
Requisitos previos
Antes de proceder con los diversos conceptos dados en este tutorial, se está asumiendo que los lectores ya conocen lo que es un lenguaje de programación y un framework. Además de esto, será muy útil, si los lectores tienen un sólido conocimiento de Apache Spark, Apache Hadoop, Lenguaje de Programación Scala, Sistema de Archivos Distribuidos Hadoop (HDFS) y Python.