PySpark Tutorial

PySpark Tutorial

Apache Spark é escrito em linguagem de programação Scala. Para suportar Python com Spark, a comunidade Apache Spark lançou uma ferramenta, PySpark. Usando o PySpark, você também pode trabalhar com RDDs na linguagem de programação Python. É por causa de uma biblioteca chamada Py4j que eles são capazes de alcançar isso. Este é um tutorial introdutório, que cobre os conceitos básicos dos Documentos Guiados por Dados e explica como lidar com seus vários componentes e subcomponentes.

Este tutorial está preparado para aqueles profissionais que estão aspirando a fazer uma carreira em linguagem de programação e framework de processamento em tempo real. Este tutorial tem como objetivo fazer com que os leitores se sintam confortáveis em começar a utilizar o PySpark juntamente com seus vários módulos e submódulos.

Prerequisites

Antes de prosseguir com os vários conceitos dados neste tutorial, está sendo assumido que os leitores já estão cientes do que é uma linguagem de programação e um framework. Além disso, será muito útil, se os leitores tiverem um bom conhecimento do Apache Spark, Apache Hadoop, Scala Programming Language, Hadoop Distributed File System (HDFS) e Python.

Advertisements

Deixe uma resposta

O seu endereço de email não será publicado.