PySpark チュートリアル

PySpark チュートリアル

Apache Spark は Scala 言語で書かれているプログラミング言語で、Scalab と呼ばれます。 SparkでPythonをサポートするために、Apache Sparkコミュニティは、PySparkというツールをリリースしました。 PySparkを使用すると、Pythonプログラミング言語でもRDDを操作することができます。 これは、Py4jというライブラリのおかげです。

このチュートリアルは、プログラミング言語とリアルタイム処理フレームワークでキャリアを積もうとする専門家のために作成されました。

このチュートリアルは、読者がさまざまなモジュールやサブモジュールとともに PySpark を快適に使い始められるようにすることを目的としています。

前提条件

このチュートリアルで与えられるさまざまな概念を進める前に、読者がプログラミング言語とフレームワークとは何かについてすでに認識していることを前提としています。 これに加えて、読者が Apache Spark、Apache Hadoop、Scala プログラミング言語、Hadoop 分散ファイルシステム (HDFS) および Python の健全な知識を持っていれば、非常に役立つでしょう。

広告

td

コメントを残す

メールアドレスが公開されることはありません。