Apache Spark は Scala 言語で書かれているプログラミング言語で、Scalab と呼ばれます。 SparkでPythonをサポートするために、Apache Sparkコミュニティは、PySparkというツールをリリースしました。 PySparkを使用すると、Pythonプログラミング言語でもRDDを操作することができます。 これは、Py4jというライブラリのおかげです。
このチュートリアルは、プログラミング言語とリアルタイム処理フレームワークでキャリアを積もうとする専門家のために作成されました。
このチュートリアルは、読者がさまざまなモジュールやサブモジュールとともに PySpark を快適に使い始められるようにすることを目的としています。
前提条件
このチュートリアルで与えられるさまざまな概念を進める前に、読者がプログラミング言語とフレームワークとは何かについてすでに認識していることを前提としています。 これに加えて、読者が Apache Spark、Apache Hadoop、Scala プログラミング言語、Hadoop 分散ファイルシステム (HDFS) および Python の健全な知識を持っていれば、非常に役立つでしょう。
広告
td