Spark

『初めてのSpark』を読み始めた (5)

アクション アクションの例. データの全体, 一部をドライバプログラムに返すもの collect(): RDD の内容全体を通常のコレクションとしてドライバに返す count(): RDD の要素数を返す countByValue(): RDD の各要素の要素数を返す take(num): RDD の先頭から …

『初めてのSpark』を読み始めた (4)

変換の例. 基本的な変換 map(): 関数を RDD の各要素に適用した新しい RDD を返す filter(): 関数が真になる要素のみを含む RDD を返す distinct(): 重複する要素を取り除く. ネットワーク上ですべてのデータをシャッフルするため, コストのかかる処理である…

『初めてのSpark』を読み始めた (3)

RDD(Resilient Distributed Dataset)について. RDD(Resilient Distributed Dataset) イミュータブルな分散された要素のコレクション 複数のパーティションに分割されていて, それぞれに対する演算処理がクラスタの各ノード上で行われる 下記の 2 種類の方法…

『初めてのSpark』を読み始めた (2)

次はスタンドアローンアプリケーションの構築. 下記の GitHub リポジトリで色々練習する予定. https://github.com/qwerqwer1111/spark-example 作業内容 SBT のビルドファイルに dependency を追加. libraryDependencies ++= Seq( "org.apache.spark" %% "sp…

『初めてのSpark』を読み始めた

とりあえず, ローカルの開発環境構築から. 環境 OS X El Capitan 10.11.3 作業内容 Mac だと, Homebrew でもインストールできた. $ brew install apache-spark spark-shell を動かしてみる. $ spark-shell ... scala> val lines = sc.textFile("/usr/local/C…