(-> % read write unlearn)

My writings on this area are my own delusion

『Spark Casual Talk #1』参加メモ

http://connpass.com/event/15575/ に参加してメモしたこと。メモ追いつかなくて間違ってる部分も多そうです。 メインの発表は2つに、LTがいくつかでした。LTもかなり高度な内容が多くてスピードについていけなかったです。

Spark Summit 2015 参加報告

@potix2 さん

Apache Spark 基礎

Sparkとは、計算結果をメモリにキャッシュするので、従来のMRに比べて 繰り返し計算 が得意。

エコシステム
環境
  • Yarnのほうが使われている。
  • Mesosはあまり使われていない印象。
  • 1.4からDockerで動くようにサポートされた。

バージョン

最新は 1.4。1.3 で Data Frame API というのがリリース。重要。

全体感

  • データ分析に関わる内容・ケースが多かった。
    • baidu は 8000ノード の Spark サーバ環境を構築している。
  • Javaエンタープライズ的な雰囲気より、アカデミックな雰囲気。

セッション

  • Tungsten: Preparing Spark for Next 5 year
    • CPU効率を上げることで、実行速度を上げる
    • Javaのメモリ管理を捨てて自前でやる。
    • Data Frame API の抽象化レイヤーを経てTungstenで最適されて、各々の実行環境で動く。 → JVMだけでなく、LLVMやその他・・・

まとめ

ユーザ企業が増え続ける中、性能改善へのニーズが増してきている。

質問

  • MLlibは、現在は Data Frame API ではなく RDD のほうを使っている。将来的には変わっていく。
  • サイバーエージェントでは、それぞれのチームで独立してカジュアルにSparkを使っている。

メキメキ開発の進む Apache Sparkのいまとこれから Spark開発の最前線

猿田 浩輔さん(Apache Spark開発者/NTTデータ)さん

  • Hadoopとは計算モデルが違う。
  • RDD: 部分故障に耐性をもった分散コレクション。
クラスタマネージャ
Pipeline API (MLlib)
Data Frame API
  • テーブル上のデータ構造。従来SchemaSQLと呼ばれていたが名前を変えた。
  • SQLやHiveQLが発行できる?。

1.4の新機能

  • SparkR: RのインターフェイスでSparkが利用できる。
  • SparkStreamingの統計情報の可視化。
  • RDDの変換過程の可視化。
  • タイムラインの可視化。
  • Project Tungsten
    1. メモリの独自管理。メモリ利用効率の向上。 → GCの削減。HashMapの・・・
    2. キャッシュアウェアなデータ構造とアルゴリズム
    3. モダンなCPUを活用できるコードの動的生成。

メキメキ開発の進む Apache Sparkのいまとこれから 始めようSpark

土橋 昌さん(NTTデータ

これから始めるなら

  1. うまく組み合わせたい。
  2. スキーマレスデータを扱いやすいRDD
  3. 構造化されたデータを扱いやすいDataFrame
  4. ストリーム処理、統計処理、機会学習などのエコシステムを活用して高度な業務を実現。
  5. DataFrameやExternalDataSourceの機能を活用して様々なソースからデータを統合、処理。

気に留めておきたいこと。

  • 動かすだけだととても簡単にできるようになってきた。
  • インターフェイスは何を使うか: やっぱりScala版実装が最も進んでいる。Pythonも頑張っている。SQL風言語もそれなりに利用できる。

Zepperin デモ

(ここからLT。でスピード速くてほとんど何もメモできませんでした。)

LT SparkSQLの構文解析

iyunoriue さん

Project Tungsten ではクエ入り懐石の一部をパーサー・コンビネータから Runtime Code Generation に変更。 ← パーサー・コンビネータは決して早くない。

LT Spark Streaming + Amazon Kinesis

imai_factory さん

  • Amazon Kinesis
    • メッセージブローカー / ストリームサービス
    • フルマネージドなKafkaなイメージ。

LT

kazk1018 さん

ML Pipeline

記述的に機械学習処理が書ける。

(ここから、LTをメモするのを完全に諦めました。)

ありがとうございました。