『Spark Casual Talk #1』参加メモ - (-> % read write unlearn)

http://connpass.com/event/15575/ に参加してメモしたこと。メモ追いつかなくて間違ってる部分も多そうです。メインの発表は２つに、LTがいくつかでした。LTもかなり高度な内容が多くてスピードについていけなかったです。

Spark Summit 2015 参加報告

@potix2 さん

Apache Spark 基礎

Sparkとは、計算結果をメモリにキャッシュするので、従来のMRに比べて 繰り返し計算 が得意。

エコシステム

Spark SQL: SQL インターフェイス
Spark Streaming: ストリーミング（リアルタイム）処理。
MLlib: 機械学習FW
GraphX: グラフデータ処理FW

環境

Yarnのほうが使われている。
Mesosはあまり使われていない印象。
1.4からDockerで動くようにサポートされた。

バージョン

最新は 1.4。1.3 で Data Frame API というのがリリース。重要。

全体感

データ分析に関わる内容・ケースが多かった。
- baidu は 8000ノード の Spark サーバ環境を構築している。
Javaのエンタープライズ的な雰囲気より、アカデミックな雰囲気。

セッション

Tungsten: Preparing Spark for Next 5 year
- CPU効率を上げることで、実行速度を上げる
- Javaのメモリ管理を捨てて自前でやる。
- Data Frame API の抽象化レイヤーを経てTungstenで最適されて、各々の実行環境で動く。 → JVMだけでなく、LLVMやその他・・・

まとめ

ユーザ企業が増え続ける中、性能改善へのニーズが増してきている。

質問

MLlibは、現在は Data Frame API ではなく RDD のほうを使っている。将来的には変わっていく。
サイバーエージェントでは、それぞれのチームで独立してカジュアルにSparkを使っている。

メキメキ開発の進む Apache Sparkのいまとこれから Spark開発の最前線

猿田浩輔さん（Apache Spark開発者／NTTデータ）さん

Hadoopとは計算モデルが違う。
RDD: 部分故障に耐性をもった分散コレクション。

クラスタマネージャ

Mesos
Yarn
Spark自前のスタンドアローンというクラスタマネージャもある。小規模ならこれでもあり。

Pipeline API (MLlib)

Data Frame API

テーブル上のデータ構造。従来SchemaSQLと呼ばれていたが名前を変えた。
SQLやHiveQLが発行できる？。

1.4の新機能

SparkR: RのインターフェイスでSparkが利用できる。
SparkStreamingの統計情報の可視化。
RDDの変換過程の可視化。
タイムラインの可視化。
Project Tungsten
1. メモリの独自管理。メモリ利用効率の向上。 → GCの削減。HashMapの・・・
2. キャッシュアウェアなデータ構造とアルゴリズム
3. モダンなCPUを活用できるコードの動的生成。

メキメキ開発の進む Apache Sparkのいまとこれから始めようSpark

土橋昌さん（NTTデータ）

これから始めるなら

うまく組み合わせたい。
スキーマレスデータを扱いやすいRDD
構造化されたデータを扱いやすいDataFrame
ストリーム処理、統計処理、機会学習などのエコシステムを活用して高度な業務を実現。
DataFrameやExternalDataSourceの機能を活用して様々なソースからデータを統合、処理。

気に留めておきたいこと。

動かすだけだととても簡単にできるようになってきた。
インターフェイスは何を使うか：やっぱりScala版実装が最も進んでいる。Pythonも頑張っている。SQL風言語もそれなりに利用できる。

Zepperin デモ

（ここからLT。でスピード速くてほとんど何もメモできませんでした。）

LT SparkSQLの構文解析

iyunoriue さん

Project Tungsten ではクエ入り懐石の一部をパーサー・コンビネータから Runtime Code Generation に変更。 ← パーサー・コンビネータは決して早くない。

LT Spark Streaming + Amazon Kinesis

imai_factory さん

Amazon Kinesis
- メッセージブローカー / ストリームサービス
- フルマネージドなKafkaなイメージ。

LT

kazk1018 さん

ML Pipeline

記述的に機械学習処理が書ける。

（ここから、LTをメモするのを完全に諦めました。）

ありがとうございました。