http://connpass.com/event/15575/ に参加してメモしたこと。メモ追いつかなくて間違ってる部分も多そうです。 メインの発表は2つに、LTがいくつかでした。LTもかなり高度な内容が多くてスピードについていけなかったです。
Spark Summit 2015 参加報告
@potix2 さん
Apache Spark 基礎
Sparkとは、計算結果をメモリにキャッシュするので、従来のMRに比べて 繰り返し計算 が得意。
エコシステム
環境
- Yarnのほうが使われている。
- Mesosはあまり使われていない印象。
- 1.4からDockerで動くようにサポートされた。
バージョン
最新は 1.4。1.3 で Data Frame API というのがリリース。重要。
全体感
セッション
- Tungsten: Preparing Spark for Next 5 year
まとめ
ユーザ企業が増え続ける中、性能改善へのニーズが増してきている。
質問
- MLlibは、現在は Data Frame API ではなく RDD のほうを使っている。将来的には変わっていく。
- サイバーエージェントでは、それぞれのチームで独立してカジュアルにSparkを使っている。
メキメキ開発の進む Apache Sparkのいまとこれから Spark開発の最前線
猿田 浩輔さん(Apache Spark開発者/NTTデータ)さん
クラスタマネージャ
Pipeline API (MLlib)
Data Frame API
- テーブル上のデータ構造。従来SchemaSQLと呼ばれていたが名前を変えた。
- SQLやHiveQLが発行できる?。
1.4の新機能
メキメキ開発の進む Apache Sparkのいまとこれから 始めようSpark
土橋 昌さん(NTTデータ)
これから始めるなら
- うまく組み合わせたい。
- スキーマレスデータを扱いやすいRDD
- 構造化されたデータを扱いやすいDataFrame
- ストリーム処理、統計処理、機会学習などのエコシステムを活用して高度な業務を実現。
- DataFrameやExternalDataSourceの機能を活用して様々なソースからデータを統合、処理。
気に留めておきたいこと。
Zepperin デモ
(ここからLT。でスピード速くてほとんど何もメモできませんでした。)
LT SparkSQLの構文解析
iyunoriue さん
Project Tungsten ではクエ入り懐石の一部をパーサー・コンビネータから Runtime Code Generation に変更。 ← パーサー・コンビネータは決して早くない。
LT Spark Streaming + Amazon Kinesis
imai_factory さん
LT
kazk1018 さん
ML Pipeline
記述的に機械学習処理が書ける。
(ここから、LTをメモするのを完全に諦めました。)
ありがとうございました。