Sparkは「並列分散処理のフレームワーク」ですが、その題目で、興味はあるものの、使うには敷居が高いと思っている方はいないでしょうか。 ですが、言ってしまうとSparkはローカルマシンでの実行から、大規模クラスタでの実行まで両方のモードで実行できるデータ処理のツールです。 同時に、Scala製OSSであるため、Scalaユーザであれば特に利用に障壁を感じることはありません。 そのため、ローカルマシンでのお手軽な実行からScalaでデータ処理を構築することが出来ますし、文字列や数値型などの構造化されたデータの処理からストリーム処理まで扱うこともできます。 本セッションでは、ストリーム処理を構造化データとして簡易に記述可能なSparkの新機能Spark Structured Streamingを用いて、お手軽にストリーム処理を構築する方法を実例を交えて説明します。
票中 票投票済み