データストリーミング・アプリケーションを設計する際に1つか2つのストリームを扱うことは簡単です。 拡張性と高スループット、耐障害性を提供するものならばどんなストリーミング・フレームワークでも使えるでしょう。
しかし、もしストリームの数が数百や数千にのぼるとき、それらを正しく扱うのは困難な作業です。 どうやって数千ものストリーム間でリソースを共有し、それらを24時間休むことなく走らせ続け、状態を管理し、 高度なストリーミング処理を施し、そしてシステムの再起動をすることなくストリームを追加・削除するのでしょう?
このトークでは数千ものストリームを扱う際によくおこる問題をSpark Structured Streamingをつかってどう解決するかを紹介します。
票中 票投票済み