Загрузка...

Netflix Cassandra:wide partition 怎麼拆

Netflix TechBlog 介紹 TimeSeries 在 Cassandra 拆 wide partition 的機制。

文章來源:
https://medium.com/netflix-techblog/dynamically-splitting-wide-partitions-in-cassandra-for-time-series-workloads-0eded064f456
網址顯示備用:
medium.com/
netflix-techblog
dynamically-splitting-wide-
partitions-in-cassandra-for-
time-series-
workloads-0eded064f456

這支影片用繁體中文介紹 Netflix TechBlog 的〈Dynamic Repartitioning for Time Series Workloads〉。Netflix TimeSeries Abstraction 用 Apache Cassandra 4.x 儲存和查詢 petabytes 等級的時間事件資料,但少數 TimeSeries IDs 會長成 wide partitions,讓尾端延遲從毫秒跳到秒級,進而造成 timeout、GC pause、高 CPU 和 thread queueing。

影片會先用白話說明 Cassandra partition、wide partition、Time Slice、time bucket、event bucket,再拆 Netflix 的兩層解法:Time Slice Re-Partitioning 用 Cassandra histograms 調整未來 Time Slices;per-ID Dynamic Partitioning 則在 read path 偵測 wide partitions,透過 Kafka、wide_row metadata、checksum validation、Bloom filter、read-through cache 和 parallel read/merge,透明地把讀取導到多個較小 partition。

原始標題:
Dynamic Repartitioning for Time Series Workloads

學習重點:
- wide partition 為什麼會把 Cassandra TimeSeries tail latency 從毫秒推到秒級。
- Time Slice、time bucket、event bucket 如何先降低 partition 變寬的機率。
- table-level Time Slice Re-Partitioning 適合多數資料一起需要調整,不適合少數 outlier IDs。
- per-ID Dynamic Partitioning 如何用 read-path detection、Kafka、planner、splitter 和 wide_row metadata 接成 async pipeline。
- checksum、Bloom filter、read-through cache、Data Bridge/Spark verification、phased rollout 和 fallback storage 如何保護讀取正確性與可用性。

Видео Netflix Cassandra:wide partition 怎麼拆 канала TodayShip
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять