Загрузка страницы

Денис Ефаров — Hadoop 3: Erasure coding catastrophe

Ближайшая конференция — SmartData 2024, 4 сентября (online), 8–9 сентября, (Москва + трансляция).
Подробности и билеты: https://jrg.su/KFFBS7
— —
Представьте себе картину: ваши HDFS кластера близятся по объему к 100 Pb, вы каждый год заказываете машин на десяток петабайт, заводите их, месяцами балансируете и повторяете эту процедуру раз за разом. Затем выходит Hadoop 3, который обещает экономию места в два раза при тех же гарантиях — хочется немедленно применить это. Но вы опытны, не бросаетесь в latest сразу, дожидаетесь версии 3.1+, тестируете, последовательно выкатываете, еще раз тестируете. Но через полгода начинаете наблюдать за тем, как ваши данные превращаются в тыкву и далеко не только в полночь. Представляете себе исчезновение 100 Pb данных? Это очень больно!

Команда прошла практически по краю этой пропасти и многое узнала. Этот доклад о находках и ошибках, новом опыте при работе с Hadoop и о том, как можно избежать подобных ситуаций.

Аудитория: инженеры и разработчики в BigData, использующие экосистему Hadoop или планирующие на нее переходить.

Скачать презентацию: https://assets.ctfassets.net/oxjq45e8ilak/3vPN1K82TYTSaEqpXMpMt7/6332940cb1f21efc6cd7cb3bf88dbd6d/Hadoop_3-_Erasure_Coding_Catastrophe.pdf

Видео Денис Ефаров — Hadoop 3: Erasure coding catastrophe канала SmartData
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
27 июня 2022 г. 17:39:18
01:00:51
Другие видео канала
Andy Pavlo — Lessons learned from using machine learning to optimize database configurationsAndy Pavlo — Lessons learned from using machine learning to optimize database configurationsВиктор Кесслер — Dremio SQL Lakehouse: Быстрые данные для всехВиктор Кесслер — Dremio SQL Lakehouse: Быстрые данные для всехНиколай Марков — Низкий уровень работы с даннымиНиколай Марков — Низкий уровень работы с даннымиJeff Zhang — Flink + Zeppelin: Streaming data analytics platformJeff Zhang — Flink + Zeppelin: Streaming data analytics platformАлександр Крашенинников — Hadoop high availability: опыт BadooАлександр Крашенинников — Hadoop high availability: опыт BadooСаттар Гюльмамедов, Максим Мартынов — Эволюция ETL-инструментов на примере отдельно взятой Big DataСаттар Гюльмамедов, Максим Мартынов — Эволюция ETL-инструментов на примере отдельно взятой Big DataДмитрий Бугайченко — Stateful streaming: Кейсы, паттерны, реализацииДмитрий Бугайченко — Stateful streaming: Кейсы, паттерны, реализацииБронислав Житников — NiFi-скрипты как элемент Less Code ETLБронислав Житников — NiFi-скрипты как элемент Less Code ETLSmartDataCoffeeSmartDataCoffeeКсения Томак, Максим Стаценко, Андрей Терехов — Разговор в телевизореКсения Томак, Максим Стаценко, Андрей Терехов — Разговор в телевизореВиталий Худобахшов — Имя — это фичаВиталий Худобахшов — Имя — это фичаОльга Татаринова, Алексей Махоткин — Как моделирование данных повышает качество работы аналитиковОльга Татаринова, Алексей Махоткин — Как моделирование данных повышает качество работы аналитиковВикторина «Наша игра»Викторина «Наша игра»Павел Якунин — Безопасные интерактивные большие данные в банке: Business intelligence на ClickhouseПавел Якунин — Безопасные интерактивные большие данные в банке: Business intelligence на ClickhouseАлексей Потапов — Глубокое обучение, вероятностное программирование и метавычисленияАлексей Потапов — Глубокое обучение, вероятностное программирование и метавычисленияJacek Laskowski — Apache Spark as an in-memory-only data processing engine?Jacek Laskowski — Apache Spark as an in-memory-only data processing engine?Артур Хачуян — Построение кросс-ID для веб-аналитикиАртур Хачуян — Построение кросс-ID для веб-аналитикиВладимир Озеров — Как устроено выполнение SQL-запросов в Presto/TrinoВладимир Озеров — Как устроено выполнение SQL-запросов в Presto/TrinoМихаил Марюфич — Надежные и масштабируемые пайплайны в OKМихаил Марюфич — Надежные и масштабируемые пайплайны в OKЕвгений Ненахов (MTC Digital) — Организация потоковой обработки данных для Big DataЕвгений Ненахов (MTC Digital) — Организация потоковой обработки данных для Big Data
Яндекс.Метрика