Загрузка...

Методы защиты кластера Hadoop в большой ML команде

Подписывайтесь на наш канал здесь и в телеграмм https://t.me/meetups_evrone, чтобы быть в курсе будущих митапов и не пропускать полезные доклады!

Полная трансляция митапа - https://www.youtube.com/watch?v=8VtDc25VshI

Мария Изофатова / Мегафон

00:00 - Введение
00:33 - Экосистема Hadoop
01:02 - План доклада
01:19 - Настройка конфигурации spark
03:22 - Мониторинг spark application через Python
05:14 - Сохранение файлов в HDFS
06:24 - Хранение файлов в HDFS
06:58 - Партиционирование
08:14 - Контроль числа файлов
09:18 - Склеиватель файлов в hdfs
10:24 - Память кластера
11:32 - Итоги

Доклад посвящен способам борьбы с уязвимостями кластера Apache Hadoop: репартиционирование (проблема мелких файлов), автоочищение таблиц на кластере, настройка конфигурации PySpark, анализ запущенных Spark application и внутреннего кода. При наличии большого количества аналитиков, которые работают с кластером, могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Описанные решения по администрированию Hadoop основаны на анализе данных Python и PySpark и могут быть использованы в команде аналитиков любого масштаба.

Видео Методы защиты кластера Hadoop в большой ML команде канала Evrone Development
Страницу в закладки Мои закладки
Все заметки Новая заметка Страницу в заметки