Авто	Видео-блоги	ДТП, аварии	Для маленьких	Еда, напитки
Животные	Закон и право	Знаменитости	Игры	Искусство
Комедии	Красота, мода	Кулинария, рецепты	Люди	Мото
Музыка	Мультфильмы	Наука, технологии	Новости	Образование
Политика	Праздники	Приколы	Природа	Происшествия
Путешествия	Развлечения	Ржач	Семья	Сериалы
Спорт	Стиль жизни	ТВ передачи	Танцы	Технологии
Товары	Ужасы	Фильмы	Шоу-бизнес	Юмор

Методы защиты кластера Hadoop в большой ML команде

Подписывайтесь на наш канал здесь и в телеграмм https://t.me/meetups_evrone, чтобы быть в курсе будущих митапов и не пропускать полезные доклады!

Полная трансляция митапа - https://www.youtube.com/watch?v=8VtDc25VshI

Мария Изофатова / Мегафон

00:00 - Введение
00:33 - Экосистема Hadoop
01:02 - План доклада
01:19 - Настройка конфигурации spark
03:22 - Мониторинг spark application через Python
05:14 - Сохранение файлов в HDFS
06:24 - Хранение файлов в HDFS
06:58 - Партиционирование
08:14 - Контроль числа файлов
09:18 - Склеиватель файлов в hdfs
10:24 - Память кластера
11:32 - Итоги

Доклад посвящен способам борьбы с уязвимостями кластера Apache Hadoop: репартиционирование (проблема мелких файлов), автоочищение таблиц на кластере, настройка конфигурации PySpark, анализ запущенных Spark application и внутреннего кода. При наличии большого количества аналитиков, которые работают с кластером, могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Описанные решения по администрированию Hadoop основаны на анализе данных Python и PySpark и могут быть использованы в команде аналитиков любого масштаба.

Видео Методы защиты кластера Hadoop в большой ML команде канала Evrone Development