Методы защиты кластера Hadoop в большой ML команде
Подписывайтесь на наш канал здесь и в телеграмм https://t.me/meetups_evrone, чтобы быть в курсе будущих митапов и не пропускать полезные доклады!
Полная трансляция митапа - https://www.youtube.com/watch?v=8VtDc25VshI
Мария Изофатова / Мегафон
00:00 - Введение
00:33 - Экосистема Hadoop
01:02 - План доклада
01:19 - Настройка конфигурации spark
03:22 - Мониторинг spark application через Python
05:14 - Сохранение файлов в HDFS
06:24 - Хранение файлов в HDFS
06:58 - Партиционирование
08:14 - Контроль числа файлов
09:18 - Склеиватель файлов в hdfs
10:24 - Память кластера
11:32 - Итоги
Доклад посвящен способам борьбы с уязвимостями кластера Apache Hadoop: репартиционирование (проблема мелких файлов), автоочищение таблиц на кластере, настройка конфигурации PySpark, анализ запущенных Spark application и внутреннего кода. При наличии большого количества аналитиков, которые работают с кластером, могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Описанные решения по администрированию Hadoop основаны на анализе данных Python и PySpark и могут быть использованы в команде аналитиков любого масштаба.
Видео Методы защиты кластера Hadoop в большой ML команде канала Evrone Development
Полная трансляция митапа - https://www.youtube.com/watch?v=8VtDc25VshI
Мария Изофатова / Мегафон
00:00 - Введение
00:33 - Экосистема Hadoop
01:02 - План доклада
01:19 - Настройка конфигурации spark
03:22 - Мониторинг spark application через Python
05:14 - Сохранение файлов в HDFS
06:24 - Хранение файлов в HDFS
06:58 - Партиционирование
08:14 - Контроль числа файлов
09:18 - Склеиватель файлов в hdfs
10:24 - Память кластера
11:32 - Итоги
Доклад посвящен способам борьбы с уязвимостями кластера Apache Hadoop: репартиционирование (проблема мелких файлов), автоочищение таблиц на кластере, настройка конфигурации PySpark, анализ запущенных Spark application и внутреннего кода. При наличии большого количества аналитиков, которые работают с кластером, могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Описанные решения по администрированию Hadoop основаны на анализе данных Python и PySpark и могут быть использованы в команде аналитиков любого масштаба.
Видео Методы защиты кластера Hadoop в большой ML команде канала Evrone Development
python evrone meetup уязвимости кластера hadoop Уязвимость в Apache Hadoop Конфигурирование SparkSession pyspark hadoop Monitor Apache Spark applications Spark metrics REST API отладка и диагностики приложений Анализ данных с Apache Spark администрирование Hadoop PySpark Анализ данных Spark фреймворк Spark
Комментарии отсутствуют
Информация о видео
3 июля 2023 г. 15:53:36
00:12:26
Другие видео канала