Загрузка страницы

Эффективная обработка больших данных компании на базе Amazon Web Serices (Сербул А., 1С-Битрикс)

Мы долго и разными способами выстраивали процесс очистки, предобработки и сохранения больших данных для работы аналитической службы, пока не открыли для себя эффективный, ясный и недорогой стек технологий в Amazon Web Services, удобный в разных сценариях. В начале расскажем о наших интенсивных экспериментах с ClickHouse/PowerBI/MySQL, плюсах и минусах подхода. Затем поговорим, как мы начали хранить сырые данные в Amazon S3 и почему их предобработка в формат Apache Parquet с разумным шардированием так кардинально повлияла на возможности аналитиков и других подразделений компании и так сильно удешивила работу с bigdata. Остановится на типах сжатия больших данных и тонкостях их многопоточной обработки и сделаем правильные выводы. Расскажем, почему нам так нравится предобработка и фильтрация данных в Amazon Glue (на базе Apache Spark) и почему мы так активно используем Amazon Athena (на базе Presto) в связке с аналогом Apache Hive для SQL-выборок из нашего Data Lake в s3. Технологий для работы с большими данными немало, но выбрать эффективный и лаконичный, быстрый и недорогой стек - непростая задача, но, как мы считаем, у нас получилось и мы с удовольствием поделимся опытом!
Выступление прошло в зале Тютина и входило в трек Infrastructure (Dev)
Слайды: https://bit.ly/2SP8WKv

Видео Эффективная обработка больших данных компании на базе Amazon Web Serices (Сербул А., 1С-Битрикс) канала GDG Rostov-on-Don
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
8 февраля 2021 г. 16:34:20
00:46:20
Другие видео канала
Почему хорошие разработчики не делают хороший UX (Юлия Тертерян, Oggetto)Почему хорошие разработчики не делают хороший UX (Юлия Тертерян, Oggetto)South DevFest 2017South DevFest 2017Аудит зрелости DevOps в компании (Александр Серпичев, Accenture)Аудит зрелости DevOps в компании (Александр Серпичев, Accenture)South DevFest 2016South DevFest 2016GDG Rostov Firebase meetupGDG Rostov Firebase meetupDeveloper Experience (DX): Разработчики — тоже люди. GraphQL (Алексей Родионов, Mercury Development)Developer Experience (DX): Разработчики — тоже люди. GraphQL (Алексей Родионов, Mercury Development)Отлавливаем баги в коде и в рабочем процессе (Лена Гурова, UseTech)Отлавливаем баги в коде и в рабочем процессе (Лена Гурова, UseTech)Мониторинг микросервисных приложений, взгляд SRE (Евгений Потапов, ITSumma)Мониторинг микросервисных приложений, взгляд SRE (Евгений Потапов, ITSumma)IWD RostovIWD RostovЭлина Рассказова, Капча - зло! Что такое цифровая доступность и почему это важноЭлина Рассказова, Капча - зло! Что такое цифровая доступность и почему это важноGDG DevFest Rostov 2016. Евгений Кубеш - Angular 2GDG DevFest Rostov 2016. Евгений Кубеш - Angular 2Cloud Next ExtendedCloud Next ExtendedКак сдружить приложение c Google Chromecast и прочими медиа-ресиверами (Константин Куликов, Revolut)Как сдружить приложение c Google Chromecast и прочими медиа-ресиверами (Константин Куликов, Revolut)Чем нам полезен Ruby в 2020 году (Григорий Петров, Evrone)Чем нам полезен Ruby в 2020 году (Григорий Петров, Evrone)Рациональное мышление (Антон Назаров, Zerion)Рациональное мышление (Антон Назаров, Zerion)WebRTC конференции. Интересные и сложные места (Игорь Шеко, Voximplant)WebRTC конференции. Интересные и сложные места (Игорь Шеко, Voximplant)Анастасия Остапенко, Основы хранилищ данных. Путь данных от источников до отчетовАнастасия Остапенко, Основы хранилищ данных. Путь данных от источников до отчетовFlutter. Заглядываем внутрь (Александр Денисов, EPAM)Flutter. Заглядываем внутрь (Александр Денисов, EPAM)Как в SwiftUI сделать UDF и Elm/Redux архитектуру (Геннадий Евстратов, Яндекс.Деньги)Как в SwiftUI сделать UDF и Elm/Redux архитектуру (Геннадий Евстратов, Яндекс.Деньги)Самый практичный доклад (Дмитрий Пацура, Podcastly)Самый практичный доклад (Дмитрий Пацура, Podcastly)
Яндекс.Метрика