Эффективная обработка больших данных компании на базе Amazon Web Serices (Сербул А., 1С-Битрикс)
Мы долго и разными способами выстраивали процесс очистки, предобработки и сохранения больших данных для работы аналитической службы, пока не открыли для себя эффективный, ясный и недорогой стек технологий в Amazon Web Services, удобный в разных сценариях. В начале расскажем о наших интенсивных экспериментах с ClickHouse/PowerBI/MySQL, плюсах и минусах подхода. Затем поговорим, как мы начали хранить сырые данные в Amazon S3 и почему их предобработка в формат Apache Parquet с разумным шардированием так кардинально повлияла на возможности аналитиков и других подразделений компании и так сильно удешивила работу с bigdata. Остановится на типах сжатия больших данных и тонкостях их многопоточной обработки и сделаем правильные выводы. Расскажем, почему нам так нравится предобработка и фильтрация данных в Amazon Glue (на базе Apache Spark) и почему мы так активно используем Amazon Athena (на базе Presto) в связке с аналогом Apache Hive для SQL-выборок из нашего Data Lake в s3. Технологий для работы с большими данными немало, но выбрать эффективный и лаконичный, быстрый и недорогой стек - непростая задача, но, как мы считаем, у нас получилось и мы с удовольствием поделимся опытом!
Выступление прошло в зале Тютина и входило в трек Infrastructure (Dev)
Слайды: https://bit.ly/2SP8WKv
Видео Эффективная обработка больших данных компании на базе Amazon Web Serices (Сербул А., 1С-Битрикс) канала GDG Rostov-on-Don
Выступление прошло в зале Тютина и входило в трек Infrastructure (Dev)
Слайды: https://bit.ly/2SP8WKv
Видео Эффективная обработка больших данных компании на базе Amazon Web Serices (Сербул А., 1С-Битрикс) канала GDG Rostov-on-Don
Показать
Комментарии отсутствуют
Информация о видео
Другие видео канала
![Почему хорошие разработчики не делают хороший UX (Юлия Тертерян, Oggetto)](https://i.ytimg.com/vi/KEeahVSoL5c/default.jpg)
![South DevFest 2017](https://i.ytimg.com/vi/p9JjzaeeYv0/default.jpg)
![Аудит зрелости DevOps в компании (Александр Серпичев, Accenture)](https://i.ytimg.com/vi/clDyEOm77qQ/default.jpg)
![South DevFest 2016](https://i.ytimg.com/vi/bxKmO5EjSJE/default.jpg)
![GDG Rostov Firebase meetup](https://i.ytimg.com/vi/6iw7tcv99ek/default.jpg)
![Developer Experience (DX): Разработчики — тоже люди. GraphQL (Алексей Родионов, Mercury Development)](https://i.ytimg.com/vi/m9DHmTowLvI/default.jpg)
![Отлавливаем баги в коде и в рабочем процессе (Лена Гурова, UseTech)](https://i.ytimg.com/vi/p6e2GW2xfAo/default.jpg)
![Мониторинг микросервисных приложений, взгляд SRE (Евгений Потапов, ITSumma)](https://i.ytimg.com/vi/ceIXtp-xCBc/default.jpg)
![IWD Rostov](https://i.ytimg.com/vi/Pq45g65AXxg/default.jpg)
![Элина Рассказова, Капча - зло! Что такое цифровая доступность и почему это важно](https://i.ytimg.com/vi/D2K0j6UweyY/default.jpg)
![GDG DevFest Rostov 2016. Евгений Кубеш - Angular 2](https://i.ytimg.com/vi/XAimivZbmjU/default.jpg)
![Cloud Next Extended](https://i.ytimg.com/vi/YFZPjId5Hk8/default.jpg)
![Как сдружить приложение c Google Chromecast и прочими медиа-ресиверами (Константин Куликов, Revolut)](https://i.ytimg.com/vi/XwDI4LloKV8/default.jpg)
![Чем нам полезен Ruby в 2020 году (Григорий Петров, Evrone)](https://i.ytimg.com/vi/PgOkxWd5PoI/default.jpg)
![Рациональное мышление (Антон Назаров, Zerion)](https://i.ytimg.com/vi/uYaCHDkGeVI/default.jpg)
![WebRTC конференции. Интересные и сложные места (Игорь Шеко, Voximplant)](https://i.ytimg.com/vi/EouVG6fW4xM/default.jpg)
![Анастасия Остапенко, Основы хранилищ данных. Путь данных от источников до отчетов](https://i.ytimg.com/vi/RqBZZ8CeyU0/default.jpg)
![Flutter. Заглядываем внутрь (Александр Денисов, EPAM)](https://i.ytimg.com/vi/vZwCSmTZF1c/default.jpg)
![Как в SwiftUI сделать UDF и Elm/Redux архитектуру (Геннадий Евстратов, Яндекс.Деньги)](https://i.ytimg.com/vi/wXhTf92Nosg/default.jpg)
![Самый практичный доклад (Дмитрий Пацура, Podcastly)](https://i.ytimg.com/vi/QTSreWAI_rg/default.jpg)