Все видео Новые видео Популярные видео Категории видео

Авто	Видео-блоги	ДТП, аварии	Для маленьких	Еда, напитки
Животные	Закон и право	Знаменитости	Игры	Искусство
Комедии	Красота, мода	Кулинария, рецепты	Люди	Мото
Музыка	Мультфильмы	Наука, технологии	Новости	Образование
Политика	Праздники	Приколы	Природа	Происшествия
Путешествия	Развлечения	Ржач	Семья	Сериалы
Спорт	Стиль жизни	ТВ передачи	Танцы	Технологии
Товары	Ужасы	Фильмы	Шоу-бизнес	Юмор

Итоги 2018 года в data science

В этом видео я рассказываю о главных достижениях в data science в 2018 году.

Во что вошло в мой шортлист:
1. bigGan - сеть для синтеза реалистичных изображений.
- Статья на медиум: https://medium.com/syncedreview/biggan-a-new-state-of-the-art-in-image-synthesis-cf2ec5694024
- Научная публикация на arXiv: https://arxiv.org/pdf/1809.11096.pdf
- Код на github: https://github.com/AaronLeong/BigGAN-pytorch

Кому интересно просто разобраться в генеративно-состязательных сетях - хорошая статья на хабре:
https://habr.com/company/ods/blog/322514/

2. ELMo - репрезентации слов, выученные в глубоких сетях.
- Статья https://allennlp.org/elmo
- Инструкция по использованию на github https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md
(в видео я говорил о них как о верхнеуровневых репрезентациях, что верно лишь отчасти, с другой стороны мне хотелось упомянуть про это и другие решения, не уходя в детали)

3. UMLFit - верхнеуровневые репрезентации текстов, подходящии для использования в любом проекте.
- статья на ArXiv https://arxiv.org/pdf/1801.06146.pdf
- руководство по использованию UMLFit https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/

4. BERT - тоже предобученные репрезентации текстов
- статья https://arxiv.org/pdf/1810.04805.pdf
- исходный код https://github.com/google-research/bert

5. PyTorch - самая популярная бибилиотека глубокого обучения 2018 года. На ее сайте https://pytorch.org можно найти и примеры кода и инструкции по установке и использованию

6. Keras - няшный простой фреймворк для глубокого обучения, работающий поверх tensorflow. Код на Keras, в отличии от tensorflow выглядит вполне по человечески. Туториалы, инструкции и примеры тоже можно найти на их сайте https://keras.io

7. Tensoflow hub - коллекция предобученных моделей, которые можно использовать в ваших проектах. Уже содержит в себе и NasNet и ELMo. Можно посмотреть подробности на его страничке https://www.tensorflow.org/hub/
А вот, например, туториал, как брать с него ELMo и использовать в Keras:
https://towardsdatascience.com/elmo-embeddings-in-keras-with-tensorflow-hub-7eb6f0145440

8. tensorflow.js - библиотека для запуска глубоких моделей в браузере. На сайте https://js.tensorflow.org выложены и примеры и обучающий материал по использованию

9. PyText - фреймворк для быстрого прототипирования решений NLP задач.
- Исходный код опубликован как водится на гитхабе: https://github.com/facebookresearch/pytext
- Самоучитель по использованию: https://towardsdatascience.com/introducing-pytext-d8f404f1745

10. DeepPavlov - похожий инструмент, разработанный в ФизТехе командой Михаила Бурцева. Специализируется на чатботах. Хорош тем, что разработчики, русские, им всегда можно написать, задать свой вопрос, если вы что то не понимаете. Сайт проекта https://deeppavlov.ai

11. AutoML - проект google по машинному обучению без дата саентистов с автоматическим подбором моделей, параметров и тд. Скоро нас всех заменят роботы )))
Сайт проекта: https://cloud.google.com/automl/
=====
А вот просто интересные факты, упомянутые в этой статье

- челлендж по определению окончаний слов на основе здравого смысла
https://arxiv.org/pdf/1808.05326.pdf

- танец робота Boston Dynamics
https://www.youtube.com/watch?v=kHBcVlqpvZ8

- кому интересно подробнее узнать о европейских законах о защите данных: https://en.wikipedia.org/wiki/General_Data_Protection_Regulation

Видео Итоги 2018 года в data science канала Pavel Mezentsev

Показать

Комментарии отсутствуют