Загрузка страницы

Итоги 2018 года в data science

В этом видео я рассказываю о главных достижениях в data science в 2018 году.

Во что вошло в мой шортлист:
1. bigGan - сеть для синтеза реалистичных изображений.
- Статья на медиум: https://medium.com/syncedreview/biggan-a-new-state-of-the-art-in-image-synthesis-cf2ec5694024
- Научная публикация на arXiv: https://arxiv.org/pdf/1809.11096.pdf
- Код на github: https://github.com/AaronLeong/BigGAN-pytorch

Кому интересно просто разобраться в генеративно-состязательных сетях - хорошая статья на хабре:
https://habr.com/company/ods/blog/322514/

2. ELMo - репрезентации слов, выученные в глубоких сетях.
- Статья https://allennlp.org/elmo
- Инструкция по использованию на github https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md
(в видео я говорил о них как о верхнеуровневых репрезентациях, что верно лишь отчасти, с другой стороны мне хотелось упомянуть про это и другие решения, не уходя в детали)

3. UMLFit - верхнеуровневые репрезентации текстов, подходящии для использования в любом проекте.
- статья на ArXiv https://arxiv.org/pdf/1801.06146.pdf
- руководство по использованию UMLFit https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/

4. BERT - тоже предобученные репрезентации текстов
- статья https://arxiv.org/pdf/1810.04805.pdf
- исходный код https://github.com/google-research/bert

5. PyTorch - самая популярная бибилиотека глубокого обучения 2018 года. На ее сайте https://pytorch.org можно найти и примеры кода и инструкции по установке и использованию

6. Keras - няшный простой фреймворк для глубокого обучения, работающий поверх tensorflow. Код на Keras, в отличии от tensorflow выглядит вполне по человечески. Туториалы, инструкции и примеры тоже можно найти на их сайте https://keras.io

7. Tensoflow hub - коллекция предобученных моделей, которые можно использовать в ваших проектах. Уже содержит в себе и NasNet и ELMo. Можно посмотреть подробности на его страничке https://www.tensorflow.org/hub/
А вот, например, туториал, как брать с него ELMo и использовать в Keras:
https://towardsdatascience.com/elmo-embeddings-in-keras-with-tensorflow-hub-7eb6f0145440

8. tensorflow.js - библиотека для запуска глубоких моделей в браузере. На сайте https://js.tensorflow.org выложены и примеры и обучающий материал по использованию

9. PyText - фреймворк для быстрого прототипирования решений NLP задач.
- Исходный код опубликован как водится на гитхабе: https://github.com/facebookresearch/pytext
- Самоучитель по использованию: https://towardsdatascience.com/introducing-pytext-d8f404f1745

10. DeepPavlov - похожий инструмент, разработанный в ФизТехе командой Михаила Бурцева. Специализируется на чатботах. Хорош тем, что разработчики, русские, им всегда можно написать, задать свой вопрос, если вы что то не понимаете. Сайт проекта https://deeppavlov.ai

11. AutoML - проект google по машинному обучению без дата саентистов с автоматическим подбором моделей, параметров и тд. Скоро нас всех заменят роботы )))
Сайт проекта: https://cloud.google.com/automl/
=====
А вот просто интересные факты, упомянутые в этой статье

- челлендж по определению окончаний слов на основе здравого смысла
https://arxiv.org/pdf/1808.05326.pdf

- танец робота Boston Dynamics
https://www.youtube.com/watch?v=kHBcVlqpvZ8

- кому интересно подробнее узнать о европейских законах о защите данных: https://en.wikipedia.org/wiki/General_Data_Protection_Regulation

Видео Итоги 2018 года в data science канала Pavel Mezentsev
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
6 января 2019 г. 13:47:26
00:07:20
Яндекс.Метрика