Итоги 2018 года в data science
В этом видео я рассказываю о главных достижениях в data science в 2018 году.
Во что вошло в мой шортлист:
1. bigGan - сеть для синтеза реалистичных изображений.
- Статья на медиум: https://medium.com/syncedreview/biggan-a-new-state-of-the-art-in-image-synthesis-cf2ec5694024
- Научная публикация на arXiv: https://arxiv.org/pdf/1809.11096.pdf
- Код на github: https://github.com/AaronLeong/BigGAN-pytorch
Кому интересно просто разобраться в генеративно-состязательных сетях - хорошая статья на хабре:
https://habr.com/company/ods/blog/322514/
2. ELMo - репрезентации слов, выученные в глубоких сетях.
- Статья https://allennlp.org/elmo
- Инструкция по использованию на github https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md
(в видео я говорил о них как о верхнеуровневых репрезентациях, что верно лишь отчасти, с другой стороны мне хотелось упомянуть про это и другие решения, не уходя в детали)
3. UMLFit - верхнеуровневые репрезентации текстов, подходящии для использования в любом проекте.
- статья на ArXiv https://arxiv.org/pdf/1801.06146.pdf
- руководство по использованию UMLFit https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/
4. BERT - тоже предобученные репрезентации текстов
- статья https://arxiv.org/pdf/1810.04805.pdf
- исходный код https://github.com/google-research/bert
5. PyTorch - самая популярная бибилиотека глубокого обучения 2018 года. На ее сайте https://pytorch.org можно найти и примеры кода и инструкции по установке и использованию
6. Keras - няшный простой фреймворк для глубокого обучения, работающий поверх tensorflow. Код на Keras, в отличии от tensorflow выглядит вполне по человечески. Туториалы, инструкции и примеры тоже можно найти на их сайте https://keras.io
7. Tensoflow hub - коллекция предобученных моделей, которые можно использовать в ваших проектах. Уже содержит в себе и NasNet и ELMo. Можно посмотреть подробности на его страничке https://www.tensorflow.org/hub/
А вот, например, туториал, как брать с него ELMo и использовать в Keras:
https://towardsdatascience.com/elmo-embeddings-in-keras-with-tensorflow-hub-7eb6f0145440
8. tensorflow.js - библиотека для запуска глубоких моделей в браузере. На сайте https://js.tensorflow.org выложены и примеры и обучающий материал по использованию
9. PyText - фреймворк для быстрого прототипирования решений NLP задач.
- Исходный код опубликован как водится на гитхабе: https://github.com/facebookresearch/pytext
- Самоучитель по использованию: https://towardsdatascience.com/introducing-pytext-d8f404f1745
10. DeepPavlov - похожий инструмент, разработанный в ФизТехе командой Михаила Бурцева. Специализируется на чатботах. Хорош тем, что разработчики, русские, им всегда можно написать, задать свой вопрос, если вы что то не понимаете. Сайт проекта https://deeppavlov.ai
11. AutoML - проект google по машинному обучению без дата саентистов с автоматическим подбором моделей, параметров и тд. Скоро нас всех заменят роботы )))
Сайт проекта: https://cloud.google.com/automl/
=====
А вот просто интересные факты, упомянутые в этой статье
- челлендж по определению окончаний слов на основе здравого смысла
https://arxiv.org/pdf/1808.05326.pdf
- танец робота Boston Dynamics
https://www.youtube.com/watch?v=kHBcVlqpvZ8
- кому интересно подробнее узнать о европейских законах о защите данных: https://en.wikipedia.org/wiki/General_Data_Protection_Regulation
Видео Итоги 2018 года в data science канала Pavel Mezentsev
Во что вошло в мой шортлист:
1. bigGan - сеть для синтеза реалистичных изображений.
- Статья на медиум: https://medium.com/syncedreview/biggan-a-new-state-of-the-art-in-image-synthesis-cf2ec5694024
- Научная публикация на arXiv: https://arxiv.org/pdf/1809.11096.pdf
- Код на github: https://github.com/AaronLeong/BigGAN-pytorch
Кому интересно просто разобраться в генеративно-состязательных сетях - хорошая статья на хабре:
https://habr.com/company/ods/blog/322514/
2. ELMo - репрезентации слов, выученные в глубоких сетях.
- Статья https://allennlp.org/elmo
- Инструкция по использованию на github https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md
(в видео я говорил о них как о верхнеуровневых репрезентациях, что верно лишь отчасти, с другой стороны мне хотелось упомянуть про это и другие решения, не уходя в детали)
3. UMLFit - верхнеуровневые репрезентации текстов, подходящии для использования в любом проекте.
- статья на ArXiv https://arxiv.org/pdf/1801.06146.pdf
- руководство по использованию UMLFit https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/
4. BERT - тоже предобученные репрезентации текстов
- статья https://arxiv.org/pdf/1810.04805.pdf
- исходный код https://github.com/google-research/bert
5. PyTorch - самая популярная бибилиотека глубокого обучения 2018 года. На ее сайте https://pytorch.org можно найти и примеры кода и инструкции по установке и использованию
6. Keras - няшный простой фреймворк для глубокого обучения, работающий поверх tensorflow. Код на Keras, в отличии от tensorflow выглядит вполне по человечески. Туториалы, инструкции и примеры тоже можно найти на их сайте https://keras.io
7. Tensoflow hub - коллекция предобученных моделей, которые можно использовать в ваших проектах. Уже содержит в себе и NasNet и ELMo. Можно посмотреть подробности на его страничке https://www.tensorflow.org/hub/
А вот, например, туториал, как брать с него ELMo и использовать в Keras:
https://towardsdatascience.com/elmo-embeddings-in-keras-with-tensorflow-hub-7eb6f0145440
8. tensorflow.js - библиотека для запуска глубоких моделей в браузере. На сайте https://js.tensorflow.org выложены и примеры и обучающий материал по использованию
9. PyText - фреймворк для быстрого прототипирования решений NLP задач.
- Исходный код опубликован как водится на гитхабе: https://github.com/facebookresearch/pytext
- Самоучитель по использованию: https://towardsdatascience.com/introducing-pytext-d8f404f1745
10. DeepPavlov - похожий инструмент, разработанный в ФизТехе командой Михаила Бурцева. Специализируется на чатботах. Хорош тем, что разработчики, русские, им всегда можно написать, задать свой вопрос, если вы что то не понимаете. Сайт проекта https://deeppavlov.ai
11. AutoML - проект google по машинному обучению без дата саентистов с автоматическим подбором моделей, параметров и тд. Скоро нас всех заменят роботы )))
Сайт проекта: https://cloud.google.com/automl/
=====
А вот просто интересные факты, упомянутые в этой статье
- челлендж по определению окончаний слов на основе здравого смысла
https://arxiv.org/pdf/1808.05326.pdf
- танец робота Boston Dynamics
https://www.youtube.com/watch?v=kHBcVlqpvZ8
- кому интересно подробнее узнать о европейских законах о защите данных: https://en.wikipedia.org/wiki/General_Data_Protection_Regulation
Видео Итоги 2018 года в data science канала Pavel Mezentsev
Показать
Комментарии отсутствуют
Информация о видео
Другие видео канала
Усадьба покровское стрешневоИщем java разработчика от 400 000р/месРассказ об авианосце Интрепид в Нью-ЙоркеNIPS. Главная конференция по нейронным сетямDataFest: где стоит бывать любому датасаентистуDataPapa в США // Big Apple, Pulsepoint, Mercedes and BanyaКак оседлать искусственный интеллект при помощи TensorFlow и такой-то материTensorFlow object detection. Как найти всех котиков на картинкеTensorflow Hub. Используем готовые нейросети в своем проектеdataPAPA - будни data scientist’a: работа, семья, спорт и отдых.Глубокое обучение с TensorFlow на GPUDataPapa в США // про ритрит, лыжи и жуткий снежный штормКак написать сверточную сеть на TensorFlow за 5 минутЛинкор АйоваКак заставить tensorflow сделать хоть что то полезноеDataPapa в США // О квартирах, тачках и манке с креветками