Как разбить русский текст на токены | Обработка естественного языка
Библиотеки для токенизации текста на Python
00:00 - Токенизация теста
01:56 - Токенизация с NLTK
03:03 - Токенизация с TensorFlow
05:44 - Токенизация со spaCy
Ссылка на нойтбук из видео – https://colab.research.google.com/drive/1tJktKYeLcgGAhEw6fB-keO1QsI3-49Y4?usp=sharing
Библиотеки для токенизации текста:
- Natural Language Toolkit (NLTK) – https://www.nltk.org/
- TensorFlow Text – https://www.tensorflow.org/text/guide/tokenizers
- spaCy – https://spacy.io
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing – https://aclanthology.org/D18-2012/
Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"
вКонтакте - https://vk.com/avsozykin
telegram - https://t.me/a_sozykin
Мой сайт - https://www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - http://www.youtube.com/c/AndreySozykinCS
Видео Как разбить русский текст на токены | Обработка естественного языка канала Andrey Sozykin
00:00 - Токенизация теста
01:56 - Токенизация с NLTK
03:03 - Токенизация с TensorFlow
05:44 - Токенизация со spaCy
Ссылка на нойтбук из видео – https://colab.research.google.com/drive/1tJktKYeLcgGAhEw6fB-keO1QsI3-49Y4?usp=sharing
Библиотеки для токенизации текста:
- Natural Language Toolkit (NLTK) – https://www.nltk.org/
- TensorFlow Text – https://www.tensorflow.org/text/guide/tokenizers
- spaCy – https://spacy.io
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing – https://aclanthology.org/D18-2012/
Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"
вКонтакте - https://vk.com/avsozykin
telegram - https://t.me/a_sozykin
Мой сайт - https://www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - http://www.youtube.com/c/AndreySozykinCS
Видео Как разбить русский текст на токены | Обработка естественного языка канала Andrey Sozykin
Показать
Комментарии отсутствуют
Информация о видео
Другие видео канала
Векторизация русского текста на Python | Обработка естественного языка20 тысяч подписчиков на канале | Новости каналаВебинар Искусство генеративного дизайна | Фестиваль RuCodeHTTP в Wireshark | Компьютерные сети 2024 - 13Графематический анализ | Обработка естественного языкаПродвинутые сети и проекты по Deep Learning | Новости каналаКлассификация текста | Обработка естественного языкаWord embeddings для векторизации текста | Обработка естественного языкаНужны ли вам тексты видеолекций ? | Новости каналаЦелостность данных в TLS/SSL | Защищенные сетевые протоколыАнализируем отзывы YELP сетью LSTM | Нейросети для анализа текстовПредварительная обработка текста | Обработка естественного языкаАнализируем тональность YELP сверточной нейросетью | Нейросети для анализа текстовЧто внутри пайплайна обработки текста? | Обработка естественного языкаРазвертываем Streamlit приложение на платформе Heroku | Инженерия искусственного интеллектаПредварительно обученные word embeddings | Обработка естественного языкаКурс компьютерные сети на платформе Ulearn | Новости каналаОблако Streamlit | Инженерия искусственного интеллектаНовый онлайн курс по нейросетям | Новости каналаСеминар "Обработка данных микроскопии методами глубокого обучения" | Исследования в ИТКэширование в HTTP | Компьютерные сети 2024 - 12