Загрузка страницы

Как разбить русский текст на токены | Обработка естественного языка

Библиотеки для токенизации текста на Python

00:00 - Токенизация теста
01:56 - Токенизация с NLTK
03:03 - Токенизация с TensorFlow
05:44 - Токенизация со spaCy

Ссылка на нойтбук из видео – https://colab.research.google.com/drive/1tJktKYeLcgGAhEw6fB-keO1QsI3-49Y4?usp=sharing

Библиотеки для токенизации текста:
- Natural Language Toolkit (NLTK) – https://www.nltk.org/
- TensorFlow Text – https://www.tensorflow.org/text/guide/tokenizers
- spaCy – https://spacy.io

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing – https://aclanthology.org/D18-2012/

Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"

вКонтакте - https://vk.com/avsozykin
telegram - https://t.me/a_sozykin
Мой сайт - https://www.asozykin.ru

Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - http://www.youtube.com/c/AndreySozykinCS

Видео Как разбить русский текст на токены | Обработка естественного языка канала Andrey Sozykin
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
18 мая 2022 г. 20:52:32
00:06:50
Другие видео канала
Векторизация русского текста на Python | Обработка естественного языкаВекторизация русского текста на Python | Обработка естественного языка20 тысяч подписчиков на канале | Новости канала20 тысяч подписчиков на канале | Новости каналаВебинар Искусство генеративного дизайна | Фестиваль RuCodeВебинар Искусство генеративного дизайна | Фестиваль RuCodeHTTP в Wireshark | Компьютерные сети 2024 - 13HTTP в Wireshark | Компьютерные сети 2024 - 13Графематический анализ | Обработка естественного языкаГрафематический анализ | Обработка естественного языкаПродвинутые сети и проекты по Deep Learning | Новости каналаПродвинутые сети и проекты по Deep Learning | Новости каналаКлассификация текста | Обработка естественного языкаКлассификация текста | Обработка естественного языкаWord embeddings для векторизации текста | Обработка естественного языкаWord embeddings для векторизации текста | Обработка естественного языкаНужны ли вам тексты видеолекций ? | Новости каналаНужны ли вам тексты видеолекций ? | Новости каналаЦелостность данных в TLS/SSL | Защищенные сетевые протоколыЦелостность данных в TLS/SSL | Защищенные сетевые протоколыАнализируем отзывы YELP сетью LSTM | Нейросети для анализа текстовАнализируем отзывы YELP сетью LSTM | Нейросети для анализа текстовПредварительная обработка текста | Обработка естественного языкаПредварительная обработка текста | Обработка естественного языкаАнализируем тональность YELP сверточной нейросетью | Нейросети для анализа текстовАнализируем тональность YELP сверточной нейросетью | Нейросети для анализа текстовЧто внутри пайплайна обработки текста? | Обработка естественного языкаЧто внутри пайплайна обработки текста? | Обработка естественного языкаРазвертываем Streamlit приложение на платформе Heroku | Инженерия искусственного интеллектаРазвертываем Streamlit приложение на платформе Heroku | Инженерия искусственного интеллектаПредварительно обученные word embeddings | Обработка естественного языкаПредварительно обученные word embeddings | Обработка естественного языкаКурс компьютерные сети на платформе Ulearn | Новости каналаКурс компьютерные сети на платформе Ulearn | Новости каналаОблако Streamlit | Инженерия искусственного интеллектаОблако Streamlit | Инженерия искусственного интеллектаНовый онлайн курс по нейросетям | Новости каналаНовый онлайн курс по нейросетям | Новости каналаСеминар "Обработка данных микроскопии методами глубокого обучения" | Исследования в ИТСеминар "Обработка данных микроскопии методами глубокого обучения" | Исследования в ИТКэширование в HTTP | Компьютерные сети 2024 - 12Кэширование в HTTP | Компьютерные сети 2024 - 12
Яндекс.Метрика