Все видео Новые видео Популярные видео Категории видео

Авто	Видео-блоги	ДТП, аварии	Для маленьких	Еда, напитки
Животные	Закон и право	Знаменитости	Игры	Искусство
Комедии	Красота, мода	Кулинария, рецепты	Люди	Мото
Музыка	Мультфильмы	Наука, технологии	Новости	Образование
Политика	Праздники	Приколы	Природа	Происшествия
Путешествия	Развлечения	Ржач	Семья	Сериалы
Спорт	Стиль жизни	ТВ передачи	Танцы	Технологии
Товары	Ужасы	Фильмы	Шоу-бизнес	Юмор

Image Captioning, VQA and Image or Text Embedding Extraction using BLIP |BLIP | Karndeep Singh

BLIP is a new VLP framework that transfers flexibly to vision-language understanding and generation tasks. BLIP effectively utilizes noisy web data by bootstrapping the captions, where a captioner generates synthetic captions and a filter removes the noisy ones. BLIP achieves state-of-the-art results on a wide range of vision-language tasks, such as image-text retrieval (+2.7% in average recall@1), image captioning (+2.8% in CIDEr), and VQA (+1.6% in VQA score). BLIP also demonstrates strong generalization ability when directly transferred to video language tasks in a zero-shot manner.

Github : https://github.com/salesforce/BLIP Notebook
Link : https://github.com/karndeepsingh/self-supervised-learning

Connect with me on :
1. LinkedIn: https://www.linkedin.com/in/karndeepsingh/
2. Telegram Group: https://telegram.me/datascienceclubachievers
3. Github: https://www.github.com/karndeepsingh

Видео Image Captioning, VQA and Image or Text Embedding Extraction using BLIP |BLIP | Karndeep Singh канала Karndeep Singh

Показать

Комментарии отсутствуют