Загрузка страницы

[#14] Donut 🍩 OCR-free Document Understanding Transformer

Hoy vamos a ver un nuevo modelo para entender documentos (recibos, formularios, etc.) y extraer información de ellos sin necesitar de un paso previo con OCR. Hace muy pocos días el código y los modelos se hicieron open-source y ya se implementó dentro de Hugging Face para hacer su uso mas sencillo. Todo esto es gratuito y, por ahora, el estado del arte.

Contenido
00:00 - Qué es “Document Understanding”?
04:33 - Paper de “Donut: OCR-free Document Understanding Transformer”
09:54 - Implementación en Hugging Face
11:48 - Notebooks y demo
16:45 - Conclusiones

Algunos links mencionados durante el video:
💻 Layout Parser: https://layout-parser.github.io/
📝 Paper “OCR-free Document Understanding Transformer”: https://arxiv.org/pdf/2111.15664.pdf
💻 Repo de GitHub: https://github.com/clovaai/donut
🤗 Implementación de Donut en Hugging Face: https://huggingface.co/docs/transformers/main/en/model_doc/donut

🧉 No te olvides de suscribirte al canal para recibir notificaciones de nuevos videos 🧉

#python #huggingface #donut #ocr

Видео [#14] Donut 🍩 OCR-free Document Understanding Transformer канала machinelearnear
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
13 августа 2022 г. 17:27:00
00:18:02
Другие видео канала
[#44] Petals: Corré modelos de +100B parametros (GPT/BLOOM-176B) en tu casa, estilo BitTorrent[#44] Petals: Corré modelos de +100B parametros (GPT/BLOOM-176B) en tu casa, estilo BitTorrent[#12] Me dieron acceso a DALLE-2, te muestro como funciona, y vemos lo último en arte generativo[#12] Me dieron acceso a DALLE-2, te muestro como funciona, y vemos lo último en arte generativo[#26] Tutorial: Videos de música generados por AI (Video Killed the Radio Star … Diffusion)[#26] Tutorial: Videos de música generados por AI (Video Killed the Radio Star … Diffusion)[#48] Curso LLM-RLHF (2/n) - Habilidades emergentes de GPT-3.5 explicado por un Data Scientist[#48] Curso LLM-RLHF (2/n) - Habilidades emergentes de GPT-3.5 explicado por un Data Scientist[#35] PRIMICIA! Demo en vivo de AlexaTM 20B con Amazon SageMaker JumpStart (Mejor que GPT-3)[#35] PRIMICIA! Demo en vivo de AlexaTM 20B con Amazon SageMaker JumpStart (Mejor que GPT-3)[#01] Introducción a Amazon SageMaker Studio Lab, una alternativa gratuita a Google Colab  (+ Repo)[#01] Introducción a Amazon SageMaker Studio Lab, una alternativa gratuita a Google Colab (+ Repo)[#33] AltDiffusion-m9: Generá imágenes en Español y en otros 8 idiomas![#33] AltDiffusion-m9: Generá imágenes en Español y en otros 8 idiomas![#31] Google acaba de mejorar Stable Diffusion (Tutorial de Prompt-to-Prompt)[#31] Google acaba de mejorar Stable Diffusion (Tutorial de Prompt-to-Prompt)[#52] "Metele una barba a Saitama" (InstructPix2Pix e ImageMixer)[#52] "Metele una barba a Saitama" (InstructPix2Pix e ImageMixer)[#38] Paint by Example 🎨: Resultados impresionantes en edición de imágen guiado por ejemplos (+Demo)[#38] Paint by Example 🎨: Resultados impresionantes en edición de imágen guiado por ejemplos (+Demo)[#05] SAHI+DETIC: Detectá Objetos a Gran Escala en Minutos[#05] SAHI+DETIC: Detectá Objetos a Gran Escala en Minutos[#63] WhisperX: Cómo poner subtítulos fácilmente a tus videos de YouTube en varios idiomas gratis[#63] WhisperX: Cómo poner subtítulos fácilmente a tus videos de YouTube en varios idiomas gratis[#103] Stability AI memberships: buena o mala idea de negocios?[#103] Stability AI memberships: buena o mala idea de negocios?[#11] Como hacer tu propia solución de dictado automático de informes médicos (+ repo)[#11] Como hacer tu propia solución de dictado automático de informes médicos (+ repo)[#13] Open Source vs GPT-3 / Review & Demo de BLOOM-176B & OPT-175B[#13] Open Source vs GPT-3 / Review & Demo de BLOOM-176B & OPT-175B[#66] OpenPlayground: La plataforma para probar -GRATIS- GPT-4 y otros LLMs de gigantes tecnológicos[#66] OpenPlayground: La plataforma para probar -GRATIS- GPT-4 y otros LLMs de gigantes tecnológicos🎨 IDEOGRAM v1.0, el mejor generador de texto en imagenes gratuito!🎨 IDEOGRAM v1.0, el mejor generador de texto en imagenes gratuito![#57] Microsoft 1, Google 0: Un error de $100 billones de dólares[#57] Microsoft 1, Google 0: Un error de $100 billones de dólares[#50] Curso LLM-RLHF (4/n) - In-Context Learning & Gradient Descent explicado por un Data Scientist[#50] Curso LLM-RLHF (4/n) - In-Context Learning & Gradient Descent explicado por un Data Scientist[#69] NeRF y el futuro de la edición 3D guiada por texto: ¡Explorá Instruct-NeRF2NeRF![#69] NeRF y el futuro de la edición 3D guiada por texto: ¡Explorá Instruct-NeRF2NeRF![#32] 🧉🤖 +1,000 suscriptores! SD 1.5+VAE | Flan-T5 | Text-to-Music | Transformers x DeepMind[#32] 🧉🤖 +1,000 suscriptores! SD 1.5+VAE | Flan-T5 | Text-to-Music | Transformers x DeepMind
Яндекс.Метрика