[#14] Donut 🍩 OCR-free Document Understanding Transformer
Hoy vamos a ver un nuevo modelo para entender documentos (recibos, formularios, etc.) y extraer información de ellos sin necesitar de un paso previo con OCR. Hace muy pocos días el código y los modelos se hicieron open-source y ya se implementó dentro de Hugging Face para hacer su uso mas sencillo. Todo esto es gratuito y, por ahora, el estado del arte.
Contenido
00:00 - Qué es “Document Understanding”?
04:33 - Paper de “Donut: OCR-free Document Understanding Transformer”
09:54 - Implementación en Hugging Face
11:48 - Notebooks y demo
16:45 - Conclusiones
Algunos links mencionados durante el video:
💻 Layout Parser: https://layout-parser.github.io/
📝 Paper “OCR-free Document Understanding Transformer”: https://arxiv.org/pdf/2111.15664.pdf
💻 Repo de GitHub: https://github.com/clovaai/donut
🤗 Implementación de Donut en Hugging Face: https://huggingface.co/docs/transformers/main/en/model_doc/donut
🧉 No te olvides de suscribirte al canal para recibir notificaciones de nuevos videos 🧉
#python #huggingface #donut #ocr
Видео [#14] Donut 🍩 OCR-free Document Understanding Transformer канала machinelearnear
Contenido
00:00 - Qué es “Document Understanding”?
04:33 - Paper de “Donut: OCR-free Document Understanding Transformer”
09:54 - Implementación en Hugging Face
11:48 - Notebooks y demo
16:45 - Conclusiones
Algunos links mencionados durante el video:
💻 Layout Parser: https://layout-parser.github.io/
📝 Paper “OCR-free Document Understanding Transformer”: https://arxiv.org/pdf/2111.15664.pdf
💻 Repo de GitHub: https://github.com/clovaai/donut
🤗 Implementación de Donut en Hugging Face: https://huggingface.co/docs/transformers/main/en/model_doc/donut
🧉 No te olvides de suscribirte al canal para recibir notificaciones de nuevos videos 🧉
#python #huggingface #donut #ocr
Видео [#14] Donut 🍩 OCR-free Document Understanding Transformer канала machinelearnear
Показать
Комментарии отсутствуют
Информация о видео
Другие видео канала
![[#44] Petals: Corré modelos de +100B parametros (GPT/BLOOM-176B) en tu casa, estilo BitTorrent](https://i.ytimg.com/vi/mf21HbO13is/default.jpg)
![[#12] Me dieron acceso a DALLE-2, te muestro como funciona, y vemos lo último en arte generativo](https://i.ytimg.com/vi/XIY-Ey08HHM/default.jpg)
![[#26] Tutorial: Videos de música generados por AI (Video Killed the Radio Star … Diffusion)](https://i.ytimg.com/vi/gRZsmvhoLOA/default.jpg)
![[#48] Curso LLM-RLHF (2/n) - Habilidades emergentes de GPT-3.5 explicado por un Data Scientist](https://i.ytimg.com/vi/TYFy0wZpJuY/default.jpg)
![[#35] PRIMICIA! Demo en vivo de AlexaTM 20B con Amazon SageMaker JumpStart (Mejor que GPT-3)](https://i.ytimg.com/vi/Li-F3zb2P_c/default.jpg)
![[#01] Introducción a Amazon SageMaker Studio Lab, una alternativa gratuita a Google Colab (+ Repo)](https://i.ytimg.com/vi/FUEIwAsrMP4/default.jpg)
![[#33] AltDiffusion-m9: Generá imágenes en Español y en otros 8 idiomas!](https://i.ytimg.com/vi/Cbrbv8SyzJQ/default.jpg)
![[#31] Google acaba de mejorar Stable Diffusion (Tutorial de Prompt-to-Prompt)](https://i.ytimg.com/vi/Nzwy_e8F3q0/default.jpg)
![[#52] "Metele una barba a Saitama" (InstructPix2Pix e ImageMixer)](https://i.ytimg.com/vi/K99VrCnutZI/default.jpg)
![[#38] Paint by Example 🎨: Resultados impresionantes en edición de imágen guiado por ejemplos (+Demo)](https://i.ytimg.com/vi/v4qWOXr89ZA/default.jpg)
![[#05] SAHI+DETIC: Detectá Objetos a Gran Escala en Minutos](https://i.ytimg.com/vi/r-QGxuMMWfA/default.jpg)
![[#63] WhisperX: Cómo poner subtítulos fácilmente a tus videos de YouTube en varios idiomas gratis](https://i.ytimg.com/vi/x4mbZKyW2hk/default.jpg)
![[#103] Stability AI memberships: buena o mala idea de negocios?](https://i.ytimg.com/vi/3UngpBfWF2M/default.jpg)
![[#11] Como hacer tu propia solución de dictado automático de informes médicos (+ repo)](https://i.ytimg.com/vi/_0KGck2JU0w/default.jpg)
![[#13] Open Source vs GPT-3 / Review & Demo de BLOOM-176B & OPT-175B](https://i.ytimg.com/vi/KZ551N9g99A/default.jpg)
![[#66] OpenPlayground: La plataforma para probar -GRATIS- GPT-4 y otros LLMs de gigantes tecnológicos](https://i.ytimg.com/vi/tUkJWNGnqJ4/default.jpg)
![🎨 IDEOGRAM v1.0, el mejor generador de texto en imagenes gratuito!](https://i.ytimg.com/vi/PRFaucTBh3k/default.jpg)
![[#57] Microsoft 1, Google 0: Un error de $100 billones de dólares](https://i.ytimg.com/vi/GTQnuAKIQEk/default.jpg)
![[#50] Curso LLM-RLHF (4/n) - In-Context Learning & Gradient Descent explicado por un Data Scientist](https://i.ytimg.com/vi/TMYpH8wsGFU/default.jpg)
![[#69] NeRF y el futuro de la edición 3D guiada por texto: ¡Explorá Instruct-NeRF2NeRF!](https://i.ytimg.com/vi/LqTlsTyPLUo/default.jpg)
![[#32] 🧉🤖 +1,000 suscriptores! SD 1.5+VAE | Flan-T5 | Text-to-Music | Transformers x DeepMind](https://i.ytimg.com/vi/bNE7UZI4cI4/default.jpg)