#aiengineering #ai #chatgpt

في هذا الفيديو من سلسلة "مقدمة هندسة الذكاء الاصطناعي" هنتعرف على إزاي نماذج الذكاء الاصطناعي الحديثة بتفهم الفيديوهات والحركة والزمن.

بعد ما فهمنا في الحلقات السابقة:
• الـ Tokens
• الـ Context
• والـ Visual Tokens

دلوقتي هنفهم:
• يعني إيه Frame في الفيديو
• إيه هو FPS
• إزاي الـ AI بيحول الفيديو لـ Visual Tokens
• مفهوم Temporal Context أو "السياق الزمني"
• إزاي الـ Multimodal Models بتفهم الحركة والأحداث
• وليه فهم الفيديو محتاج Compute وموارد ضخمة

هنتكلم كمان عن:
Foundation Models
Joint Embeddings
Natural Language Supervision
وإزاي النماذج الحديثة زي Gemini وGPT-4V بتتعامل مع الفيديوهات.

━━━━━━━━━━━━━━━

📚 المصادر:

• كتاب:
AI Engineering
للمؤلفة:
Chip Huyen

• مفاهيم وتقنيات مرتبطة بـ:
Multimodal Models
Temporal Context
Visual Tokens
Embeddings
CLIP
Foundation Models
Video Understanding

#AI #MultimodalAI #ComputerVision #VideoAI #LLM #AIEngineering #Embeddings #FoundationModels #GPT4V
#AI #MultimodalAI #ComputerVision #VideoAI #LLM #AIEngineering #Embeddings #FoundationModels #GPT4V

#AI #MultimodalAI #ComputerVision #VideoAI #LLM #AIEngineering #Embeddings #FoundationModels #GPT4V

Видео #aiengineering #ai #chatgpt канала نادر كمال || Nader Kamal

Комментарии отсутствуют