Загрузка...

MARBLE: Multi-Aspect Reward Balance for Diffusion RL

🧠 MARBLE proposes a multi-reward optimization framework for RL fine-tuning of diffusion models.
🧠 Instead of using a naive weighted-sum reward, it harmonizes reward-specific gradients in gradient space.
🧠 The method maintains independent advantage estimators and policy gradients for each reward, then solves for a unified update direction.
🧠 Experiments on SD3.5 Medium show simultaneous improvements across five reward dimensions with near-baseline training speed.

#MARBLE #DiffusionRL #ReinforcementLearning #DiffusionModel #RewardOptimization #GenerativeAI #AIResearch

Видео MARBLE: Multi-Aspect Reward Balance for Diffusion RL канала CosmoX
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять