- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Probing LLM Fine-Tuning via Sparse Autoencoders
In this AI Research Roundup episode, Alex discusses the paper: 'A Mechanistic Investigation of Supervised Fine Tuning' This research investigates why Supervised Fine-Tuning significantly changes LLM behavior despite high cosine similarity in hidden activations. The authors introduce a diagnostic pipeline using pretrained Sparse Autoencoders to identify hidden representational shifts. Their analysis reveals that while raw activations appear similar, the underlying sparse latents diverge in task-specific and layer-specific ways. The study identifies precise semantic features that are systematically altered during the fine-tuning process. Additionally, the researchers discover a unique layer-wise update profile specifically associated with safety alignment. Paper URL: https://arxiv.org/pdf/2605.11426 #AI #MachineLearning #DeepLearning #LLM #SparseAutoencoders #FineTuning #Interpretability #SFT
Resources:
- GitHub: https://github.com/ruhzi/sae-investigation
Видео Probing LLM Fine-Tuning via Sparse Autoencoders канала AI Research Roundup
Resources:
- GitHub: https://github.com/ruhzi/sae-investigation
Видео Probing LLM Fine-Tuning via Sparse Autoencoders канала AI Research Roundup
Комментарии отсутствуют
Информация о видео
Вчера, 3:21:44
00:05:05
Другие видео канала




















