Загрузка...

[Open DMQA Seminar] Multimodal Representation Learning

Multimodal learning은 이미지, 텍스트, 음성 등 서로 다른 유형의 데이터(modality)를 통합하여 보다 포괄적인 정보를 얻는 Deep learning 접근 방식이다. 이번 세미나에서는 이러한 Multimodal learning 중에서도 Representation learning의 최신 연구 동향을 소개하고자 한다. 첫 번째 논문은 Multimodal 데이터에 대해 Representation learning을 효과적으로 하기위해 Step correlation을 추가한 CorrMCNN을 제안하고, 두 번째 논문은 단계별 Multimodal 데이터에서 시간적 구조를 고려한 Representation Learning을 하는 새로운 방법론인 CorrRNN을 소개한다. 마지막으로, Masking 전략을 통해 MultiMAE라는 구조를 제안하여 여러 Modality와 Task를 동시에 처리하는 방법을 소개한다. 이 연구들은 컴퓨터 비전, 자연어 처리, 음성 인식 등 다양한 분야에서 복잡한 문제를 해결하기 위해 Multimodal 데이터를 효과적으로 활용하는 방법을 제시하고 있다.

[1] Bhatt, G., Jha, P., & Raman, B. (2019). Representation learning using step-based deep multi-modal autoencoders. Pattern Recognition, 95, 12-23.
[2] Yang, X., Ramesh, P., Chitta, R., Madhvanath, S., Bernal, E. A., & Luo, J. (2017). Deep multimodal representation learning from temporal data. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 5447-5455).
[3] Bachmann, R., Mizrahi, D., Atanov, A., & Zamir, A. (2022, October). Multimae: Multi-modal multi-task masked autoencoders. In European Conference on Computer Vision (pp. 348-367). Cham: Springer Nature Switzerland

Видео [Open DMQA Seminar] Multimodal Representation Learning канала ‍김성범[ 교수 / 산업경영공학부 ]
Страницу в закладки Мои закладки
Все заметки Новая заметка Страницу в заметки