[Paper Review] How Much Knowledge Can You Pack Into the Parameters of a Language Model?
발표자: 석사과정 윤훈상
1. Topic
본 논문은 QA 시스템의 일반적인 구조인 Retriever-Reader 구조 대신 언어모델을 통해 QA Task를 수행한 논문으로서, 언어모델이 World Knowledge를 담고 있는 지를 판단하는 실험들을 진행한 연구입니다.
언어 모델은 T5를 활용했으며, 실험을 통해 2 Stage로 진행하는 기존 QA와 유사하거나 높은 QA 성능을 달성하였습니다. 이는 Context를 통해 답을 도출하는 Open-Book QA와 별도로 Closed-Book QA의 가능성을 보였으며, 언어 모델 자체의 지식 창고로서의 역할도 파악하였습니다.
2. 참고 문헌: https://arxiv.org/pdf/2002.08910.pdf
Видео [Paper Review] How Much Knowledge Can You Pack Into the Parameters of a Language Model? канала 서울대학교 산업공학과 DSBA 연구실
1. Topic
본 논문은 QA 시스템의 일반적인 구조인 Retriever-Reader 구조 대신 언어모델을 통해 QA Task를 수행한 논문으로서, 언어모델이 World Knowledge를 담고 있는 지를 판단하는 실험들을 진행한 연구입니다.
언어 모델은 T5를 활용했으며, 실험을 통해 2 Stage로 진행하는 기존 QA와 유사하거나 높은 QA 성능을 달성하였습니다. 이는 Context를 통해 답을 도출하는 Open-Book QA와 별도로 Closed-Book QA의 가능성을 보였으며, 언어 모델 자체의 지식 창고로서의 역할도 파악하였습니다.
2. 참고 문헌: https://arxiv.org/pdf/2002.08910.pdf
Видео [Paper Review] How Much Knowledge Can You Pack Into the Parameters of a Language Model? канала 서울대학교 산업공학과 DSBA 연구실
Показать
Комментарии отсутствуют
Информация о видео
Другие видео канала
[Paper Review] Towards better understanding of self supervised representations02-4: Kernel based Learning - SVR[Paper Review] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain..[Paper Review] Various Methods to develop Verbalizer in Prompt-based Learning (KPT, WARP)[Paper Review] C2-CRS: Coarse-to-Fine Contrastive Learning for CRS[Paper Review] DualPrompt: Complementary Prompting for Rehearsal-free Continual Learning[DSBA] CS224n 2021 Study | #10 Transformers and Pretraining11-4 Abstractive Summarization (생성 요약)01-6: Dimensionality Reduction - ISOMAP & LLE[Paper Review]ON CONCEPT-BASED EXPLANATIONS IN DEEP NEURAL NETWORKS[Paper Review] Open Source LMs[CS231n] 2. Image Classification pipeline - 서덕성02-2: Kernel-based Learning - SVM (Linear Case with Hard Margin)02-1: R OverviewNeural Network-based Extractive Summarization (Neural Network 기반 추출 요약)[Paper Review] Masked Image Modeling[Paper Review] WinCLIP: Zero-/few-shot anomaly classification and segmentation.[Paper Review] USAD: UnSupervised Anomaly Detection on Multivariate Time Series[Paper Review] LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation[Paper Review] DeepTIMe: Deep Time-Index Meta-Learning for Non-Stationary Time-Series