Загрузка...

LLM 추론 속도 2배? SpecEE가 조기 종료를 쓰는 법 SpecEE Accelerating Large Language Model Inference

오늘 소개드릴 논문은 SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting입니다.
이 논문은 LLM이 토큰을 생성할 때 매번 모든 레이어를 끝까지 통과하지 말고, “충분히 답이 보이는 순간” 조기 종료해서 추론 속도를 높이자는 논문입니다. LLM 서빙, 추론 최적화, speculative decoding, 비용 절감에 관심 있는 분들이 보면 좋습니다.

기존 early exiting은 중간 레이어에서 “지금 종료해도 되는가”를 판단하는 predictor를 붙입니다. 문제는 이 predictor도 전체 vocabulary를 대상으로 탐색해야 해서, Llama2처럼 vocabulary가 약 3만 개면 predictor 자체가 꽤 무거워진다는 점입니다. 논문은 이 overhead가 전체 추론 지연의 약 20%까지 갈 수 있다고 지적합니다.

SpecEE의 핵심은 speculative model이 미리 제안한 후보 토큰을 이용해 predictor의 탐색 공간을 확 줄이는 것입니다. 전체 vocabulary를 보는 대신, speculative token 후보 몇 개만 보고 “이 토큰이면 여기서 멈춰도 된다”를 판단합니다. 여기에 가벼운 predictor 설계, 모든 레이어에 predictor를 붙이지 않는 2단계 스케줄링, speculative decoding의 token tree를 효율적으로 합치는 merged mapping을 더합니다.

실험적으로는 Llama2-7B 기준 cloud 환경에서 2.25배, PC 환경에서 2.43배 속도 향상을 보고합니다. 또한 HuggingFace, llama.cpp, AWQ 같은 기존 추론/양자화 프레임워크와 결합 가능한 형태로 구현되어 있습니다.

정리하면 SpecEE는 “큰 모델을 더 작게 만들자”보다 “큰 모델을 매번 끝까지 쓰지 말자”에 가까운 접근입니다. 오늘날 LLM 추론 최적화가 quantization, KV cache, speculative decoding 중심으로 발전해왔다면, SpecEE는 여기에 early exiting을 실용적으로 붙이는 방향을 보여줍니다. 특히 서빙 비용과 응답 속도가 중요한 실제 배포 환경에서 꽤 중요한 아이디어가 될 수 있습니다.

Видео LLM 추론 속도 2배? SpecEE가 조기 종료를 쓰는 법 SpecEE Accelerating Large Language Model Inference канала 딥러닝논문읽기모임
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять