STREAM: Multi-Tier LLM Inference Middleware — Demo

Demo of STREAM (Smart Tiered Routing Engine for AI Models) routing queries across local (Ollama), campus HPC (Lakeshore via Globus Compute), and cloud (Claude Sonnet 4) tiers with real-time token streaming.

PEARC '26 paper: "STREAM: Multi-Tier LLM Inference Middleware with Dual-Channel HPC Token Streaming"
University of Illinois Chicago

Видео STREAM: Multi-Tier LLM Inference Middleware — Demo канала Research Work

Комментарии отсутствуют

Информация о видео

5 мая 2026 г. 21:07:52

00:02:17

Research Work

Правообладателям

Жалоба на материал Недопустимый материал Нарушение авторских прав

Комментарии

Другие видео канала