下载zotero
https://www.makeuseof.com/what-is-the-biglittle-architecture/
Llumnix: Dynamic Scheduling for Large Language Model ServingGPU memory管理中的主要挑战
(1)博弈:Load balancing vs De-fragmentation
多个内存条的负载均衡vs防止内存空间碎片化而导致的任务无法插入
Load balancing的原因:我不太清楚,猜测是平均使用硬件设备,使得设备寿命平均(?)
De-fragmentation的原因:内存空间碎片化会导致Worse queuing delays(first-token latencies)如图所示,任务无法插入,产生排队延迟,A large space on one instance is needed。
packing与spreading是一定程度上相矛盾的操作,所以需要在二者的博弈中寻找更优解。
(2)Differentiated SLOs
Existing systems treat al ...