Efficiënte on-device diffusie-LLM-inferentie met mobiele NPU
Diffusion large language models (dLLMs) versnellen tekstgeneratie door meerdere tokens parallel te denoisen, wat ze aantrekkelijk maakt voor latentiegevoelige mobiele inferentie. Herhaald denoisen brengt echter aanzienlijke rekenlast met zich mee op smartphones. Mobiele neural processing units (NPU's) bieden hoge-doorvoer dense matrix-berekeningen, maar efficiënt gebruik ervan blijft uitdagend: token commitment verkleint de effectieve werklast per blok, token revis
🔗 lees originele bron