Policy regret bij embedding-modelroutering: contextuele bandits met laag-dimensionale experts
Moderne aanbevelingssystemen vertrouwen steeds vaker op het dynamisch routeren van uiteenlopende queries naar meerdere embeddingmodellen. Ondanks het praktische belang blijft dit probleem slecht begrepen onder realistische omstandigheden zoals adversariële queries, bandit-feedback en beperkte observeerbaarheid van modellen. We formaliseren embeddingmodelroutering als een adversariële contextuele lineaire bandit met laag-dimensionale experts, waarbij contexten queries zijn, acties items zijn.
🔗 lees originele bron