Ingrijpen of niet: alignment tijdens inference sturen via probabilistische modelmenging
De brede inzet van LLM's maakt modeluitlijning noodzakelijk om nieuw getrainde modellen veilig en effectief op gebruikersinstructies te laten reageren. Van de verschillende methoden is uitlijning tijdens inferentie vaak goedkoper omdat deze alleen ingrijpt tijdens het genereren van output. Bestaande voorstellen passen richtlijnen toe uit bepaalde uitgelijnde modellen zonder de betrouwbaarheid ervan deugdelijk te beoordelen. Onze systematische evaluatie onthult echter dat dit tekortschiet.
🔗 lees originele bron