Mechanistische analyse van alignment-algoritmes in taalmodellen

onderzoek 📅 2026-06-10

Een systematische mechanistische analyse van zes voorkeurs-optimalisatiemethoden — PPO, DPO, SimPO, ORPO, GRPO en KTO — over drie open-weight modelfamilies. Met behulp van laagsgewijze lineaire probing, Sparse Autoencoders en crosscoders lokaliseren de onderzoekers voorkeursrepresentaties en kwantificeren ze alignment-geïnduceerde veranderingen, in plaats van uitlijning alleen als black box te evalueren.

🔗 lees originele bron