Mechanistische analyse van alignment-algoritmes in taalmodellen
Een systematische mechanistische analyse van zes voorkeurs-optimalisatiemethoden — PPO, DPO, SimPO, ORPO, GRPO en KTO — over drie open-weight modelfamilies. Met behulp van laagsgewijze lineaire probing, Sparse Autoencoders en crosscoders lokaliseren de onderzoekers voorkeursrepresentaties en kwantificeren ze alignment-geïnduceerde veranderingen, in plaats van uitlijning alleen als black box te evalueren.
🔗 lees originele bron