AI-regulering in Afrika: waarom het kopiëren van het Europese model niet werkt
Een systematische mechanistische analyse van zes alignementmethoden — PPO, DPO, SimPO, ORPO, GRPO en KTO — over drie open-weight modelfamilies. Met layer-wise linear probing, Sparse Autoencoders en crosscoders brengen de onderzoekers voorkeursrepresentaties in kaart en meten ze alignement-geïnduceerde veranderingen in de interne circuits van de modellen.
🔗 lees originele bron