AI-regulering in Afrika: waarom het kopiëren van het Europese model niet werkt

onderzoek 📅 2026-06-10

Een systematische mechanistische analyse van zes alignementmethoden — PPO, DPO, SimPO, ORPO, GRPO en KTO — over drie open-weight modelfamilies. Met layer-wise linear probing, Sparse Autoencoders en crosscoders brengen de onderzoekers voorkeursrepresentaties in kaart en meten ze alignement-geïnduceerde veranderingen in de interne circuits van de modellen.

🔗 lees originele bron