Ruis-gedreven ontsnapping uit metastabiele fasen verklaart grokking in diepe neurale netwerken
Diepe neurale netwerken vertonen eerste-orde fase-overgangen bij variaties in L2-regularisatiesterkte, waarbij elke overgang het ontstaan van een nieuw leerbaar kenmerk markeert. Onder een kritische drempel zijn alle kenmerken in principe leerbaar, maar naast elkaar bestaande metastabiele toestanden, gescheiden door energiebarrières, kunnen het netwerk vasthouden en convergentie belemmeren. DNN's blinken uit in generalisatie, maar veel vragen blijven open.
🔗 lees originele bron