Het k-naaste buuralgoritme (k-NN) is een type algoritme voor gesuperviseerd leren dat wordt gebruikt voor classificatie- en regressietaken. Het is een niet-parametrisch algoritme dat geen aannames doet over de onderliggende datadistributie.
In k-NN selecteert het algoritme de k-gegevenspunten die het dichtst bij een bepaald testpunt liggen op basis van een bepaalde mate van gelijkenis (typisch Euclidische afstand). Deze geselecteerde datapunten worden vervolgens gebruikt om de klasse of waarde van het testpunt te voorspellen.
In een classificatietaak met twee klassen (zoals binaire classificatie) is de voorspelde klasse van een testpunt bijvoorbeeld de meerderheidsklasse onder de k-dichtstbijzijnde buren. In een regressietaak is de voorspelde waarde het gemiddelde van de waarden van de k-dichtstbijzijnde buren.
De keuze van k (het aantal te overwegen buren) is een hyperparameter die kan worden afgestemd om de prestaties van de gegeven taak te optimaliseren.
Publicatie datum: