Mitä vahvistusoppiminen on?

Vahvistusoppiminen on eräänlainen koneoppimistekniikka, jossa algoritmi oppii tekemään päätöksiä yrityksen ja erehdyksen kautta. Algoritmi vastaanottaa palautetta palkkioiden tai rangaistusten muodossa tekemiensä toimien perusteella ja käyttää tätä palautetta oppiakseen maksimoimaan tulevat palkinnot. Sitä käytetään usein sovelluksissa, joissa optimaalista päätöstä ei tiedetä etukäteen tai kun päätöksenteko vaatii mukautuvaa oppimista ajan myötä. Vahvistusoppimisessa on sovelluksia esimerkiksi robotiikassa, pelaamisessa, rahoituksessa ja terveydenhuollossa.

Julkaisupäivämäärä: