Thuật toán k-hàng xóm gần nhất là gì?

Thuật toán k-láng giềng gần nhất (k-NN) là một loại thuật toán học có giám sát được sử dụng cho các nhiệm vụ phân loại và hồi quy. Đây là một thuật toán phi tham số không đưa ra bất kỳ giả định nào về phân phối dữ liệu cơ bản.

Trong k-NN, thuật toán chọn k điểm dữ liệu gần nhất đến một điểm kiểm tra nhất định dựa trên một số phép đo độ tương tự (thường là khoảng cách Euclide). Các điểm dữ liệu đã chọn này sau đó được sử dụng để dự đoán loại hoặc giá trị của điểm kiểm tra.

Ví dụ: trong một nhiệm vụ phân loại có hai lớp (chẳng hạn như phân loại nhị phân), lớp dự đoán của một điểm kiểm tra là lớp chiếm đa số trong số k-láng giềng gần nhất. Trong một tác vụ hồi quy, giá trị dự đoán là giá trị trung bình của các giá trị của k-láng giềng gần nhất.

Lựa chọn k (số lượng hàng xóm cần xem xét) là một siêu tham số có thể được điều chỉnh để tối ưu hóa hiệu suất cho tác vụ nhất định.

Ngày xuất bản: