Missing Values dengan teknik K-NN

Missing Value

Missing value (data/nilai yang hilang) adalah suatu informasi yang tidak tersedia dalam suatu data.

Missing value biasanya terjadi karena adanya suatu informasi dalam data tidak diberikan, sulit dicari, atau memang informasi tersebut tidak ada. Beberapa metode yang biasa digunakan untuk mencari data yang hilang tersebut, biasanya data diganti nilainya dengan nilai tengah atau dengan menyimpulkan dari nilai yang ada, dan atau munglin bahkan mengabaikan data yang hilang tersebut.

Algoritma K-NN (K-Nearest Neighbors)

K-NN adalah sebuah metode dimana metode ini melakukan klarifikasi berdasarkan data yang jaraknya paling dekat dengan data yang dicari.

Mengatasi Missing Value dengan Metode K-NN pada Bahasa Pemrograman Python

Untuk mempermudah dalam proses penyelesaiannya, dapat digunakan yakni library python, yakni pandas dan scipy.

# importing pandas as pd 
import pandas as pd 

# importing numpy as np 
import numpy as np 

# dictionary of lists 
dict = {'First Score':[100, 80, np.nan, 65], 
        'Second Score': [80, 55, 76, np.nan], 
        'Third Score':[np.nan, 60, 90, 87]}

# creating a dataframe from dictionary 
df = pd.DataFrame(dict) 

# filling missing value using fillna()   
df.fillna(0)
First Score Second Score Third Score
0 100.0 80.0 0.0
1 80.0 55.0 60.0
2 0.0 76.0 90.0
3 65.0 0.0 87.0

Referensi

https://www.dictio.id/t/apa-yang-dimaksud-dengan-data-hilang-atau-missing-data-pada-statistik/116500 https://openlibrary.telkomuniversity.ac.id/pustaka/files/114813/jurnal_eproc/imputasi-misssing-data-menggunakan-metode-k-nearest-neighbour-dengan-optimasi-algoritma-memetikamissing-value-imputation-using-k-nearest-neighbour-method-optimized-with-memetic-algorithm.pdf