Missing Values dengan teknik K-NN¶
Missing Value¶
Missing value (data/nilai yang hilang) adalah suatu informasi yang tidak tersedia dalam suatu data.
Missing value biasanya terjadi karena adanya suatu informasi dalam data tidak diberikan, sulit dicari, atau memang informasi tersebut tidak ada. Beberapa metode yang biasa digunakan untuk mencari data yang hilang tersebut, biasanya data diganti nilainya dengan nilai tengah atau dengan menyimpulkan dari nilai yang ada, dan atau munglin bahkan mengabaikan data yang hilang tersebut.
Algoritma K-NN (K-Nearest Neighbors)¶
K-NN adalah sebuah metode dimana metode ini melakukan klarifikasi berdasarkan data yang jaraknya paling dekat dengan data yang dicari.
Mengatasi Missing Value dengan Metode K-NN pada Bahasa Pemrograman Python¶
Untuk mempermudah dalam proses penyelesaiannya, dapat digunakan yakni library python, yakni pandas dan scipy.
# importing pandas as pd import pandas as pd # importing numpy as np import numpy as np # dictionary of lists dict = {'First Score':[100, 80, np.nan, 65], 'Second Score': [80, 55, 76, np.nan], 'Third Score':[np.nan, 60, 90, 87]} # creating a dataframe from dictionary df = pd.DataFrame(dict) # filling missing value using fillna() df.fillna(0)
First Score | Second Score | Third Score | |
---|---|---|---|
0 | 100.0 | 80.0 | 0.0 |
1 | 80.0 | 55.0 | 60.0 |
2 | 0.0 | 76.0 | 90.0 |
3 | 65.0 | 0.0 | 87.0 |
Referensi¶
https://www.dictio.id/t/apa-yang-dimaksud-dengan-data-hilang-atau-missing-data-pada-statistik/116500 https://openlibrary.telkomuniversity.ac.id/pustaka/files/114813/jurnal_eproc/imputasi-misssing-data-menggunakan-metode-k-nearest-neighbour-dengan-optimasi-algoritma-memetikamissing-value-imputation-using-k-nearest-neighbour-method-optimized-with-memetic-algorithm.pdf