Statistik Deskriptif¶
Pengertian¶
Statistik deskriptif adalah metode-metode pengumpulan dan penyajian data agar dapat memberikan suatu informasi yang bergunaStatistik deskriptif hanya memberikan informasi mengenai data yang telah dimiliki dan menyajikan data dalam bentuk tabel diagram grafik atau dalam bentuk lainnya dalam uraian-uraian yang singkat dan terbatas.
Tipe Statistik Deskriptif¶
Mean (Rata-rata)¶
Mean adalah rata-rata dari kumpulan angka, secara khusus, jumlah nilai dibagi dengan banyaknya angka. misal ada sebuah data, maka untuk mencari mean dapat dihitung dengan rumus berikut ini: $$ \bar x ={\sum \limits_{i=1}^{n} x_i \over N} = {x_1 + x_2 + x_3 + ... + x_n \over N} $$
Keterangan: * x bar = x rata-rata * x = data ke n * n = banyaknya data
Median¶
Median adalah nilai pemisah bagian tengah dari urutan sebuah data. Median disimbolkan dengan Me. nilali _Quartile__2__ berbeda cara perhitungannya, yakni tergantung banyak data tersebut ganjil atau genap. berikut adalah rumus untuk menghitung median:
$$ Me=Q_2 =\left( \begin{matrix} n+1 \over 2 \end{matrix} \right), jika\quad n\quad ganjil $$
$$ Me=Q_2 =\left( \begin{matrix} {xn \over 2 } {xn+1\over 2} \over 2 \end{matrix} \right), jika\quad n\quad genap $$
Keterangan:
- Me = Median dari kelompok data
- n = banyak data
Modus¶
Modus adalah suatu nilai yang paling sering muncul dalam suatu data. Modus berguna untuk mengetahui tingkat frekuensi terjadinya suatu peristiwa. jika dalam suatu data ada dua nilai dengan frekuensi tertinggi, maka itu disebut bimodal, jika ada tiga disebut trimodal, dan jika ada banyak nilai dengan frekuensi tertinggi maka disebut multimodal. berikut adalah rumus untuk mencari modus dalam sebuah himpunan angka: $$ M_o = Tb + p{b_1 \over b_1 + b_2} $$ Keterangan:
-
Mo = Modus
-
Tb = tepi bawah
-
b1 = selisih frekuensi antara elemen modus dengan elemet sebelumnya
-
b2 = selisih frekuensi antara elemen modus dengan elemen sesudahnya
-
p = panjang interval
nilai b1 dan b2 adalah mutlak (selalu positif)
Varians¶
varians adalah ukuran seberapa jauh suatu kumpulan bilangan tersebar, varian merupakan jumlah kuadrat semua deviasi nilai-nilai terhadap rata-rata. berikut adalah rumus untuk mencari nilai varian dari suatu himpunan data: $$ \sigma^2 = {\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n} $$ Keterangan:
-
x = rata-rata
-
Xi = rata-rata dari semua titik data
-
n = banyak data
Standar Deviasi¶
Standar deviasi adalah nilai yang digunakan untuk menentukan sebaran data dalam sampel, serta seberapa dekat titik data individu ke rata-rata nilai sampel. Standar deviasi dapat dengan mudah dihitung dengan hanya mengakar kuadratkan nilai varians. Jika titik data lebih rendah dari rata-rata maka semakin tinggi standar deviasinya. Untuk menghitung standar deviasi dapat menggunakan rumus berikut: $$ \sigma^ = \sqrt {{\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n}} $$
Skewness¶
Skewness (kemiringan) mengacu pada distorsi atau asimetri dalam kurva lonceng simetris, atau distribusi normal dalam suatu set data. Skewness merupakan bentuk ketidaksimetrisan suatu distribusi data. Skewness juga adaalah angka yang menujukkan ketidak miringan atau kemiringan suatu data. berikut adalah rumus untuk mencari skewness: $$ Skewness = {\sum \limits{i=1}^n (x_i - \bar x)^i \over (n- 1) \sigma^3} $$ Keterangan:
-
Xi = titik data\
-
x = rata-rata
-
n = jumlah titik distribusi
-
o = standar deviasi
Quartile¶
Quartile adalah jenis Quantile. Quartile pertama (Q1) didefinisikan sebagai angka tengah antara angka terkecil dan median dari kumpulan data. Kuartil kedua (Q2) adalah median data. Kuartil ketiga (Q3) adalah nilai tengah antara median dan nilai tertinggi dari kumpulan data. Simpelnya, quantile ialah nilai yang dibagi 25%. berikut adalah rumus quantile: $$ Q_1 = (n + 1) {1\over 4} $$
$$ Q_2= (n + 1) {1\over 2} $$
$$ Q_3 = (n + 1) {3\over 4} $$
Keterangan:
-
Q = nialai quarter
-
n = banyak data
Penerapan Statistik Deskrtiptif dalam Python¶
Alat dan Bahan:¶
-
buatlah data dengan random di excel terleih dahulu, caranya dengan menggunakan formula =RANDBETWEEN(batas_bawah;batas_atas). kemudian copast hasil tersebut sebagai values. Setelah itu save as .csv.
-
kita menggunakan library python yakni, pandas dan scipy.
Langkah-langkah:¶
Pertama¶
Mengimport library yang telah disiapkan tadi, yakni scipy dan pandas
import pandas as pd from scipy import stats
Kedua¶
Memuat data .csv yang telah dibuat
df = pd.read_csv('data_random.csv', sep=';')
Ketiga¶
Memuat penyimpanan data untuk disimpan kemudian untuk ditampilkan. Kemudian menghitung data yang diambil dari bebrapa kolom dari data file .csv dengan itersi, dan menghitung dengan cara yang telah disediakan di libary pandas. Kemudian visualisasikan data trsebut.
data = {"Stats" : ['Min','Max','Mean','Standard Deviasi','Variasi','Skewnes', 'Quartile 1','Quartile 2', 'Quartile 3', 'Median','Modus']} for i in df.columns: data[i] = [df[i].min(), df[i].max(), df[i].mean(), round(df[i].std(), 2),round(df[i].var(), 2), round(df[i].skew(), 2), df[i].quantile(0.25), df[i].quantile(0.5), df[i].quantile(0.75), df[i].median(), stats.mode(df[i]).mode[0]] tes = pd.DataFrame(data, columns = ['Stats'] + [x for x in df.columns]) tes
stats | Tinggi Badan | Berat Badan | Usia | Lingkar Badan |
---|---|---|---|---|
Min | 140 | 40 | 20 | 70 |
Max | 190 | 70 | 50 | 100 |
Mean | 164.882 | 54.72 | 34.832 | 85.228 |
Standard Deviasi | 15.18 | 8.96 | 9.3 | 8.8 |
Variasi | 230.35 | 80.27 | 86.4 | 77.42 |
Skewnes | -0 | 0.1 | 0.08 | -0.07 |
Quantile 1 | 151 | 47 | 27 | 78 |
Quantile 2 | 165 | 54 | 34 | 85 |
Quantile 3 | 179 | 63 | 43.25 | 93 |
Median | 165 | 54 | 34 | 85 |
Modus | 142 | 50 | 28 | 93 |
Referensi¶
https://id.wikipedia.org/wiki/Statistika_deskriptif
https://www.investopedia.com/terms/s/skewness.asp
https://rumusrumus.com/standar-deviasi/
https://statmat.id/pengertian-statistik-deskriptif-dan-statistik-inferensia/
https://www.asikbelajar.com/pengertian-modus-mode/
https://en.wikipedia.org/wiki/Median
https://en.wikipedia.org/wiki/Mean