Statistik Deskriptif

Pengertian

Statistik deskriptif adalah metode-metode pengumpulan dan penyajian data agar dapat memberikan suatu informasi yang berguna
Statistik deskriptif hanya memberikan informasi mengenai data yang telah dimiliki dan menyajikan data dalam bentuk tabel diagram grafik atau dalam bentuk lainnya dalam uraian-uraian yang singkat dan terbatas.

Tipe Statistik Deskriptif

Mean (Rata-rata)

Mean adalah rata-rata dari kumpulan angka, secara khusus, jumlah nilai dibagi dengan banyaknya angka. misal ada sebuah data, maka untuk mencari mean dapat dihitung dengan rumus berikut ini: $$ \bar x ={\sum \limits_{i=1}^{n} x_i \over N} = {x_1 + x_2 + x_3 + ... + x_n \over N} $$

Keterangan: * x bar = x rata-rata * x = data ke n * n = banyaknya data

Median

Median adalah nilai pemisah bagian tengah dari urutan sebuah data. Median disimbolkan dengan Me. nilali _Quartile__2__ berbeda cara perhitungannya, yakni tergantung banyak data tersebut ganjil atau genap. berikut adalah rumus untuk menghitung median:

$$ Me=Q_2 =\left( \begin{matrix} n+1 \over 2 \end{matrix} \right), jika\quad n\quad ganjil $$

$$ Me=Q_2 =\left( \begin{matrix} {xn \over 2 } {xn+1\over 2} \over 2 \end{matrix} \right), jika\quad n\quad genap $$

Keterangan:

  • Me = Median dari kelompok data
  • n = banyak data

Modus

Modus adalah suatu nilai yang paling sering muncul dalam suatu data. Modus berguna untuk mengetahui tingkat frekuensi terjadinya suatu peristiwa. jika dalam suatu data ada dua nilai dengan frekuensi tertinggi, maka itu disebut bimodal, jika ada tiga disebut trimodal, dan jika ada banyak nilai dengan frekuensi tertinggi maka disebut multimodal. berikut adalah rumus untuk mencari modus dalam sebuah himpunan angka: $$ M_o = Tb + p{b_1 \over b_1 + b_2} $$ Keterangan:

  • Mo = Modus

  • Tb = tepi bawah

  • b1 = selisih frekuensi antara elemen modus dengan elemet sebelumnya

  • b2 = selisih frekuensi antara elemen modus dengan elemen sesudahnya

  • p = panjang interval

nilai b1 dan b2 adalah mutlak (selalu positif)

Varians

varians adalah ukuran seberapa jauh suatu kumpulan bilangan tersebar, varian merupakan jumlah kuadrat semua deviasi nilai-nilai terhadap rata-rata. berikut adalah rumus untuk mencari nilai varian dari suatu himpunan data: $$ \sigma^2 = {\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n} $$ Keterangan:

  • x = rata-rata

  • Xi = rata-rata dari semua titik data

  • n = banyak data

Standar Deviasi

Standar deviasi adalah nilai yang digunakan untuk menentukan sebaran data dalam sampel, serta seberapa dekat titik data individu ke rata-rata nilai sampel. Standar deviasi dapat dengan mudah dihitung dengan hanya mengakar kuadratkan nilai varians. Jika titik data lebih rendah dari rata-rata maka semakin tinggi standar deviasinya. Untuk menghitung standar deviasi dapat menggunakan rumus berikut: $$ \sigma^ = \sqrt {{\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n}} $$

Skewness

Skewness (kemiringan) mengacu pada distorsi atau asimetri dalam kurva lonceng simetris, atau distribusi normal dalam suatu set data. Skewness merupakan bentuk ketidaksimetrisan suatu distribusi data. Skewness juga adaalah angka yang menujukkan ketidak miringan atau kemiringan suatu data. berikut adalah rumus untuk mencari skewness: $$ Skewness = {\sum \limits{i=1}^n (x_i - \bar x)^i \over (n- 1) \sigma^3} $$ Keterangan:

  • Xi = titik data\

  • x = rata-rata

  • n = jumlah titik distribusi

  • o = standar deviasi

Quartile

Quartile adalah jenis Quantile. Quartile pertama (Q1) didefinisikan sebagai angka tengah antara angka terkecil dan median dari kumpulan data. Kuartil kedua (Q2) adalah median data. Kuartil ketiga (Q3) adalah nilai tengah antara median dan nilai tertinggi dari kumpulan data. Simpelnya, quantile ialah nilai yang dibagi 25%. berikut adalah rumus quantile: $$ Q_1 = (n + 1) {1\over 4} $$

$$ Q_2= (n + 1) {1\over 2} $$

$$ Q_3 = (n + 1) {3\over 4} $$

Keterangan:

  • Q = nialai quarter

  • n = banyak data

Penerapan Statistik Deskrtiptif dalam Python

Alat dan Bahan:

  1. buatlah data dengan random di excel terleih dahulu, caranya dengan menggunakan formula =RANDBETWEEN(batas_bawah;batas_atas). kemudian copast hasil tersebut sebagai values. Setelah itu save as .csv.

  2. kita menggunakan library python yakni, pandas dan scipy.

Langkah-langkah:

Pertama

Mengimport library yang telah disiapkan tadi, yakni scipy dan pandas

import pandas as pd
from scipy import stats
Kedua

Memuat data .csv yang telah dibuat

df = pd.read_csv('data_random.csv', sep=';')
Ketiga

Memuat penyimpanan data untuk disimpan kemudian untuk ditampilkan. Kemudian menghitung data yang diambil dari bebrapa kolom dari data file .csv dengan itersi, dan menghitung dengan cara yang telah disediakan di libary pandas. Kemudian visualisasikan data trsebut.

data = {"Stats" : ['Min','Max','Mean','Standard Deviasi','Variasi','Skewnes',
                   'Quartile 1','Quartile 2', 'Quartile 3', 'Median','Modus']}
for i in df.columns:
    data[i] = [df[i].min(), df[i].max(), df[i].mean(),
                round(df[i].std(), 2),round(df[i].var(), 2),
                round(df[i].skew(), 2), df[i].quantile(0.25),
                df[i].quantile(0.5), df[i].quantile(0.75),
                df[i].median(), stats.mode(df[i]).mode[0]]
tes = pd.DataFrame(data, columns = ['Stats'] + [x for x in df.columns])
tes
stats Tinggi Badan Berat Badan Usia Lingkar Badan
Min 140 40 20 70
Max 190 70 50 100
Mean 164.882 54.72 34.832 85.228
Standard Deviasi 15.18 8.96 9.3 8.8
Variasi 230.35 80.27 86.4 77.42
Skewnes -0 0.1 0.08 -0.07
Quantile 1 151 47 27 78
Quantile 2 165 54 34 85
Quantile 3 179 63 43.25 93
Median 165 54 34 85
Modus 142 50 28 93

Referensi

    https://id.wikipedia.org/wiki/Statistika_deskriptif
    https://www.investopedia.com/terms/s/skewness.asp
    https://rumusrumus.com/standar-deviasi/
    https://statmat.id/pengertian-statistik-deskriptif-dan-statistik-inferensia/
    https://www.asikbelajar.com/pengertian-modus-mode/
    https://en.wikipedia.org/wiki/Median
    https://en.wikipedia.org/wiki/Mean