Posted by: tonyteaching | September 16, 2010

Yuk menDeskripsikan Data kita… (DESCRIPTIVE Analysis)

Saat kita ingin mendeskripsikan data kita, secara umum kita tertarik pada 2 hal:

I. Central Tendency ..bahasa Indonesia nya kecenderungan data kita nilainya seperti apa atau Nilai apa yang bisa mewakili seluruh data kita?

II. Variability ………….. keragaman data kita sebenarnya seperti apa?

————————-

I. Central Tendency

Seluruh data kita biasanya bisa kita wakili (di-‘model’kan) dengan beberapa pilihan parameter:

Nilai Rata – Rata data kita (Mean atau Average): yakni kita jumlahkan semua nilai dari data kita dan dibagi banyaknya item data kita. Disini kita mengasumsikan nilai rata-rata ini (Mean) dapat mewakili setiap data yang kita punya. Benarkah? tentu tidak karena nanti dibagian variability akan kita bahas.

Nilai Tengah jika semua item kita susun berurutan (Median): parameter yang mungkin juga kita pilih untuk mewakili semua item data kita adalah dengan meletakkan dan mengurutkan semua data kita dari kecil ke besar kemudian kita cari item yang berada di tengah-tengah urutan itu. Jadi kita asumsikan (Median) ini mewakili setiap data yang kita punya. Benarkah? tentu tidak, karena misal kita punya sembilan data: empat data bernilai 2, satu data bernilai 5, empat data data bernilai 57. maka data ke-lima yakni 5 bisakah kita sebut mewakili data-data bernilai 2,2,2,2,5,57,57,57,57?? Jelas tidak, apakah kita akan memakai Median atau tidak untuk mewakili seluruh data kita mesti kita lihat disperasi atau keragaman nilai data kita dulu.

Disini kesepakatan menghitung Median adalah: jika banyaknya item ganjil maka Median nya adalah item yang ditengah-tengah, tetapi jika banyaknya item genap maka Mediannya adalah dua item ditengah dijumlah dibagi 2. Contoh: data 2,3,4 Mediannya 3. Data 2,3,4,5 Mediannya (3+4)/2 yakni 3,5

Mean dan Median inti utamanya adalah berusaha menangkap nilai ‘titik pusat’ populasi (point estimates) yang diharapkan dapat mewakili seluruh item di populasi.

– Nilai  yang Paling Sering Muncul (Mode atau Modus): ada juga asumsi bahwa keseluruhan data kita dapat diwakili oleh data yang paling sering muncul. Benarkah? contoh 2,2,2,2,2,5,57,57,57,57 maka Mode -nya adalah 2, benarkah data dengan nilai 2 bisa mewakili semua data tersebut? kembali kita musti lihat keragaman datanya.

————————-

II. Variability atau Dispersion atau Keragaman Data kita

Naah…informasi keragaman data ini lah yang nantinya akan dapat mengukur seberapa jauh/dekat parameter-parameter (model) Central Tendency dapat mewakili seluruh item data kita.

Informasi keragaman data kita biasanya dapat kita sampaikan dalam bentuk:

Distribusi Data ..coba lihat kembali posting Bagaimana Distribusi Datanya
Disini kita plot histogram Frequency (banyaknya item) untuk setiap Nilai data dan kita gambar Curva Normalnya sehingga kita melihat apakah terdapat banyak item yang sama sebelum dan sesudah nilai Mediannya (termasuk apakah Nilai Median dimiliki oleh mayoritas item?).

Rentang (Range) : parameter yang lain untuk menunjukkan keragaman data kita adalah dengan mencari selisih nilai tertinggi dan terendah. Contoh, saya punya data 2,2,2,4,6,8,9 maka range data saya adalah 9-2=7 jadi saya katakan keragaman data saya berada dalam rentang 7 dari nilai terendah ke nilai tertinggi. Menjadi lebih parah jika datanya ekstrem seperti ini 2,2,2,4,6,8,900 maka saya mengatakan bahwa saya punya data dengan rentang 898 padahal hanya gara-gara satu data ekstrem atau biasanya outlier.

Nilai Deviasi (Deviation Score):Deviasi adalah selisih nilai sebuah data dengan nilai rata-rata seluruh data. Nah jika kita ingin menghitung untuk seluruh populasi maka kita harus menghitung Nilai Rata-Rata Deviasi atau dikenal sebagai Variance dan Standard Deviation.

Variance (S kuadrat) adalah ukuran seberapa nilai Mean (model atau parameter yg kita pakai untuk mewakili semua data kita) benar-benar mewakili setiap nilai item yang kita amati, dengan cara menghitung Nilai Rata-Rata dari (Selisih Nilai Setiap item dengan Nilai Mean) yg dikuadratkan-untuk memperoleh nilai mutlak/positif:

Jadi variance atau Rata-Rata Selisih Nilai-Nilai sebenarnya Mean yg dikuadratkan ini sudah bisa menunjukkan seberapa akurat suatu model statistics (dalam hal ini Mean) mewakili nilai item-item data yang diamati. Semakin Besar variance semakin model tidak akurat (dengan kata lain disini Mean bukanlah parameter yang tepat untuk mewakili semua data!), semakin kecil variance semakin akurat model tersebut.

Namun, yang musti diingat nilai Variance ini kan nilai variability yang di-kuadratkan sehingga nilainya tentu jauh lebih besar dari ukuran item sebenarnya. Maka untuk mengukur variability data yang lain, yang menurut saya lebih akurat adalah dengan menggunakan Standard Deviation, yakni Variance yang dikembalikan ke nilai tunggalknya dengan cara di akar kuadrat.

Sama seperti variance, ada 2 macam Standard Deviation: Standard Deviation untuk Sample (s) dan Standard Deviation untuk Populasi (delta)

Jika item yang kita analisis ternyata memang adalah Populasinya itu sendiri maka kita memakai rumus Standard Deviasi Populasi (Delta).

Namun jika item yang kita analisis adalah item Sample yang ingin kita gunakan untuk meng-estimasi error (atau variasi) dari suatu Populasi yang lebih besar maka kita gunakan rumus Standard Deviasi yang Sample (s) dimana pembaginya bayak adalah n-1. Di sini standard deviasi sample mewakili prediksi nilai variability item-item data populasi yang belum diketahui secara pasti (tidak diobservasi seluruhnya).

Mengapa Pembagi Standard Deviation sample (S) untuk mengistimasi populasi adalah n-1?

Ini terkait konsep degrees of freedom (kebebasan memilih nilai dari item-tem sample). Maksudnya gini: jika saya punya empat item sample dari suatu populasi dan misal rata-rata populasinya 2, kita mengharap nilai rata-rata empat item sample sama dengan 2 apapun nilai item yang kita pilih. Misal empat item yang pilihan pertama saya adalah 1,2,3,2 (disini nilai rata-rata item 2), agar estimasi sample dengan populasi selalu konstant maka kita bisa mengganti nilai item sample itu asalkan rata-ratanya 2, misal item pertama saya pilih 1, item kedua saya milih 4, item ketiga saya milih 2, maka untuk item keempat saya Tidak Punya Pilihan lain selain angka 1 agar rata-rata sample saya tetap konsisten 2. Artinya jika saya punya 4 item, derajat kebebasan saya memilih banyaknya item sample agar nilai estimasi mewakili populasi adalah 3 item atau n-1. Paham ya?🙂

ini dia parameter yang saya suka, terutama saat kita mau make Mean atau nilai rata-rata untuk mewakili seluruh data kita maka kita perlu menyampaikan Nilai Deviasinya juga:

Nilai Rata +- Standard Deviasinya

Semakin BESAR Standar Deviasinya (High Variability) semakin Beragam (differ) Nilai-Nilai item kita sebenarnya, atau semakin Tidak Akurat model kita (disini Mean)–> dengan kata lain disini Mean bukanlah parameter yang tepat untuk mewakili semua data! bisa jadi parameter lain yg lebih mewakili, mungkin median, modus, atau yg lain.
Semakin KECIL Standar Deviasinya (Low Variability) semakin Serupa (similar) Nilai-Nilai item kita sebenarnya, atau semakin Akurat model kita (disini Mean).

Jika Variance atau Sandard Deviation = 0 bisa diartikan tidak ada selisih antara nilai data dengan mean atau bisa disebut semua data Homogen atau Sama nilainya.

Jika kita Grafik Distribusi Frequency-nya untuk Nilai Mean yang Sama tapi Standard Deviation Berbeda:

Jadi untuk Mean yang Sama, jika Standard Deviationnya BESAR maka Kurva Distribusinya akan semakin LEBAR atau GEMUK karena nilai-nilai data semakin jauh dari nilai Mean. Semakin Standard Deviationnya KECIL maka kurva distribusinya semakin KURUS karena nilai-nilai datanya semakin mengumpul mendekati nilai Mean.

Saya pengin nunjukin data saya itu aslinya kaya’ apa?
Misal nih saya punya 10 Mahasiswa (namanya A sampe J):

Nama  | Nilai
A…………70
B…………75
C…………60
D…………50
E…………76
F…………78
G…………90
H…………90
I…………75
J…………55
Naaah, gimana nyritain profile umum mahasiswa kita ini biar si Pendengar kita dapat ‘sesuatu’ (informasi) yang nyanthol ke kepala mereka, jelas kalo aku cerita ke mereka “Eh..aku punya 10 mahasiswa lho…namanya A, B, C dst..nilainya A =.., B=..” jelas itu malah bikin mereka bingung. Sekarang yang kita sampaikan langsung dalam bentuk INFORMASI (ada artinya dan mudah dimengerti) daripada sekedar Data?

Pertama-tama, saya bisa bilang
– Saya Punya Mahasiswa sebanyak 10 orang (nah ini jumlah item yang kita bicarakan atau kita amati).
Dari sepuluh orang itu,
– Nilai Terendah (Minimum) 50
,
– Nilai Tertinggi (Maximum) 90
,
– Jadi ada Rentang (Range) sebesar 40,
– Nilai Rata-rata (Mean) nya adalah 71.90..

– Tetapi nilai Mean ini lebih tepat jika kita sajikan plus (+) minus (-) Standard Deviation (SD atau S) 13.49,

Biasanya sebagai perwakilan seluruh data kita sampaikan dalam bentuk: Mean +- SD

Standard Error of the Mean (SEM) atau Standar Error (SE) sebesar 4.267,
SEM berbeda dengan SD…Standard Deviation (SD) menunjukkan “how much variation was found around this particular estimate of the mean (a single mean)?” sedangkan Standard Error of the Mean, adalah lebih baik lagi, menunjukkan “how good is our estimate of the mean?” kalo ujian kita adakan kembali berulang-ulang berapa kemungkinan error (standard deviation) dari Mean or the mean (the mean of the means and then calculate a standard deviation of it, not the standard deviation around a single mean).
– Kalo disusun semua item data, nilai tengah yang ada (Median) nya adalah 75 (Nilai Mediannya BEDA ama Nilai Meannya ya)

50 55 60 70 75 75 76 78 90 90

*******************************************************************

Nah sekarang saya pengin Mendeskripsikan Data Profile Respondent saya (Profile of the Respondents):

Deskripsi ini harus disesuaikan dengan Item-item Pertanyaan dalam Questionnaire saya!
yang mau saya tampilkan adalah:
* Total jumlah respondents saya? Syarat: mereka harus sudah pernah memakai layanan SMS eGov

* Berapa pemakai Layanan SMS Notifikasi? (jumlah, % dari total respondent)

Berapa pemakai Layanan SMS Pull-SMS? (jumlah, % dari total respondent)

Berapa pemakai Layanan SMS Listen? (jumlah, % dari total respondent)

Berapa pemakai Layanan SMS Transaction? (jumlah, % dari total respondent)

* Gender (% Pie Chart Laki-Laki Perempuan)

* Age (Histogram kurang dr 18, 18-30, 31-40, 41-50, 51-60, Lebih dari 60)

* Education Level (% Pie Chart – Secondary school, High school, Bachelor, Master, Doctorate)

* Nationality (% Pie Chart)

So…..:
– Majority for all Respondents is ..??
– Majority for Respondents Listen Services is ..??
– Majority for Respondents Notification Services is ..??
– Majority for Respondents Pull Services is ..??
– Majority for Respondents Transaction Services is ..??

I need this figure to define limitations for my conclusion later!!


Responses

  1. […] Besar & Kompleks: Standard Error Sebelumnya saya sudah menjelaskan bagaimana kita mendeskripsikan item-item data kita. Saat item-item data kita relatif sedikit dan dapat kita akses/ukur maka perhitungan-perhitungan […]

  2. […] Apa itu terdistribusi Normal? Tentu masih ingat ya..bahwa data-data yang kita kumpulkan bisa kita susun dan tampilkan sebagai Grafik Distribusi Frequency (atau Histogram)..dan dari tampilan histogram ini kita bisa melihat apakah data-data kita “terdistribusi normal” atau tidak. Terdistribusi normal artinya histrogram kita membentuk gunung dengan kaki simetris kanan-kiri. Lebih jelasnya buka lagi posting saya di “Bagaimana distribusi Datanya?” dan “Descriptive Analysis”. […]

  3. mas gimana kalo pertanyaanya gini
    saya punya 5 data
    dengan rincian sbb:
    0,0,0,3,1,5
    berapa mean+-std deviasi nya?

  4. hello,
    mo nanya nih…
    kok beda y sama yg diajar dosen saya,
    d membagi standar deviasi menjadi 3,
    dengan nilai n 30, dan n >= 30…
    apa anda tau rumus yang n> 30????
    makasih y sebelumya…
    hehe

  5. […] rumus ngitung Standard Deviation untuk Sample (S) dan untuk polulasi (delta) bisa diingat lagi di https://tonyteaching.wordpress.com/2010/09/16/yuk-mendeskripsikan-data-kita/ […]


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Categories

%d bloggers like this: