Data Mining Kelompok Kmeans
Data Mining Kelompok Kmeans
Data Mining Kelompok Kmeans
Kelas Unggulan
“Anggasura Rysmu Rahmatullah”
Fakultas Teknik dan Ilmu Komputer, Teknik Informatika, Universitas Esa Unggul,
DKI Jakarta, Indonesia
1. PENDAHULUAN
Salah satu bentuk inovasi di bidang pendidikan adalah pengembangan aplikasi yang dapat
digunakan baik dalam pembelajaran maupun manajemen sekolah. Dengan tujuan
meningkatkan mutu pendidikan melalui layanan pembelajaran, kami membentuk kelompok
siswa untuk belajar di kelas sesuai kriteria siswa.
Penentuan masuk kelas yang lebih tinggi atau tidak sangatlah penting karena informasi yang
diperoleh dapat dijadikan acuan bagi pihak sekolah untuk mengambil langkah sistematis
dalam meningkatkan mutu dan standar mutu sekolah menengah atas kelas atas. Langkah
menentukan apakah seorang siswa memasuki kelas yang lebih tinggi untuk mencapai hasil
tahap yang mencakup 2 aspek penilaian yang dihitung sebesar melampaui kisaran tingkat
akurasi tertinggi dari standar kriteria kompetensi minimum (KKM). Di antara 4.444 penentuan
skor dari rapor tahun 2013, atribut penilaian menunjukkan hasil yang beragam. Secara
keseluruhan mempunyai nilai yang sama dan terdapat perbedaan jumlah kriteria yang
cenderung sama pada siswa yang berbeda. Selain itu, kapasitas pasti jumlah kakak kelas setiap
tahun ajaran dapat bervariasi tergantung pada pertumbuhan sekolah dan jumlah siswa yang
terdaftar. Penyelesaian masalah pengelompokan siswa yang memiliki banyak data semakin
tidak efektif, dan kebutuhan untuk mengelompokkan siswa yang juga memiliki data untuk
masuk ke kelas yang lebih tinggi telah teridentifikasi. Dengan mengelompokkan siswa ke
dalam kelompok yang sesuai, kita dapat melakukan improvisasi hasil belajar dengan lebih baik
(Henry, 2013).
Metode yang digunakan untuk membagi kumpulan data menjadi beberapa kelompok
berdasarkan kesamaan yang telah diidentifikasi sebelumnya adalah bentuk clustering atau
klasifikasi (Widodo, 2013). Mempartisi data menjadi data yang ada menjadi satu atau lebih
kelompok dapat dilakukan dengan menerapkan algoritma K-Means. Metode K-Means dipilih
karena metode ini harus menggunakan data fisik, tidak bersifat abstrak dan jelas, hal ini cocok
untuk data yang akan digunakan pada soal pengelompokan kelas-kelas diatas. laporan. sebagai
referensi data. Selain itu, metode ini fleksibel karena pengguna dapat menentukan jumlah
cluster yang akan dibuat.
Algoritma K-Means merupakan algoritma non-hierarki yang berasal dari metode clustering
data. Algoritma K-Means dimulai dengan membentuk partisi cluster di awal, kemudian partisi
cluster tersebut diperbaiki secara iteratif hingga tidak ada perubahan signifikan yang tersisa
pada partisi cluster (Write, 2011). Menurut Eko , Prasetyo (2012) menyatakan bahwa metode
K-Means membagi data menjadi beberapa kelompok sedemikian rupa sehingga data yang
mempunyai karakteristik sama ditempatkan pada kelompok yang sama dan data yang
mempunyai karakteristik berbeda dikelompokkan dalam satu kelompok lainnya. Data yang
mewakili kesamaan nilai dalam satu kelompok dan data yang mewakili perbedaan dalam
kelompok lain, sehingga memungkinkan data berbeda dengan variabilitas rendah untuk
dikelompokkan bersama. Prinsip utama teknik ini adalah mengatur K partisi/centroid/mean dari
kumpulan data. Tujuan pengelompokan data adalah untuk meminimalkan fungsi tujuan yang
ditentukan dalam proses pengelompokan, yang biasanya berupaya meminimalkan variasi
dalam suatu kelompok dan memaksimalkan variasi antar kelompok.
6. Mengelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroid.
7. Kembali ke tahap ke-2, lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan
anggota cluster tidak berpindah ke cluster lain
Proses Algoritma Kmeans
Dalam menentukan buah pusat cluster awal dilakukan pemilihan bilangan random yang
mempresentasikan urutan data input. Pusat awal kluster didapatkan dari data sendiri bukan
dengan menentukan titik baru, yaitu dengan mengacak (random) pusat awal dari data.
Kemudian untuk menghitung centroid cluster ke-I dengan menggunakan persamaan rumus
sebagai berikut :
(1)
Buat mengukur suatu jarak setiap stok data dari titik awal cluster digunakan rumus Euclidian
Distance. Selilsih perhitungan akan dibandingkan dan dipilih pusat terdekat antara data
dengan pusat cluster, pusat ini menunjukan bahwa data tersebut berada dalam suatu group
dengan pusat cluster terdekat, berikut ini adalah Rumus dari proses:
(2)
Yi : jumlah data
d(x,y) : Euclidian Distance untuk menghitung jarak antara data pada titik x dan titik y
d. Mengelompokkan data
Setelah sekumpulan populasi data ditemukan dekat dengan salah satu centroid yang ada,
populasi data tersebut secara otomatis dimasukkan ke dalam kelas dengan centroid yang
sesuai.
Data Mining termasuk dalam kumpulan Knowledge discovery in databases (KDD), yang
bersambung dengan seni mengintegrasikan dan penemuan ilmiah, interpretasi dan visualisasi
pola dalam kumpulan data. Urutan proses ini mempunyai fase-fase berikut:
a. Pembersihan data (untuk menghilangkan data dan noise yang tidak konsisten).
c. Transformasi data (data diubah menjadi format yang sesuai untuk penambangan).
d. Menerapkan teknik data mining, proses penggalian pola dari data yang ada.
e. Evaluasi pola yang ditemukan (proses menafsirkan pola pengetahuan yang dapat digunakan
untuk mendukung pengambil keputusan).
Proses Tahapan ini dimulai bagian dari proses pencarian pengetahuan yang memeriksa untuk
melihat apakah ada pola atau informasi yang ditemukan berdampak dengan fakta atau
hipotesis yang ada[10].
Flowchart ini menjelaskan alur untuk proses k-means yang ada pada program setelah data
sudah di importkan ke dalam program yang telah di buat, proses ini dijelaskan sampai selesai
hingga dapat menghasilkan hasil cluster
Pada pembahasan bab ini mengenai analisa metode, implementasi ataupun pengujian serta
pembahasan dari topik penelitian, yang bisa dibuat terlebih dahulu metodelogi algoritme
penelitian. Bagian ini juga merepresentasikan penjelasan yang berupa penjelasan, gambar,
tabel dan lainnya.
K-011 100 95
K-012 100 92
K-013 100 97
K-014 100 89
K-015 100 98
K-002 1 0.965517241
K-003 1 0.948275862
K-004 1 0.931034483
K-005 1 1
K-006 1 0.793103448
K-007 1 0.844827586
K-008 1 0.844827586
K-009 1 0.793103448
K-010 1 0.913793103
K-011 0 0.103448276
K-012 0 0.051724138
K-013 0 0.137931034
K-014 0 0
K-015 0 0.155172414
Pada perhitungan ini dilakukan mengkategorikan data pemasaran untuk dijalankan melalui
data Excel yang disediakan oleh peneliti menggunakan teknik clustering K-Means. Di bawah
ini adalah proses dari algoritma K-Means. di mana proses input adalah jumlah catatan data
dan inisialisasi centroid melompat C=3, menurut penelitian ini. Dari banyaknya data
penjualan yang diperoleh, peneliti menerapkan algoritma K-Means pada lima jenis produk
sebagai sampel. Pengujian dilakukan dengan menggunakan parameter berikut:
Nilai Kluster : 3
Data Contoh : 20
Berikut data atribut dan tabel yang di gunakaan peneliti , untuk data yang di gunakan peneliti
hanya data stok awal dan stok akhir saja berguna untuk menentukan penjualan pada toko
tersebut. Stok awal dan stok akhir untuk menentukan clustering.
Iterasi ke-1
Pusat awal kluster atau centroid didapatkan secara random, untuk penentuan awal kluster
adalah :
Untuk mengukur jarak antara data dengan pusat cluster digunakan Euclidian distance,
kemudian akan didapatkan matrik jarak sebagai berikut :
(3)
Xi = Pusat kluster
Yi = data
d(x,y) = Euclidian Distance merupakan jarak antara data pada titik x dan titik y.
Dari 200 data dijadikan contoh telah dicari pusat awal cluster yaitu :
C1(1,0.9),C2(0.4,0.389655),dan C3(0,0.089655). Kemudian dilakukan perhitungan jarak dari
sisa percontohan data dengan pusat cluster yang dimisalkan dengan M(a,b) dimana a bagian
dari stok awal , dan b stok akhir.
Hitung Hasil Perhitungan Euclidean distance dari semua data ketiap titik pusat pertama :
Hitung Hasil Perhitungan Euclidean distance dari semua data ketiap titik pusat kedua :
Hitung Hasil Perhitungan Euclidean distance dari semua data ketiap titik pusat ketiga :
Kode Barang C1 C2 C3
Berikut ini akan ditampilkan data matriks pengelompokan golongan iterasi 3 , nilai 1 berati
data tersebut berada dalam golongan (kelompok data).
Kode Barang C1 C2 C3
K-001 1
K-002 1
K-003 1
K-004 1
K-005 1
K-006 1
K-007 1
K-008 1
K-009 1
K-010 1
K-011 1
K-012 1
K-013 1
K-014 1
K-015 1
K-016 1
K-017 1
K-018 1
Anggota C1 = {K-001,K-002,K-003,K-004,K-005,K-006,K-007,K-008,K-009,K-010}
Anggota C2 = {K-016,K-017,K-018,K-019,K-020}
Anggota C3 = {K-011,K-012,K-013,K-014,K-015}
Tingkat keuntungan juga rendah untuk produk yang anggota C1 dan di bawahnya memiliki
sedikit aktivitas penjualan. Kaos C2 tergolong kaos profit dan penjualan sedang, dan kaos C3
tergolong kaos tingkat penjualan dan profit keuntungan tinggi.
3 Hasil Program
Implementasi Hasil Program adalah langkah menuju pengoperasian sistem yang sedang dibangun.
Penelitian ini menjelaskan bagaimana sistem bekerja. Di bawah ini adalah tampilan implementasi
Data Mining Group Opening Inventory dan Closing Inventory di toko retail T-shirt.
Penggambaran Use Case Diagram yang terdiri dari 2 aktor untuk proses pengelompokan
siswa masuk kelas unggulan digambarkan sebagai berikut berikut.
4. KELEBIHAN DAN KEKURANGAN