Data Mining Kelompok Kmeans

Algoritma K-means Clustring dalam Penetuan Siswa
Kelas Unggulan
“Anggasura Rysmu Rahmatullah”
Fakultas Teknik dan Ilmu Komputer, Teknik Informatika, Universitas Esa Unggul,
DKI Jakarta, Indonesia
1. PENDAHULUAN
Salah satu bentuk inovasi di bidang pendidikan adalah pengembangan aplikasi yang dapat
digunakan baik dalam pembelajaran maupun manajemen sekolah. Dengan tujuan
meningkatkan mutu pendidikan melalui layanan pembelajaran, kami membentuk kelompok
siswa untuk belajar di kelas sesuai kriteria siswa.
Penentuan masuk kelas yang lebih tinggi atau tidak sangatlah penting karena informasi yang
diperoleh dapat dijadikan acuan bagi pihak sekolah untuk mengambil langkah sistematis
dalam meningkatkan mutu dan standar mutu sekolah menengah atas kelas atas. Langkah
menentukan apakah seorang siswa memasuki kelas yang lebih tinggi untuk mencapai hasil
tahap yang mencakup 2 aspek penilaian yang dihitung sebesar melampaui kisaran tingkat
akurasi tertinggi dari standar kriteria kompetensi minimum (KKM). Di antara 4.444 penentuan
skor dari rapor tahun 2013, atribut penilaian menunjukkan hasil yang beragam. Secara
keseluruhan mempunyai nilai yang sama dan terdapat perbedaan jumlah kriteria yang
cenderung sama pada siswa yang berbeda. Selain itu, kapasitas pasti jumlah kakak kelas setiap
tahun ajaran dapat bervariasi tergantung pada pertumbuhan sekolah dan jumlah siswa yang
terdaftar. Penyelesaian masalah pengelompokan siswa yang memiliki banyak data semakin
tidak efektif, dan kebutuhan untuk mengelompokkan siswa yang juga memiliki data untuk
masuk ke kelas yang lebih tinggi telah teridentifikasi. Dengan mengelompokkan siswa ke
dalam kelompok yang sesuai, kita dapat melakukan improvisasi hasil belajar dengan lebih baik
(Henry, 2013).
Metode yang digunakan untuk membagi kumpulan data menjadi beberapa kelompok
berdasarkan kesamaan yang telah diidentifikasi sebelumnya adalah bentuk clustering atau
klasifikasi (Widodo, 2013). Mempartisi data menjadi data yang ada menjadi satu atau lebih
kelompok dapat dilakukan dengan menerapkan algoritma K-Means. Metode K-Means dipilih
karena metode ini harus menggunakan data fisik, tidak bersifat abstrak dan jelas, hal ini cocok
untuk data yang akan digunakan pada soal pengelompokan kelas-kelas diatas. laporan. sebagai
referensi data. Selain itu, metode ini fleksibel karena pengguna dapat menentukan jumlah
cluster yang akan dibuat.
Algoritma K-Means merupakan algoritma non-hierarki yang berasal dari metode clustering
data. Algoritma K-Means dimulai dengan membentuk partisi cluster di awal, kemudian partisi
cluster tersebut diperbaiki secara iteratif hingga tidak ada perubahan signifikan yang tersisa
pada partisi cluster (Write, 2011). Menurut Eko , Prasetyo (2012) menyatakan bahwa metode
K-Means membagi data menjadi beberapa kelompok sedemikian rupa sehingga data yang
mempunyai karakteristik sama ditempatkan pada kelompok yang sama dan data yang
mempunyai karakteristik berbeda dikelompokkan dalam satu kelompok lainnya. Data yang
mewakili kesamaan nilai dalam satu kelompok dan data yang mewakili perbedaan dalam
kelompok lain, sehingga memungkinkan data berbeda dengan variabilitas rendah untuk
dikelompokkan bersama. Prinsip utama teknik ini adalah mengatur K partisi/centroid/mean dari
kumpulan data. Tujuan pengelompokan data adalah untuk meminimalkan fungsi tujuan yang
ditentukan dalam proses pengelompokan, yang biasanya berupaya meminimalkan variasi
dalam suatu kelompok dan memaksimalkan variasi antar kelompok.
Langkah-langkah melakukan clustering dengan metode K-Means adalah sebagai berikut:
1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.

2. Inisialisasi k pusat cluster ini bisa dilakukan dengan berbagai cara, namun yang paling
sering dilakukan adalah dengan cara random yang diambil dari data yang ada.
3. Menghitung jarak setiap data input terhadap masing – masing centroid menggunakan
rumus jarak Euclidean (Euclidean Distance) hingga ditemukan jarak yang paling dekat dari
setiap data dengan centroid. Berikut adalah persamaan Euclidian Distance : 𝐷𝑒 = √(𝑥𝑖 − 𝑠𝑖)
2(𝑦𝑖 − 𝑡𝑖) 2 dimana : De adalah Euclidean Distance i adalah banyaknya objek, (x,y)
merupakan koordinat object dan (s,t) merupakan koordinat centroid.
4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).

5. Memperbaharui nilai centroid. Nilai centroid baru di peroleh dari rata-rata cluster yang
bersangkutan dengan menggunakan rumus: 𝑣𝑖𝑗 = 1 𝑁𝑖 ∑𝑋𝑘𝑗 𝑁𝑖 𝑘=0 dimana : vij adalah
centroid/ rata-rata cluster ke-i untuk variable ke-j Ni adalah jumlah data yang menjadi
anggota cluster ke-i i,k adalah indeks dari cluster j adalah indeks dari variabel xkj adalah
nilai data kek yang ada di dalam cluster tersebut untuk variable ke-j
6. Melakukan perulangan dari langkah 2 hingga 5, sampai anggota tiap cluster tidak ada yang
berubah.
2. TAHAPAN ALGORITMA KERJA

2.1 METODE SDLC
Metode ini menggunakan metode Systems development life cycle (SDLC) dengan model
sekuensial linier (sequential linear) atau alur hidup klasik (classic life cycle) yang meliputi
Analisis, Desain, Pengkodean dan Pengujian. Pada tahapan ini terdapat empat tahapan dapat
pada gambar berikut :
2.2 PERANCANGAN DAN PERMODELAN
Perancangan sistem merupakan proses multi langkah yang fokus pada rancangan pembuatan
perangkat lunak termasuk struktur data, arsitektur perangkat lunak, representasi antar muka,
dan prosedur pengkodean. Tahap ini mentranslasi kebutuhan perangkat lunak dari tahap
analisis kebutuhan yang merepresentasikan rancangan agar dapat diimplmentasikan menjadi
program pada tahap selanjutnya. Perancangan sistem yang dihasilkan pada tahap ini
didokumentasikan menggunakan pendekatan Object Oriented Programming (OOP) dengan
Unified Modeling Language (UML) yaitu use case menggambarkan proses yang dilakukan
oleh aktor, class diagram dan activity diagram. Implementasi K-Means Clustering mengikuti
alur flowchat berikut ini
3. PEMBAHASAN
3.1 Data Nilai siswa tentukan sebagai objek
Proses Algorthma K-means Clustering dilakukan melalui pengelompokan data dengan

tahapan sebagai berikut:
1. Tentukan jumlah cluster yang ingin dibentuk cluster.

2. Menentukan centroid (titik pusat cluster) awal pembangkitan bilangan secara Max. Dengan
C0 = Banyak objeck nilai dan C1 = Sedikit objeck nilai
3. Menghitung jarak setiap objeck ke titik pusat centroid dengan menggunakan rumus jarak
Euclidean Distance
4. Menghitung jarak tiap titik objeck dengan (data nilai siswa) menghasilkan nilai rata-rata
(mean) centroid 1: D12= (82-78)2 + (84–88)2 + (89–79)2 + (80 –82)2 + (85 – 83) 2 + (83 –
82,6) 2 = 8.2735464.
5. Menghitung jarak tiap titik objeck dengan (data nilai siswa) menghasilkan nilai rata-rata
(mean) centroid 2: D24 = (77-78)2 + (76–88)2 + (77–79)2 + (77–82)2 + (74–83) 2 + (79–
82,6) 2 = 16.3805524.
6. Mengelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroid.
7. Kembali ke tahap ke-2, lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan
anggota cluster tidak berpindah ke cluster lain
Proses Algoritma Kmeans
a. Membuktikan nilai kluster menajadi jumlah kluster yang dibentuk.
b. Membuktikan titik awal (centroid) kluster.
Dalam menentukan buah pusat cluster awal dilakukan pemilihan bilangan random yang
mempresentasikan urutan data input. Pusat awal kluster didapatkan dari data sendiri bukan
dengan menentukan titik baru, yaitu dengan mengacak (random) pusat awal dari data.
Kemudian untuk menghitung centroid cluster ke-I dengan menggunakan persamaan rumus
sebagai berikut :
(1)
Keterangan untuk rumus :
ν : Centroid pada kluster
xi : suatu rumus ke-j
n : merupakan objek/jumlah anggota kluster
c. Perdiksi jarak dengan pusat cluster
Buat mengukur suatu jarak setiap stok data dari titik awal cluster digunakan rumus Euclidian
Distance. Selilsih perhitungan akan dibandingkan dan dipilih pusat terdekat antara data
dengan pusat cluster, pusat ini menunjukan bahwa data tersebut berada dalam suatu group
dengan pusat cluster terdekat, berikut ini adalah Rumus dari proses:
(2)
Keterangan untuk rumus :
Xi : pusat titik kluster
Yi : jumlah data
d(x,y) : Euclidian Distance untuk menghitung jarak antara data pada titik x dan titik y
d. Mengelompokkan data
Setelah sekumpulan populasi data ditemukan dekat dengan salah satu centroid yang ada,
populasi data tersebut secara otomatis dimasukkan ke dalam kelas dengan centroid yang
sesuai.
e. langi dan gunakan rumus untuk menempatkan centroid baru

f. Jika masih ada kelompok pergeseran data, jika perubahan nilai centroid melebihi ambang
batas yang ditentukan, jika ambang batas yang ditentukan berubah, atau jika nilai fungsi
tujuan yang digunakan adalah Ulangi langkah 3 meski
2 Tahapan Data Mining
Data Mining termasuk dalam kumpulan Knowledge discovery in databases (KDD), yang
bersambung dengan seni mengintegrasikan dan penemuan ilmiah, interpretasi dan visualisasi
pola dalam kumpulan data. Urutan proses ini mempunyai fase-fase berikut:
a. Pembersihan data (untuk menghilangkan data dan noise yang tidak konsisten).
b. Integrasi data (penggabungan data dari berbagai sumber).
c. Transformasi data (data diubah menjadi format yang sesuai untuk penambangan).
d. Menerapkan teknik data mining, proses penggalian pola dari data yang ada.
e. Evaluasi pola yang ditemukan (proses menafsirkan pola pengetahuan yang dapat digunakan
untuk mendukung pengambil keputusan).
f. Penyajian pengetahuan (menggunakan teknik visualisasi).
3 Proses Knowledge Discovery in Databases (KDD)
Proses Tahapan ini dimulai bagian dari proses pencarian pengetahuan yang memeriksa untuk
melihat apakah ada pola atau informasi yang ditemukan berdampak dengan fakta atau
hipotesis yang ada[10].
Gambar 1. Proses KDD
4 Flowchart Tampilan Proses K-Means Pada Program
Flowchart ini menjelaskan alur untuk proses k-means yang ada pada program setelah data
sudah di importkan ke dalam program yang telah di buat, proses ini dijelaskan sampai selesai
hingga dapat menghasilkan hasil cluster
Gambar 2. Proses K-Means
HASIL DAN PEMBAHASAN
Pada pembahasan bab ini mengenai analisa metode, implementasi ataupun pengujian serta
pembahasan dari topik penelitian, yang bisa dibuat terlebih dahulu metodelogi algoritme
penelitian. Bagian ini juga merepresentasikan penjelasan yang berupa penjelasan, gambar,
tabel dan lainnya.
1 Data Uji K-Means Clustering
Berikut data asli yang akan di proses menggunakan k-means clustering.

Tabel 1. Data Asli
Kode Barang Stok Awal Stok Akhir
K-001 150 145
K-002 150 145
K-003 150 144
K-004 150 143
K-005 150 147
K-006 150 135
K-007 150 138
K-008 150 138
K-009 150 135
K-010 150 142
K-011 100 95
K-012 100 92
K-013 100 97
K-014 100 89
K-015 100 98
K-016 120 109
K-017 120 105
K-018 120 112
K-019 120 115
K-020 120 117
Berikut data yang sudah di preprocesscing atau di normalisasikan menggunakan codingan

program yang telah dibuat.
Tabel 2. Data Normalisasi
Kode Barang Stok Awal Stok Akhir

K-001 1 0.965517241
K-002 1 0.965517241
K-003 1 0.948275862
K-004 1 0.931034483
K-005 1 1
K-006 1 0.793103448
K-007 1 0.844827586
K-008 1 0.844827586
K-009 1 0.793103448
K-010 1 0.913793103
K-011 0 0.103448276
K-012 0 0.051724138
K-013 0 0.137931034
K-014 0 0
K-015 0 0.155172414
K-016 0.4 0.344827586
K-017 0.4 0.275862069
K-018 0.4 0.396551724
K-019 0.4 0.448275862
K-020 0.4 0.482758621
2 Proses Dari Algoritme Perhitungan Clustering
Pada perhitungan ini dilakukan mengkategorikan data pemasaran untuk dijalankan melalui
data Excel yang disediakan oleh peneliti menggunakan teknik clustering K-Means. Di bawah
ini adalah proses dari algoritma K-Means. di mana proses input adalah jumlah catatan data
dan inisialisasi centroid melompat C=3, menurut penelitian ini. Dari banyaknya data
penjualan yang diperoleh, peneliti menerapkan algoritma K-Means pada lima jenis produk
sebagai sampel. Pengujian dilakukan dengan menggunakan parameter berikut:
Nilai Kluster : 3
Data Contoh : 20
Berikut data atribut dan tabel yang di gunakaan peneliti , untuk data yang di gunakan peneliti
hanya data stok awal dan stok akhir saja berguna untuk menentukan penjualan pada toko
tersebut. Stok awal dan stok akhir untuk menentukan clustering.
Iterasi ke-1
a. Penetapan Awal Pusat Kluster
Pusat awal kluster atau centroid didapatkan secara random, untuk penentuan awal kluster
adalah :
Pusat cluster 1 : (1, 0.9)
Pusat cluster 2 : (0.4,0.389655)
Pusat cluster 3 : (0 , 0.089655)
b. Perhitungan jarak pusat kluster percobaan 1
Untuk mengukur jarak antara data dengan pusat cluster digunakan Euclidian distance,
kemudian akan didapatkan matrik jarak sebagai berikut :
Rumus Euclidian Distance :
(3)
Xi = Pusat kluster
Yi = data
d(x,y) = Euclidian Distance merupakan jarak antara data pada titik x dan titik y.
Dari 200 data dijadikan contoh telah dicari pusat awal cluster yaitu :
C1(1,0.9),C2(0.4,0.389655),dan C3(0,0.089655). Kemudian dilakukan perhitungan jarak dari
sisa percontohan data dengan pusat cluster yang dimisalkan dengan M(a,b) dimana a bagian
dari stok awal , dan b stok akhir.
Hitung Hasil Perhitungan Euclidean distance dari semua data ketiap titik pusat pertama :
d=√(Mx – Cx)2 + (My – Cy)2 = √(100 – 1)2 + (99 – 0.9)2= 0.06551724
Hitung Hasil Perhitungan Euclidean distance dari semua data ketiap titik pusat kedua :
d = √(Mx – Cx )2 + ( My – Cy)2 = √(100 – 0.4)2 + (99 – 0.389655)2 = 0.83163521
Hitung Hasil Perhitungan Euclidean distance dari semua data ketiap titik pusat ketiga :
d = √(Mx – Cx )2 + ( My – Cy)2 =√(100 – 0)2 + (99 – 0.089655)2 = 1.32933606

Hasil perhitungan Euclidean distance :
Tabel 3. Hasil Perhitungan Euclidian Distance
Kode Barang C1 C2 C3
K-001 0.06551724 0.83163521 1.32933606
K-002 0.06551724 0.83163521 1.32933606
K-003 0.04827586 0.81979087 1.31804002
K-004 0.03103448 0.8081408 1.30687381
K-005 0.1 0.85587429 1.35230459
K-006 0.10689655 0.72302871 1.22263628
K-007 0.05517241 0.75311482 1.25311028
K-008 0.05517241 0.75311482 1.25311028
K-009 0.10689655 0.72302871 1.22263628
K-010 0.0137931 0.79669352 1.29584078
K-011 1.27847356 0.49184793 0.0137931
K-012 1.3113245 0.5236386 0.03793103
K-013 1.25727845 0.47261511 0.04827586
K-014 1.3453624 0.55841844 0.08965517
K-015 1.24690342 0.46366169 0.06551724
K-016 0.81744505 0.04482759 0.47446071
K-017 0.86576449 0.1137931 0.44121764
K-018 0.78323698 0.00689655 0.50416812
Berikut ini akan ditampilkan data matriks pengelompokan golongan iterasi 3 , nilai 1 berati
data tersebut berada dalam golongan (kelompok data).
Tabel 4. Hasil Pengelompokkan Clustering
Kode Barang C1 C2 C3
K-001 1
K-002 1
K-003 1
K-004 1
K-005 1
K-006 1
K-007 1
K-008 1
K-009 1
K-010 1
K-011 1
K-012 1
K-013 1
K-014 1
K-015 1
K-016 1
K-017 1
K-018 1
Anggota C1 = {K-001,K-002,K-003,K-004,K-005,K-006,K-007,K-008,K-009,K-010}
Anggota C2 = {K-016,K-017,K-018,K-019,K-020}
Anggota C3 = {K-011,K-012,K-013,K-014,K-015}
Kesimpulan Dari Proses :
Tingkat keuntungan juga rendah untuk produk yang anggota C1 dan di bawahnya memiliki
sedikit aktivitas penjualan. Kaos C2 tergolong kaos profit dan penjualan sedang, dan kaos C3
tergolong kaos tingkat penjualan dan profit keuntungan tinggi.
3 Hasil Program
Implementasi Hasil Program adalah langkah menuju pengoperasian sistem yang sedang dibangun.
Penelitian ini menjelaskan bagaimana sistem bekerja. Di bawah ini adalah tampilan implementasi
Data Mining Group Opening Inventory dan Closing Inventory di toko retail T-shirt.
3.2 Perancangan Sistem

Perancangan use case diagram mendeskripsikan sebuah interaksi antara satu atau lebih actor
dengan sistem informasi yang akan dibuat serta menggambarkan fungsionalitas yang
diterapkan dari sebuah sistem. Use case digunakan untuk mengetahui fungsi apa saja yang
ada didalam sebuah sistem informasi dan siapa saja yang berhak menggunakan fungsi-fungsi.
Berikut mendeskripsikan alur kerja actor dalam system di terapakn sebagai berikut.
Tabel 3.2 Definisi Alur Use Case Diagram Admin
NO Actor Deskripsi
1 Admin Memiliki wewenang sebagai pengelola system admin dan
memiliki akses login, mengelola data tahunajaran, mengelola
data master kelas, mengelola data nilai siswa, mengelola
import data nilai legger, mengelola data user admin,
mengelola data wali kelas, mengelola penetuan form input
centroid cluster awal, mengelola data k-means
pengelompokan atau kumpulan dari nilai rat-rata- mean
jumlah item anggota setiap iterasi.
2 Wali Kelas Memiliki akses system, mengeloal data form input nilai
legger, mengelola import nilai legger, mengelola data wali
kelas
Penggambaran Use Case Diagram yang terdiri dari 2 aktor untuk proses pengelompokan
siswa masuk kelas unggulan digambarkan sebagai berikut berikut.
4. KELEBIHAN DAN KEKURANGAN
Kelebihan Algoritma K-means

• Adapun kelebihan dari algoritma K-Means adalah sebagai berikut:
• Relatif sederhana dan mudah untuk diterapkan.
• Dapat diskalakan untuk dataset dalam jumlah besar.
• Mudah beradaptasi dengan contoh baru.
• Umum diimplementasikan ke cluster dengan bentuk dan ukuran yang berbeda, seperti
cluster elips.
Kekurangan Algoritma K-means

• Adapun kelemahan atau kekurangan dari algoritma K-means di antaranya:
• Perlu menentukan nilai k secara manual
• Sangat bergantung pada inisialisasi awal. Jika nilai random untuk inisialisasi kurang
baik, maka pengelompokkan yang dihasilkan pun menjadi kurang optimal.
• Dapat terjadi curse of dimensionality. Masalah ini timbul jika dataset memiliki
dimensi yang sangat tinggi. Cara kerja algoritma ini adalah mencari jarak terdekat
antara k buah titik dengan titik lainnya. Mencari jarak antar titik pada 2 dimensi,
kemungkinan masih mudah dilakukan. Namun apabila dimensi bertambah menjadi 20
tentunya hal ini akan menjadi sulit.
• K-means mengalami kesulitan mengelompokkan data di mana cluster memiliki ukuran
dan kepadatan yang bervariasi.

Data Mining Kelompok Kmeans

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining Kelompok Kmeans

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining Kelompok Kmeans

Diunggah oleh

Hak Cipta:

Format Tersedia

Algoritma K-means Clustring dalam Penetuan Siswa

Langkah-langkah melakukan clustering dengan metode K-Means adalah sebagai berikut:

1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.

4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).

2. TAHAPAN ALGORITMA KERJA

Proses Algorthma K-means Clustering dilakukan melalui pengelompokan data dengan

1. Tentukan jumlah cluster yang ingin dibentuk cluster.

a. Membuktikan nilai kluster menajadi jumlah kluster yang dibentuk.

b. Membuktikan titik awal (centroid) kluster.

Keterangan untuk rumus :

ν : Centroid pada kluster

xi : suatu rumus ke-j

n : merupakan objek/jumlah anggota kluster

c. Perdiksi jarak dengan pusat cluster

Keterangan untuk rumus :

Xi : pusat titik kluster

e. langi dan gunakan rumus untuk menempatkan centroid baru

2 Tahapan Data Mining

b. Integrasi data (penggabungan data dari berbagai sumber).

f. Penyajian pengetahuan (menggunakan teknik visualisasi).

3 Proses Knowledge Discovery in Databases (KDD)

Gambar 1. Proses KDD

4 Flowchart Tampilan Proses K-Means Pada Program

Gambar 2. Proses K-Means

HASIL DAN PEMBAHASAN

1 Data Uji K-Means Clustering

Berikut data asli yang akan di proses menggunakan k-means clustering.

Kode Barang Stok Awal Stok Akhir

K-001 150 145

K-002 150 145

K-003 150 144

K-004 150 143

K-005 150 147

K-006 150 135

K-007 150 138

K-008 150 138

K-009 150 135

K-010 150 142

K-016 120 109

K-017 120 105

K-018 120 112

K-019 120 115

K-020 120 117

Berikut data yang sudah di preprocesscing atau di normalisasikan menggunakan codingan

Tabel 2. Data Normalisasi

Kode Barang Stok Awal Stok Akhir

K-016 0.4 0.344827586

K-017 0.4 0.275862069

K-018 0.4 0.396551724

K-019 0.4 0.448275862

K-020 0.4 0.482758621

2 Proses Dari Algoritme Perhitungan Clustering

a. Penetapan Awal Pusat Kluster

Pusat cluster 1 : (1, 0.9)

Pusat cluster 2 : (0.4,0.389655)

Pusat cluster 3 : (0 , 0.089655)

b. Perhitungan jarak pusat kluster percobaan 1

Rumus Euclidian Distance :