Nothing Special   »   [go: up one dir, main page]

Terjemahan + Review

Unduh sebagai rtf, pdf, atau txt
Unduh sebagai rtf, pdf, atau txt
Anda di halaman 1dari 15

DEEP LEARNING PADA AKHIR DANGKAL: KLASIFIKASI MALWARE UNTUK

AHLI NON-DOMAIN

ABSTRAK
Pendekatan deteksi dan klasifikasi malware saat ini umumnya mengandalkan proses yang
memakan waktu dan pengetahuan yang intensif untuk mengekstrak pola dan perilaku malware,
yang kemudian digunakan untuk identifikasi. Selain itu, tanda tangan ini sering terbatas pada
urutan lokal, berdekatan dalam data sementara mengabaikan konteksnya dalam kaitannya dengan
satu sama lain dan di seluruh file malware secara keseluruhan. Kami menyajikan pendekatan
klasifikasi malware berbasis Pembelajaran Mendalam yang tidak memerlukan pengetahuan
domain ahli dan didasarkan pada pendekatan murni yang digerakkan oleh data untuk pola
kompleks dan identifikasi fitur.

1. Pendahuluan
Di lembaga penegak hukum di seluruh dunia, ada peningkatan backlog digital forensik dari
perangkat digital yang tidak diimobilisasi, belum diolah, dan tidak dianalisis yang disimpan
dalam loker bukti (Scanlon, 2016). Pertumbuhan ini disebabkan oleh beberapa faktor peracikan.
Besarnya volume kasus yang membutuhkan pemrosesan forensik digital jauh melampaui
kejahatan yang dilakukan secara digital seperti phishing, berbagi konten ilegal secara online,
penipuan kartu kredit daring, dll., Terhadap kejahatan "tradisional" seperti pembunuhan,
menguntit, penipuan keuangan, dll. volume data yang akan dianalisis per kasus terus
berkembang dan ada persediaan terbatas personel terlatih yang mampu melakukan analisis yang
dapat diterima oleh para ahli, dapat diterima di pengadilan, dan dapat direproduksi yang
diperlukan oleh pemrosesan forensik digital.
Untuk mengatasi faktor yang terakhir, banyak pasukan polisi telah menerapkan model
responden / triase pertama untuk memungkinkan pembuktian bukti di tempat dan mengamankan
integritas dari bukti yang dikumpulkan (Hitchcock et al., 2016). Model-model ini melatih
petugas lapangan dalam penanganan perangkat digital yang mahir di TKP yang memungkinkan
penyelidik digital ahli yang tersedia untuk tetap dalam kasus-kasus pemrosesan laboratorium.
Dalam model ini, responden pertama tidak terlatih dalam tahap analisis atau investigasi kasus,
tetapi dapat memastikan integritas dan pengadilan dapat diterima dari bukti yang dikumpulkan.
Sementara sumber daya fisik dalam hal perangkat keras, pelatihan responden pertama, dan
peningkatan jumlah tenaga ahli terampil dapat meningkatkan kapasitas forensik digital badan,
komunitas riset forensik digital telah mengidentifikasi kebutuhan untuk otomasi dan pemrosesan
bukti cerdas (Sun, 2010). Salah satu tugas yang lebih padat karya dan sangat terampil yang
dihadapi dalam penyelidikan forensik digital adalah analisis malware. Teknik umum untuk
menganalisis malware adalah mengeksekusi malware di mesin sandbox / virtual untuk
mendapatkan wawasan tentang vektor serangan, pemasangan muatan, komunikasi jaringan, dan
analisis perilaku perangkat lunak dengan beberapa jepretan yang diambil sepanjang analisis
siklus hidup malware. Ini adalah tugas manual yang sulit, memakan waktu, yang sering dapat
berlangsung selama beberapa hari. Sebuah survei pemeriksa forensik digital yang dilakukan oleh
Hibshi et al. (2011) menemukan bahwa pengguna sering kewalahan oleh jumlah latar belakang
teknis yang diperlukan untuk menggunakan alat forensik umum. Hal ini menghasilkan
penghalang tinggi untuk masuk bagi peneliti digital untuk memperluas keterampilan mereka
untuk menyertakan topik tambahan keahlian, seperti analisis malware.
Artificial Intelligence (AI) yang dikombinasikan dengan otomatisasi pemrosesan bukti digital
pada tahapan investigasi yang tepat memiliki potensi signifikan untuk membantu peneliti digital.
AI dapat mempercepat proses investigasi dan akhirnya mengurangi backlog kasus sambil
menghindari bias dan prasangka (James dan Gladyshev, 2013). Tampilan aplikasi AI untuk
keamanan dan forensik digital disediakan di (Franke dan Srihari, 2008) dan (Mitchell, 2014).
Sejumlah pendekatan telah diterapkan untuk membantu digital
1.1. Kontribusi dari karya ini
Kontribusi dari pekerjaan ini dapat diringkas sebagai:
- Gambaran umum dari teknik yang ada untuk analisis malware dari perspektif manual dan
otomatis.
- Sebuah pendekatan untuk memungkinkan klasifikasi malware oleh analisis malware non-
ahli, yaitu, tidak ada keahlian yang diperlukan atas nama pengguna dalam rekayasa terbalik /
pembongkaran biner, bahasa assembly, analisis perilaku, dll.
- Tanpa menggunakan teknik fitur kompleks, model pembelajaran mendalam kami
mencapai akurasi tinggi 98,2% dalam mengklasifikasikan file mentah mentah ke dalam
salah satu dari 9 kelas malware. Model kami membutuhkan 0,02 detik untuk memproses satu
file biner dalam eksperimen kami pada workstation desktop biasa; waktu proses yang
singkat ini memiliki potensi kepentingan praktis ketika menerapkan model dalam kenyataan.
- Representasi satu dimensi kami dari file biner mentah mirip dengan representasi gambar
dari file biner mentah (Nataraj et al., 2011); tetapi lebih sederhana, dan menjaga urutan
berurutan dari kode byte dalam binari. Pernyataan sekuensial membuatnya alami bagi kita
untuk menerapkan Convolutional Neural Network - Bi Long Short Term Memory
architecture (CNN-BiLSTM) di atasnya; membantu kami mencapai kinerja yang lebih baik
daripada menggunakan model CNN saja.
2. Tinjauan literatur / keadaan seni
Ada kebutuhan yang terus meningkat untuk alat-alat non-ahli untuk melakukan penemuan dan
analisis bukti digital (Sun, 2010; van de Weil et al., 2018). Karena meningkatnya keterlambatan
dalam memproses bukti forensik digital di lembaga penegak hukum di seluruh dunia, ada fokus
dalam penelitian forensik digital dan komunitas vendor dalam memberdayakan detektif kasus
non-ahli untuk melakukan beberapa analisis awal pada bukti yang dikumpulkan. dengan cara
yang sangat suara (Lee et al., 2010). Untuk tujuan ini, Belanda Forensic Institute (NFI) telah
mengimplementasikan Digital Forensics sebagai solusi Layanan untuk mempercepat pemrosesan
forensik digital (Casey et al., 2017). Sistem ini memfasilitasi petugas kasus dalam mengunggah
bukti ke sistem berbasis cloud pribadi. Prapemrosesan awal dilakukan dan petugas dapat
menelusuri bukti untuk menggali informasi yang berpotensi berkembang.
2.1. Backlog forensik digital
Kemampuan penyimpanan meningkat secara eksponensial sementara kasus-kasus pengadilan
yang berkaitan dengan kejahatan cyber sedang diberhentikan. Menurut Ratnayake dkk. (2014),
kemungkinan penuntutan dapat dikurangi karena ketidakpastian dalam menentukan usia korban
yang digambarkan dalam gambar digital. Pekerjaan mereka dianggap sebagai tantangan paralel
untuk estimasi usia yang memindai permukaan drive disk semata. Mereka menyadari backlog
yang unggul karena kurangnya ahli yang relevan untuk menganalisis pelanggaran dan proses
forensik digital yang melelahkan. Per Scanlon (2016), faktor-faktor ini akan terus mempengaruhi
throughput forensik laboratorium digital; oleh karena itu, menghalangi penyelidik forensik
digital di masa depan.
2.2. Pembelajaran mesin untuk analisis malware
Pembelajaran mesin menawarkan kemampuan untuk mengurangi banyak upaya manual yang
diperlukan dengan pendekatan tradisional untuk analisis malware, serta peningkatan akurasi
dalam deteksi dan klasifikasi malware. Dalam konteks analisis malware, model pembelajaran
mesin dilatih pada dataset contoh malware berlabel yang ada, dengan label baik dalam hal jahat
atau jinak dalam kasus klasifikasi biner, atau dalam hal jenis atau keluarga
malware untuk klasifikasi multi-kelas. Dalam kedua kasus, model belajar fitur yang
membedakan antara kelas dan dengan demikian dapat menyimpulkan, untuk contoh baru dan
yang sebelumnya tidak terlihat, apakah itu jahat atau jinak, atau yang keluarga malware itu milik
dengan tingkat akurasi tertentu.
Tentu saja ada banyak jenis dan variasi algoritma pembelajaran mesin yang berbeda dan
contoh-contoh pelatihan dapat diwakili dalam berbagai cara, yang semuanya mempengaruhi
akurasi klasifikasi dari model yang dihasilkan. Penelitian di lapangan umumnya melibatkan
evaluasi berbagai algoritma dan pendekatan pembelajaran mesin, bersama dengan berbagai jenis
fitur baru yang berasal dari data. Banyak pendekatan yang berbeda telah diajukan dan tinjauan
literatur yang komprehensif disediakan oleh Ucci dkk. (2017) dan Gandotra dkk. (2014).
Pada bagian berikutnya, kami fokus secara khusus pada pendekatan berdasarkan pembelajaran
mendalam (sejenis pembelajaran mesin) karena ini paling terkait dengan pekerjaan kami.
Namun, jenis fitur yang digunakan dan bagaimana mereka diekstraksi dalam konteks umum
pembelajaran mesin untuk klasifikasi malware juga merupakan relevansi kunci. Pembelajaran
mesin mengurangi banyak upaya manual yang diperlukan dengan pendekatan tradisional untuk
analisis malware dengan belajar secara otomatis untuk membedakan antara malware atau jinak
atau malware yang berbeda. Namun, analisis dan ekstraksi fitur dari data, di mana model
pembelajaran mesin beroperasi, masih memerlukan keahlian domain tingkat tinggi dalam
hubungannya dengan proses yang kompleks dan memakan waktu.
Ada dua keluarga fitur yang digunakan dalam analisis malware: mereka yang dapat diekstraksi
dari bytecode malware statis, dan yang membutuhkan kode malware untuk dieksekusi (biasanya
di lingkungan kotak pasir). Fitur statis termasuk informasi seperti instruksi prosesor, string
diakhiri null dan sumber daya statis lainnya yang terkandung dalam kode, impor pustaka sistem
statis, dan panggilan API sistem, dll. Fitur yang berasal dari kode yang dieksekusi menangkap
bagaimana malware berinteraksi dalam sistem operasi yang lebih luas dan jaringan dan dapat
mencakup panggilan dan interaksi API sistem dinamis dengan sumber daya sistem lainnya
seperti memori, penyimpanan, dan jaringan yang lebih luas, misalnya, menyambung ke sumber
daya eksternal melalui Internet.
Meskipun fitur dinamis yang diekstraksi dari kode yang dieksekusi umumnya membutuhkan
lebih banyak waktu dan sumber daya komputasi untuk mengekstrak daripada fitur dari kode
statis, kedua kasus tersebut memerlukan peralatan khusus dan lingkungan perangkat lunak e
belum lagi keahlian tingkat tinggi yang diperlukan untuk memahami dan mengekstraknya.
Manfaat utama dari pendekatan kami, yang kami sajikan secara rinci di bagian 3, adalah bahwa
model pembelajaran mendalam kami hanya membutuhkan raw, static bytecode sebagai input
tanpa ekstraksi fitur tambahan atau rekayasa fitur.
Sebelum melanjutkan untuk meninjau pendekatan pembelajaran mendalam umum untuk
klasifikasi malware di bagian berikutnya, pertama-tama kita diskusikan dua pendekatan
pembelajaran mesin yang mencoba memanfaatkan raw, static bytecode dengan cara yang
memiliki beberapa kesamaan dengan pekerjaan kita. Nataraj et al (2011) menginterpretasikan
bytecode mentah sebagai data gambar grayscale di mana setiap byte mewakili piksel grayscale,
dan mereka secara artifisial membungkus urutan byte ke dalam array dua dimensi. Mereka
kemudian memperlakukan tugas klasifikasi malware sebagai klasifikasi gambar dengan
menerapkan berbagai ekstraksi fitur dan teknik rekayasa fitur dari bidang pengolah gambar, dan
menggunakan pembelajaran mesin di atas ini. Terinspirasi oleh pendekatan ini, Ahmadi dkk.
(2016) menggunakan representasi data yang serupa, dan mereka mengevaluasi teknik ini
menggunakan dataset yang sama dengan yang kami evaluasi pekerjaan kami, namun mereka
tidak menggunakan pembelajaran yang mendalam. Kami menyediakan perbandingan akurasi
klasifikasi untuk pendekatan kami di bagian 4.1. Namun, penerapan teknik klasifikasi gambar ke
domain malware masih membutuhkan penggunaan prosedur ekstraksi fitur kompleks dan
keahlian domain.
2.3. Pembelajaran mendalam untuk klasifikasi malware
Deep Learning ((LeCun et al., 2015), (Schmidhuber, 2015)) adalah pendekatan pembelajaran
mesin yang telah mengalami banyak minat selama 5 tahun terakhir. Meskipun jaringan saraf
tiruan telah dipelajari selama beberapa dekade, kemajuan terbaru dalam daya komputasi dan
peningkatan volume data telah memungkinkan penerapan jaringan neural multi-layer (jaringan
saraf dalam) untuk dataset pelatihan besar, yang telah menghasilkan peningkatan kinerja yang
signifikan dibandingkan pembelajaran mesin tradisional teknik. Pembelajaran mendalam
sekarang bertanggung jawab untuk state-of-the-art dalam banyak tugas pembelajaran mesin yang
berbeda pada berbagai jenis data, misalnya, klasifikasi citra (Hu et al., 2017) dan pemahaman
bahasa alami dan transformasi (Young et al ., 2017). Klasifikasi malware juga telah menarik
perhatian para peneliti pembelajaran mendalam.
Mayoritas pendekatan pembelajaran mendalam yang diterapkan pada klasifikasi malware
melibatkan pelatihan jaringan saraf dalam atas jenis fitur ekstraksi yang sama di mana
pendekatan pembelajaran mesin tradisional diterapkan. Fitur-fitur ini memerlukan pengetahuan
khusus dan alat untuk menghasilkan dan biasanya melibatkan penguraian atau pembongkaran
biner perangkat lunak perusak atau menjalankan malware di lingkungan kotak pasir dan
mencatat serta menganalisis proses eksekusi dan memori proses, yaitu, apa yang dilakukan oleh
biner yang dieksekusi sebenarnya (Schaefer et al., 2017). Kami survei berbagai aplikasi
pembelajaran mendalam untuk klasifikasi malware dari perspektif jenis data dan fitur yang
digunakan.
2.3.1. Fitur dari kode statis
Saxe dan Berlin (2015) menyajikan jaringan syaraf maju ke depan untuk klasifikasi biner
malware yang dilatih pada berbagai fitur yang diekstraksi dari biner malware statis: impor
pustaka sistem, string ASCII yang dapat dicetak, bidang metadata dalam eksekusi serta urutan
byte dari kode mentah. Semua fitur ini memerlukan pemrosesan lebih lanjut dan kemudian
diumpankan ke jaringan empat lapisan maju ke depan.
Hardy dkk. (2016) mengusulkan kerangka DL4MD (Kerangka Pembelajaran Mendalam untuk
Deteksi Malware Cerdas), yang dilatih melalui panggilan API yang diekstraksi dari binari
perangkat lunak perusak. Database API diperlukan untuk mengubah referensi panggilan dari
format yang diekstrak dari kode menjadi ID global 32-bit yang mewakili panggilan API. Fitur-
fitur ini kemudian digunakan sebagai masukan untuk arsitektur pembelajaran mendalam
berdasarkan pada autoencoders yang ditumpuk.
Davis dan Wolff (2015) mendiskusikan suatu pendekatan di mana mereka menerapkan
jaringan saraf convolutional untuk klasifikasi biner ke kode byte malware yang dirakit. Kode
mentah yang dibongkar diproses lebih lanjut untuk menghasilkan kumpulan fitur yang lebih
teratur. Misalnya, mereka mengekstrak instruksi prosesor x86 individu, yang merupakan panjang
variabel, dan kemudian menerapkan padding atau pemotongan untuk membuat fitur panjang
tetap. Mereka juga mem-parsing kode yang dibongkar untuk mengekstrak impor kode, yang
mereka gunakan untuk menghasilkan vektor fitur panjang tetap lebih lanjut untuk setiap contoh.
Semua pendekatan yang disebutkan di atas memerlukan berbagai tingkat analisis mendalam
dari kode yang dibongkar untuk mengekstrak fitur-fitur khusus domain, yang kemudian
dimasukkan ke berbagai arsitektur pembelajaran mendalam. Pembeda utama pendekatan kami
adalah bahwa kami tidak memerlukan analisis spesifik domain atau penguraian kode byte
mentah yang dapat dieksekusi perangkat lunak. Arsitektur pembelajaran mendalam kami tidak
memerlukan informasi tambahan mengenai arti dari data mentah, atau bagaimana itu harus
ditafsirkan oleh jaringan saraf. Meskipun kami masih perlu menormalkan panjang data masukan,
karena ini adalah persyaratan dasar dari arsitektur pembelajaran mendalam yang kami gunakan,
kami melakukannya di seluruh tingkat file malware mentah dan kami menggunakan metode
independen konteks untuk mencapai hal ini seperti yang dijelaskan di bagian 3.2.
Metodologi kami meniadakan kebutuhan untuk teknik fitur kompleks yang membutuhkan
pengetahuan domain ahli dan alat-alat seperti disassemblers, tidak terbatas hanya untuk malware
yang dikompilasi untuk prosesor atau sistem operasi, dan jaringan saraf yang dalam dapat
mempelajari fitur-fitur kompleks langsung dari data daripada terkendala dengan yang direkayasa
oleh ahli manusia.
2.3.2. Fitur yang diekstraksi dari kode yang dieksekusi
Selain itu, berdasarkan pada klasifikasi malware berdasarkan berdasarkan fitur dari kode
malware statis yang diuraikan dan dibongkar sebagaimana dirangkum di atas, banyak pendekatan
juga memanfaatkan fitur yang berasal dari menjalankan malware di lingkungan kotak pasir dan
menganalisis perilaku lari proses. Meskipun keuntungan utama dari metodologi kami adalah
bahwa ini hanya membutuhkan kode byte malware mentah sebagai masukan, kami juga
menyertakan ringkasan berikut dari pendekatan alternatif ini.
Seperti halnya pembelajaran mesin yang lebih tradisional berdasarkan klasifikasi malware,
penggunaan sistem panggilan API yang dicatat dari menjalankan proses malware adalah sumber
fitur input yang populer. Dahl et al. jaringan saraf terlatih antara satu dan tiga lapisan
tersembunyi pada fitur yang dihasilkan dari panggilan API sistem serta string diakhiri null yang
diekstraksi dari memori proses (Dahl et al., 2013). Teknik proyeksi acak digunakan untuk
mengurangi dimensi fitur untuk yang dapat dikelola oleh jaringan saraf. Huang dan Stokes
(2016) mengusulkan arsitektur pembelajaran mendalam alternatif yang menggunakan fitur
serupa, namun model mereka membahas pembelajaran multi-tugas di mana arsitektur
pembelajaran mendalam yang sama memberikan klasifikasi biner malware / jinak serta
klasifikasi jenis malware.
David dan Netanyahu menerapkan jaringan kepercayaan yang mendalam (DBN) untuk mencatat
file yang dihasilkan langsung oleh lingkungan kotak pasir. Ini menangkap panggilan API serta
acara lain dari menjalankan malware sebagai representasi berurutan (David dan Netanyahu,
2015). Demikian pula, Pascanu dkk. (2015) menerapkan Recurrent Neural Network (RNN) ke
aliran acara panggilan API, dalam hal ini disandikan sebagai 114 kejadian tingkat yang lebih
tinggi oleh mesin analisis malware. Penggunaan RNN menangkap hubungan peristiwa-peristiwa
ini sepanjang waktu, dan serupa fungsinya dengan komponen LSTM dari arsitektur pembelajaran
mendalam kami. Namun kami menggunakannya untuk menangkap hubungan posisi pola dalam
file bytecode malware statis daripada hubungan temporal. Kolosnjaji dkk. (2016) mengusulkan
arsitektur pembelajaran mendalam yang serupa dengan metodologi kami, yang juga didasarkan
pada lapisan CNN dan LSTM. Namun, data input adalah urutan dari panggilan API sistem yang
diekstraksi menggunakan lingkungan kotak pasir yang sama seperti yang digunakan oleh David
dan pendekatan Netanyahu yang dibahas di atas 30. Lapisan CNN menangkap rangkaian lokal
panggilan API, sementara lapisan LSTM memodelkan hubungan antara rangkaian lokal ini di
seluruh waktu. Dalam pendekatan kami, karena kami tidak memerlukan eksekusi aktual dari
kode malware, lapisan CNN malah menangkap urutan dan pola lokal dalam bytecode pada
tingkat spasial, dan layer LSTM memodelkan hubungan jarak jauh mereka di seluruh file.
Daripada menggunakan urutan panggilan API sederhana, Tobiyama dkk. (2016) menggunakan
representasi perilaku proses malware yang lebih detail. Mereka mencatat rincian setiap operasi
seperti nama proses, ID, nama acara, jalur direktori saat ini di mana operasi dijalankan, dll.
Mereka kemudian menerapkan RNN untuk membangun model bahasa perilaku dari data ini,
yang outputnya diubah menjadi gambar fitur. Sebuah CNN kemudian dilatih melalui gambar-
gambar fitur ini untuk menghasilkan klasifikasi biner malware / jinak. Seperti halnya pendekatan
yang diuraikan sebelumnya yang menggunakan fitur yang diambil dari mengeksekusi kode
malware, proses yang diperlukan untuk mengumpulkan data itu rumit dan memakan waktu.
Dalam kasus khusus ini, setiap malware atau contoh non-malware dieksekusi dan dianalisis
selama 100 menit (5 menit penebangan, diikuti dengan interval 5 menit dan ini diulang 10 kali).
Penyiapan lingkungan kotak pasir yang kompleks juga diperlukan, yang kemungkinan
merupakan faktor lain yang menghasilkan kumpulan data evaluasi terbatas yang dihasilkan -
hanya 81 malware dan 69 contoh jinak.
Dalam skenario dunia nyata, sistem pertahanan malware yang memanfaatkan pembelajaran
mesin berdasarkan klasifikasi malware harus dapat beradaptasi dengan varian baru dan
merespons jenis malware baru. Jika pendekatan tersebut membutuhkan proses yang kompleks,
waktu dan sumber daya untuk mengekstraksi fitur yang diperlukan untuk model pembelajaran
mesin, ini akan berdampak buruk terhadap kegunaan solusi. Ini adalah motivasi utama untuk
pendekatan kami dan oleh karena itu kami fokus untuk hanya menggunakan bytecode malware
mentah yang statis dengan preprocessing data minimal.
Sebelum kami menjelaskan metodologi kami secara rinci di bagian berikutnya, kami akan
menyimpulkan tinjauan pustaka kami dengan dua pendekatan yang paling mirip dengan
metodologi kami. Raff et al. (2017) mendeskripsikan motivasi yang sangat mirip untuk
pendekatan pembelajaran mendalam mereka untuk klasifikasi malware - kebutuhan untuk
menghapus persyaratan untuk teknik fitur manual yang kompleks. Serupa dengan pekerjaan
kami, mereka fokus pada raw malware bytecode dan penerapan teknik pembelajaran mendalam
langsung ke data ini. Namun, ketika dihadapkan pada tantangan bagaimana bekerja dengan
sekuen byte yang begitu panjang, mereka mengambil pendekatan yang berbeda yang melibatkan
perancangan arsitektur pembelajaran mendalam atipikal yang dapat menangani sekuens input
panjang tersebut. Solusi kami, di sisi lain, adalah dengan hanya menggunakan pendekatan skala
data generik (down sampling) sebagai langkah pra-pemrosesan, setelah itu arsitektur
pembelajaran mendalam yang lebih standar dapat diterapkan. Meskipun pendekatan ini, yang
menurut sifatnya mengurangi detail dalam data, mungkin secara intuitif dianggap sebagai
mengakibatkan akurasi klasifikasi berkurang secara drastis, kami menunjukkan melalui evaluasi
bahwa sinyal yang cukup tetap dalam data untuk jaringan pembelajaran mendalam untuk
mengeksploitasi dan mencapai tingkat akurasi yang sangat tinggi. Akhirnya, termotivasi oleh
kerja Ahmadi (Ahmadi et al., 2016), dan dengan kesamaan dengan (Nataraj et al., 2011), Gibert
(Gibert Llaurad ́o, 2016) menerapkan CNN ke malware bytecode yang direpresentasikan sebagai
gambar grayscale dua dimensi. Pendekatan pengambilan sampel yang sama seperti yang kami
lakukan diterapkan untuk menormalkan ukuran setiap sampel menjadi 32 x 32 piksel. Perbedaan
utama dengan pendekatan kami adalah bahwa kami menggunakan malware mentah bytecode
dalam representasi satu dimensi aslinya (kami tidak secara artifisial membungkus urutan byte
untuk membuat representasi 2D), dan kami mempertahankan lebih detail dengan menurunkan
sampling data menjadi 10.000 byte lebih dari 1024 (32 x 32). Dalam hal arsitektur pembelajaran
mendalam, kami menggunakan lapisan LSTM di atas lapisan CNN untuk menangkap hubungan
di antara pola lokal di seluruh sampel malware. Kami menggunakan dataset evaluasi yang sama
dan setup eksperimental sebagai pekerjaan oleh Gilbert sehingga kami dapat langsung
membandingkan pendekatan, dan kami mengamati peningkatan yang signifikan dalam akurasi
klasifikasi dengan pendekatan kami yang kami sajikan secara lebih rinci dalam Bagian 4.1.
3. Metodologi
Pada bagian ini, kami mendeskripsikan pendekatan berdasarkan pembelajaran kami untuk
klasifikasi malware secara rinci, termasuk kumpulan data yang kami gunakan untuk eksperimen
kami, prapemrosesan data, arsitektur pembelajaran mendalam, dan desain eksperimental.
3.1. Dataset
Untuk percobaan kami, kami menggunakan data malware dari Microsoft Malware
Classification Challenge (BIG, 2015) pada Kaggle (Ronen et al., 2018). Meskipun tantangan
Kaggle sendiri selesai pada tahun 2015, dataset pelatihan berlabel dari 10, 868 sampel masih
tersedia dan mewakili kumpulan besar contoh yang diklasifikasikan ke dalam kelas malware,
seperti yang ditunjukkan pada Tabel 1. Serta mampu menggunakan data ini untuk baik melatih
dan mengevaluasi pendekatan pembelajaran mendalam kita sendiri, tantangan Kaggle masih
memungkinkan pengajuan prediksi untuk tes terpisah yang tidak berlabel dari 10, 873 sampel
untuk evaluasi.
Setiap contoh malware berlabel terdiri dari representasi heksadesimal mentah dari konten
biner file, tanpa header PE (untuk memastikan kemandulan) . Selain itu, representasi metadata
juga disediakan, yang mencakup rincian panggilan fungsi, string tertanam, dll, yang diekstraksi
menggunakan alat disassembler. Karena fokus dari pekerjaan kami adalah penerapan teknik
pembelajaran mendalam untuk mengklasifikasikan malware berdasarkan pada konten file biner
mentah, kami hanya mempertimbangkan representasi file heksadesimal mentah, dan
mengubahnya menjadi representasi binernya.
3.2. Pemrosesan data awal
Salah satu manfaat dari pembelajaran mendalam atas teknik pembelajaran mesin lainnya adalah
kemampuannya untuk diterapkan di atas data mentah tanpa perlu teknik fitur manual dan spesifik
domain. Ini adalah motivasi utama untuk pekerjaan kami - kemampuan mengelompokkan
malware secara efisien tanpa memerlukan keahlian khusus dan proses yang memakan waktu
untuk mengidentifikasi dan mengekstrak tanda tangan malware. Untuk memparalelkan
perhitungan dalam pelatihan dan menguji model secara efisien, pendekatan pembelajaran
mendalam kami mengharuskan setiap file menjadi ukuran standar, dan dalam kasus malware
ukuran file sangat bervariasi, seperti ditunjukkan pada Gambar. 1. Selain memiliki ukuran yang
sama, dari perspektif komputasi, metode pembelajaran mendalam kami mengharuskan ukuran ini
dibatasi sehingga menjaga proses pelatihan model praktis menggunakan perangkat keras standar.
Ada sejumlah opsi yang dapat kami ambil untuk menstandardisasi ukuran file termasuk padding
dan pemotongan, namun kami merancang model pembelajaran mendalam kami untuk
mengidentifikasi dan mendeteksi pola dan struktur umum dalam data file malware; maka kita
ingin mempertahankan struktur asli sebanyak mungkin. Untuk tujuan ini, kami menggunakan
algoritme skala gambar generik, di mana kode byte file ditafsirkan sebagai 'gambar' satu dimensi
dan diskalakan ke ukuran target tetap. Ini adalah tipe kompresi data lossy. Namun, dengan
menggunakan algoritma penskalaan gambar, kami bertujuan untuk membatasi distorsi pola
spasial yang ada dalam data. Dibandingkan dengan pendekatan pengubahan file biner malware
ke gambar 2D sebelum melakukan klasifikasi, pendekatan kami lebih sederhana karena kami
tidak harus membuat keputusan tentang tinggi dan lebar gambar. Juga mengkonversi file biner ke
aliran byte mempertahankan urutan kode biner dalam file asli, dan ini representasi berurutan dari
file biner mentah membuatnya alami bagi kita untuk menerapkan arsitektur jaringan saraf
berulang untuk itu. Dalam pengalaman kami yang mengikuti, kami skala setiap file malware
mentah untuk ukuran 10.000 byte menggunakan perpustakaan visi komputer OpenCV (Bradski,
2000) - yaitu setelah penskalaan satu sampel malware sesuai dengan satu urutan 10, 000 1-byte
nilai-nilai.
Gambar. 2 menunjukkan sejumlah contoh file malware yang telah diskalakan menggunakan
pendekatan ini, dan kemudian direpresentasikan sebagai gambar grayscale dua dimensi (satu
byte per piksel), di mana gambar dibungkus menjadi dua dimensi murni untuk tujuan visualisasi.
Pola spasial dalam data baik pada skala lokal dan pada tingkat file terlihat dan ini adalah fitur
dan pola mentah yang dirancang untuk dieksploitasi oleh arsitektur pembelajaran mendalam
kami.
3.3. Arsitektur pembelajaran mendalam
Kami menggunakan arsitektur belajar mendalam yang berbeda untuk percobaan kami. Kami
pertama menerapkan beberapa convolutional neural layers (CNNs) (LeCun et al., 1995) pada
sequential sequential satu representasi file. Karena lapisan neural konvolusional bergeser
invariant, ini membantu model menangkap satu pola spasial dimensi dari kelas malware di mana
pun mereka muncul di file.
Di atas lapisan konvolusional, kami menerapkan dua pendekatan yang berbeda. Dalam model
pertama kami, kami menghubungkan output dari lapisan konvolusional ke lapisan padat, lalu ke
lapisan keluaran dengan aktivasi softmax untuk mengklasifikasikan setiap masukan ke salah satu
dari sembilan kelas malware, seperti yang ditunjukkan pada Gambar. 3. CNN- ini berdasarkan
pendekatan mengklasifikasikan representasi satu dimensi dari file biner menggunakan pola lokal
masing-masing kelas malware, dan merupakan arsitektur jaringan saraf yang dominan dan sangat
sukses dalam klasifikasi gambar (Krizhevsky et al., 2012).
Untuk model kedua dan ketiga, kami menerapkan lapisan jaringan saraf berulang, modul Long
Short Term Memory (LSTM) (Hochreiter dan Schmidhuber, 1997), di atas lapisan
konvolusional, sebelum memberi makan hasil dari lapisan berulang ke lapisan keluaran. untuk
mengklasifikasikan input ke salah satu dari sembilan kelas malware. Alasan kami di balik
pendekatan ini adalah karena ada ketergantungan antara potongan kode yang berbeda dalam file
biner, lapisan berulang di atas lapisan CNN akan membantu meringkas isi seluruh file menjadi
satu vektor fitur sebelum memberikannya ke output. lapisan. Dalam model dua, CNN -
UniLSTM, kami menerapkan satu lapisan LSTM ke depan di atas lapisan konvolusional, di
mana sambungan yang menghubungkan sel dalam LSTM adalah dari awal hingga akhir file,
seperti ditunjukkan pada Gambar. 4 Tapi karena ketergantungan antara kode dalam file biner
tidak hanya satu arah, kami merancang model ketiga kami, CNN-BiLSTM, di mana kami
menghubungkan output dari lapisan konvolusional ke satu lapisan LSTM ke depan dan satuke
belakang gambar. Convolutional Neural Network ditambah arsitektur Long Short Term Memory
(CNN þ LSTM).
Lapisan LSTM. Output dari dua lapisan LSTM kemudian terkonsolidasi dan diumpankan ke
lapisan output, seperti dapat dilihat pada Gambar. 5.
3.4. Protokol percobaan
Karena kami hanya memiliki label file malware di set pelatihan dari tantangan Kaggle, kecuali
untuk langkah terakhir mengirimkan prediksi pada set tes ke situs Kaggle setiap hasil eksperimen
yang kami laporkan di sini diukur pada ini Kumpulan sampel. Untuk kesederhanaan, kita akan
merujuk pada set pelatihan dari tantangan Kaggle sebagai dataset utama.
Setelah langkah preprocessing, kami memiliki 10.860 sampel berlabel dalam dataset kami.
Karena ini bukan jumlah yang sangat besar, untuk mencapai ukuran yang lebih kuat, kami
menggunakan lima kali lipat validasi silang. Dataset dikocok dan dibagi menjadi lima bagian
yang sama, masing-masing dengan distribusi kelas yang kira-kira sama dengan dataset utama.
Untuk konfigurasi pembelajaran mendalam yang dipilih, kami menetapkan masing-masing dari
lima bagian sebagai bagian yang ditinggalkan, melatih satu model pada 4 bagian lainnya dan
mencatat prediksi untuk sampel di dalamnya. Kami kemudian mengumpulkan prediksi untuk
semua lima bagian dan menggunakannya untuk menghitung kinerja konfigurasi pembelajaran
mendalam yang dipilih.
Distribusi kelas dalam dataset sangat tidak seimbang, dengan jumlah sampel per kelas mulai
dari 42 sampel untuk kelas Simda hingga 2942 sampel untuk kelas Kelihos_v3. Selain
menggunakan akurasi klasifikasi mikro rata-rata untuk melaporkan kinerja model, kami juga
menilai kinerja model dengan skor F1 rerata makro untuk masing-masing kelas. Skor F1
melaporkan kinerja model pada setiap kelas sebagai rata-rata harmonik ketepatan dan penarikan
pada kelas tersebut, dan skor rata-rata makro F1 akan memperlakukan kinerja pada setiap kelas
yang sama pentingnya.
Kami mengambil satu langkah tambahan untuk mengatasi masalah ketidakseimbangan kelas.
Dalam satu langkah pelatihan model pembelajaran mendalam, batch ukuran yang dipilih,
misalnya 64 sampel, akan diambil dari data pelatihan, kemudian perhitungan ke depan dan
propagasi ke belakang digunakan untuk memodifikasi bobot model ke arah kinerja yang lebih
baik.
Modus pengambilan sampel default di mana semua sampel diambil secara acak dari data
pelatihan akan mengambil sampel sebagian besar dari kelas terpadat, sementara kemungkinan
sampel yang hilang dari kelas langka, seperti Simda. Untuk mengatasi hal ini, bersama dengan
menggunakan prosedur pengambilan sampel default untuk menghasilkan kumpulan data, kami
menguji pendekatan sampling rebalancing kelas, di mana untuk setiap batch kami menarik kira-
kira jumlah sampel yang sama dari setiap kelas secara acak. Satu batch sampel, ukuran bets
ukuran  panjang urutan diumpankan ke model pembelajaran mendalam tanpa menggunakan
langkah normalisasi data.
Secara total, kami memiliki enam konfigurasi pembelajaran mendalam: setiap konfigurasi
merupakan kombinasi dari salah satu dari tiga arsitektur pembelajaran mendalam (CNN, CNN-
UniLSTM, CNN-BiLSTM), dan salah satu dari dua prosedur pengambilan sampel dalam
pelatihan model (mode pengambilan sampel default, dan mode pengambilan ulang kelas sisipan).
Semua model memiliki tiga lapisan konvolusional, sedangkan hyperparameter dari konfigurasi
pembelajaran yang mendalam, yaitu, jumlah node di setiap lapisan, dipilih melalui kinerjanya
dalam prosedur lintas-validasi.
Untuk menghindari overfitting, kami menggunakan regularisasi L2 untuk membatasi bobot
dari lapisan konvolusional, dan putus di lapisan LSTM padat dan. Kami memilih ukuran batch
menjadi 64. Parameter hiper lain, misalnya, jumlah node di setiap lapisan, dipilih melalui
prosedur validasi silang 5 kali lipat.
Setelah konfigurasi pembelajaran dalam yang terbaik dipilih, kami melatih ulang model pada
seluruh rangkaian pelatihan, memprediksi label untuk file malware di rangkaian tes yang tidak
berlabel, dan mengirimkannya ke situs web Kaggle untuk mendapatkan kembali rata-rata log-set
uji set - log-loss rata-rata rendah berkorelasi dengan akurasi klasifikasi tinggi.
4. Hasil dan diskusi
4.1. Hasil
Model hiper-parameter dalam pembelajaran terakhir kami adalah sebagai berikut. Semua model
memiliki tiga lapis lapisan konvolusional dengan fungsi aktivasi unit linear rectified (ReLU);
jumlah filter pada tiga lapisan adalah 30, 50, dan 90. Untuk model CNN, output dari lapisan
konvolusional terhubung ke lapisan padat 256 unit, kemudian diumpankan ke lapisan output.
Untuk CNN dengan UniLSTM atau CNN dengan model BiLSTM, kita menghubungkan output
dari lapisan konvolusional ke satu (UniLSTM) atau dua lapisan LSTM (BiLSTM), setiap lapisan
LSTM memiliki 128 unit tersembunyi; output dari lapisan LSTM kemudian dihubungkan ke
lapisan output. Seperti yang dijelaskan sebelumnya, untuk menyelesaikan konfigurasi
pembelajaran mendalam setiap arsitektur pembelajaran mendalam (CNN, CNN-UniLSTM,
CNN-BiLSTM) akan dipasangkan dengan salah satu dari dua pembangkit data batch: generator
sampling batch default (DSBG), dan penyeimbangan kelas generator batch (CRBG). Model-
model tersebut diimplementasikan menggunakan perpustakaan Keras dengan backend
Tensorflow.
Dalam prosedur validasi silang 5 kali lipat, kami melatih setiap model selama 100 epoch pada
Nvidia 1080 Ti GPU; bobot model dimodifikasi oleh metode pengoptimalan Adam (Kingma dan
Ba, 2014) untuk meminimalkan kriteria rata-rata log-loss (yaitu kriteria lintas-entropi rata-rata).
Tabel 2 melaporkan jumlah parameter dan waktu pelatihan untuk enam konfigurasi pembelajaran
mendalam. Kami melaporkan akurasi rata-rata dan skor F1 dari konfigurasi pembelajaran
mendalam yang berbeda pada Tabel 3.
Dari hasil tersebut, CNN-BiLSTM dengan konfigurasi generator sampling kelas rebalance batch
memiliki skor F1 terbaik dan akurasi terbaik pada data validasi. Sebagai hasilnya, kami melatih
model terakhir kami dengan konfigurasi ini di seluruh dataset pelatihan, di mana 90% dari
dataset digunakan untuk menyesuaikan bobot model dan 10% sisanya dari dataset digunakan
sebagai data validasi untuk memilih model terbaik di antara 100 zaman.
Gambar. 6 memvisualisasikan kerugian dan akurasi pada pelatihan dan validasi data untuk model
akhir.
Model terakhir CNN-BiLSTM mencapai rata-rata log-loss 0,0762 pada data validasi dan akurasi
validasi 98,80%. Setelah mengirimkan prediksi model ini untuk menguji file malware ke Kaggle,
kami menerima dua skor rata-rata log-loss: skor publik 0,0655 dihitung dari 30% dari dataset uji
dan skor pribadi 0,0774 dihitung dari 70% dari tes kumpulan data. Hasil ini sejajar dengan log-
loss yang kami peroleh pada data validasi, yang berarti model akhir kami menggeneralisasi
dengan baik pada data baru.
Tabel 4 melaporkan waktu yang dibutuhkan oleh model akhir kami untuk melakukan pra-proses
dan memprediksi kelas untuk 10, 873 file uji. Untuk mensimulasikan situasi penyebaran
kehidupan nyata, kami memuat model terakhir kami ke CPU (Intel Core i7 6850K) untuk
melakukan prediksi.
4.2. Diskusi
Eksperimen kami menunjukkan bahwa representasi satu dimensi dari file biner mentah adalah
representasi yang baik untuk masalah klasifikasi malware. Ini sangat mirip dengan representasi
gambar dari file biner mentah malware; namun lebih sederhana, ia mempertahankan urutan kode
sekuensial dalam file biner mentah, dan orang tidak harus membuat keputusan tentang rasio
antara lebar dan tinggi dalam representasi gambar.
Kami menggunakan prosedur pengambilan sampel rebalance kelas membantu untuk
meningkatkan akurasi dan skor F1 dari semua model CNN LSTM (baik model UniLSTM dan
BiLSTM). Kami percaya peningkatan ini adalah karena fakta bahwa dimasukkannya sampel dari
semua kelas di setiap batch memberikan propagasi kembali sinyal yang lebih baik untuk
menyesuaikan parameter dari model.
Kinerja terbaik dicapai ketika melatih CNN-BiLSTM dengan prosedur pengambilan sampel
kelas ulang. Karena ketergantungan sekuensial ketika menghitung sel di lapisan LSTM, CNN
BiLSTM tidak dapat menggunakan GPU seefisien model CNN. Dengan prosedur pengambilan
sampel yang sama, melatih model CNN adalah 10 kali lebih cepat daripada melatih model CNN
- BiLSTM. Di sisi lain, model CNN-BiLSTM menggunakan 268.000 parameter sementara model
CNN menggunakan 1,84 juta parameter. Ketika kami menggunakan kedua model untuk
memprediksi kelas file biner mentah pada CPU, model CNN-BiLSTM hanya 1,5 kali lebih
lambat daripada model CNN. Model CNN - UniLSTM yang dilatih dengan prosedur
pengambilan sampel kelas menyeimbangkan adalah kompromi yang bagus; pelatihan itu
membutuhkan waktu lebih sedikit daripada melatih model CNN-BiLSTM tetapi masih mencapai
kinerja yang baik.
Hasilnya juga menunjukkan bahwa menambahkan arah ketergantungan lain dalam kode biner
ketika pergi dari hanya menggunakan lapisan LSTM ke depan (model CNN-UniLSTM) untuk
menggunakan lapisan maju dan mundur (model CNN-BiLSTM) membantu meningkatkan
kinerja dari model pembelajaran mendalam. Namun lompatan besar dalam kinerja dicapai ketika
kita pergi dari arsitektur CNN ke arsitektur CNN - LSTM.
Ahmadi dkk., 2016 juga mengevaluasi pendekatan pembelajaran berbasis komputer terhadap
klasifikasi malware menggunakan dataset Kaggle. Pendekatan teknik fitur mereka menggunakan
kombinasi berbagai fitur yang diekstrak dari file biner mentah dan file yang dibongkar. Salah
satunya adalah fitur yang diekstraksi pada representasi gambar dari file biner mentah.
Menggunakan classifier XGBoost pada fitur yang diekstraksi dari representasi gambar mereka
memperoleh kinerja 95,5% akurasi pada prosedur validasi silang 5 kali lipat, seperti yang
ditunjukkan pada Tabel 4 dari (Ahmadi et al., 2016). Sementara representasi satu dimensi kami
dari file biner mentah mirip dengan representasi gambar file biner mentah, pembelajaran
mendalam kami tidak menggunakan ekstraksi fitur di atasnya, dan model pembelajaran dalam
terbaik kami memperoleh akurasi 98,2%, yang lebih baik dari pendekatan teknik fitur
sebelumnya.
Keuntungan lain dari pendekatan pembelajaran mendalam adalah waktu yang diperlukan untuk
mengklasifikasikan file biner baru. Saat melatih model membutuhkan GPU, model terakhir
hanya perlu menggunakan CPU untuk memprediksi kelas malware dari file biner baru. Dengan
menggunakan workstation reguler kami dengan prosesor Intel i7-6850K 6 inti, pelatihan dan
pengujian file, model terakhir kami membutuhkan rata-rata 0,02 detik untuk mengklasifikasikan
file biner. Ini termasuk waktu yang dibutuhkan untuk mengkonversi file biner ke representasi
satu dimensi dan waktu prediksi. Sebagai perbandingan, dua teknik ekstraksi fitur gambar dalam
(Ahmadi et al., 2016) mengambil rata-rata antara 0,75 dan 1,5 s untuk setiap file biner, seperti
dapat dilihat pada Gambar 8 dalam Ahmadi et al., 2016.
Gibert Llaurad ́o (Gibert Llaurad ́o, 2016) (Bab 5) menggunakan pendekatan yang mirip dengan
kita ketika menggunakan jaringan saraf convolutional pada representasi gambar file biner
mentah. Model CNN yang mereka jelaskan memiliki 34,5 juta parameter; ini memiliki skor
publik 0,1176 dan skor pribadi 0,1348. Model CNN - BiLSTM kami mencapai kinerja yang lebih
baik dengan skor publik 0,0655 dan skor pribadi 0,0774 saat menggunakan 268.000 parameter.
5. Pernyataan Penutup
Pendekatan pembelajaran mendalam kami mencapai akurasi 98,2% yang tinggi dalam prosedur
validasi silang, dan model akhir memiliki akurasi 98,8% berdasarkan data validasi. Daya tarik
pendekatan pembelajaran mendalam yang mendalam untuk klasifikasi malware adalah dua kali
lipat. Pertama, itu tidak memerlukan rekayasa fitur, yang merupakan hambatan besar bagi para
peneliti yang tidak akrab dengan bidang tersebut. Kedua, model ini membutuhkan waktu singkat
untuk mengklasifikasikan kelas malware dari file biner (0,02 dalam eksperimen kami), sehingga
praktis untuk menggunakannya dalam kenyataan.
Hasilnya juga menunjukkan bahwa prosedur pengambilan sampel kelas rebalance dapat
digunakan untuk mengatasi masalah ketidakseimbangan kelas dalam dataset. Dalam praktiknya,
file malware baru milik keluarga malware yang dikenali oleh model akan ditemukan seiring
waktu. Untuk pendekatan pembelajaran mendalam, seseorang dapat mulai dari model yang
tersedia dan memperbaruinya dengan data pelatihan baru untuk meningkatkan akurasinya,
sehingga biaya pelatihan ulang modelnya kecil.
Representasi satu dimensi kita dari biner mentah memiliki keterbatasannya: ia tidak menganggap
semantik kode biner dalam file biner mentah. Namun, seperti yang diperlihatkan oleh
eksperimen kami, ada pola spasial masing-masing kelas malware dalam file biner mentah, dan
model pembelajaran mendalam dapat menggunakannya untuk memprediksi kelas dari
file malware secara efektif. Gibert Llaurad ́ o (Gibert Llaurad ́ o, 2016) menunjukkan bahwa
seseorang dapat menerapkan pembelajaran mendalam pada file yang berhasil dibongkar, itu
menunjukkan bahwa ada manfaat dalam mempertimbangkan arti semantik dari setiap byte e
bahkan jika langkah rekayasa balik tidak dilakukan melalui pembongkaran file biner mentah.
Harapan Kedepan
Untuk pekerjaan di masa mendatang, kami ingin menguji pendekatan pembelajaran mendalam
kami pada kumpulan data yang lebih besar dengan lebih banyak kelas perangkat lunak perusak.
Salah satu pendekatan adalah mempertahankan makna semantik setiap byte dalam file biner
mentah dalam langkah preprocessing, meskipun pendekatan ini berarti kita membutuhkan cara
yang cocok untuk mengompres file biner besar (sekitar 60 Mbytes) ke ukuran kecil tanpa
kehilangan arti semantik. dari byte dalam representasi akhir. Fitur lain yang bermanfaat adalah
memodifikasi model pembelajaran mendalam kami sehingga dapat mendeteksi apakah file biner
baru milik salah satu kelas yang tersedia atau termasuk kelas malware baru. Akhirnya, kita dapat
menerapkan arsitektur pembelajaran mendalam yang lebih kompleks untuk mencapai kinerja
yang lebih baik, misalnya kita dapat menambahkan modul residual He et al., 2016 42 ke model
untuk mengurangi masalah gradien yang menghilang.
REVIEW PAPER
Dalam percobaan ini menggunakan klasifikasi malware dari microsoft malware
Classification Challenge pada Kaggle. Setiap malware belabel dari representasi heksadesimal
mentadata juga disediakan yang mencakup rincian fungsi yang diekstraksi dengan alat
disassembler. Pengerjaan ini berfokus pada penerapan teknik pembelajaran dalam
mengklasifikasikan malware berdasarkan pada konten file biner mentah yang
mempertimbangkan repesentasi file heksadesimal mentah dan mengubahnya menjadi
representasi binernya. Hasilnya menunjukkan bahwa menambahkan arah ketergantungan lain
dalam kode biner ketika hanya menggunakan lapisan LSTM untuk menggunakan lapisan maju
dan mundur membantu meningkatkan kinerja dari model pembelajaran mendalam. Namun
lompatan besar dalam kinerja yang dicapai ketika menggunakan arsitektur CNN ke arsitektur
CNN – LSTM. Keuntungan lain dari pendekatan pembelajaran mendalam adalah waktu yang
diperlukan untuk mengklasifikasikan file biner baru. Saat melatih model membutuhkan GPU,
model terakhir hanya perlu menggunakan CPU untuk memprediksi kelas malware dari file biner
baru.

Anda mungkin juga menyukai