Analisis Topik dan Karakteristik Kelayakan Pengajuan Judul Skripsi Mahasiswa Program Studi Sistem Informasi Menggunakan TF-IDF dan K-Means Clustering

Singgih Yulizar Ma'ruf; David Naista

doi:10.58602/chain.v4i3.296

Singgih Yulizar Ma'ruf ^{(Corresponding Author)} Universitas Islam Negeri Raden Intan Lampung
David Naista Universitas Islam Negeri Raden Intan Lampung

DOI: https://doi.org/10.58602/chain.v4i3.296

Keywords: Text Mining, TF-IDF, K-Means Clustering, Judul Skripsi, Kelayakan Judul

Abstract

Pengajuan judul skripsi merupakan tahap awal yang penting dalam penyusunan tugas akhir mahasiswa. Seiring meningkatnya jumlah usulan judul setiap tahun, program studi memerlukan analisis yang mampu mengidentifikasi pola topik penelitian serta karakteristik kelayakan usulan judul secara sistematis. Penelitian ini bertujuan untuk menganalisis topik dominan dan karakteristik kelayakan pengajuan judul skripsi mahasiswa Program Studi Sistem Informasi menggunakan pendekatan text mining dan clustering. Dataset yang digunakan terdiri dari 950 data pengajuan judul skripsi yang kemudian dilakukan proses deduplikasi sehingga diperoleh 757 judul unik. Tahapan penelitian meliputi preprocessing teks yang terdiri dari case folding, tokenisasi, stopword removal, dan stemming, dilanjutkan dengan pembobotan kata menggunakan Term Frequency–Inverse Document Frequency (TF-IDF). Selanjutnya dilakukan pengelompokan dokumen menggunakan algoritma K-Means Clustering dengan jumlah cluster optimal sebanyak enam cluster berdasarkan evaluasi silhouette score. Hasil penelitian menunjukkan bahwa enam cluster yang terbentuk merepresentasikan kelompok topik utama, yaitu sistem informasi dan manajemen, aplikasi mobile dan layanan digital, sistem informasi desa dan pengelolaan data, sistem pendukung keputusan, sistem monitoring dan dashboard, serta sistem informasi pariwisata. Nilai silhouette score sebesar 0,0314 menunjukkan bahwa data memiliki tingkat kemiripan antar topik yang cukup tinggi, namun masih mampu menghasilkan kelompok topik yang dapat diinterpretasikan. Analisis skor kelayakan menunjukkan adanya variasi karakteristik antar cluster, di mana cluster sistem monitoring dan dashboard memiliki rata-rata skor kelayakan tertinggi sebesar 92,36. Hasil uji Kruskal–Wallis menghasilkan p-value sebesar 1,51×10⁻⁹ yang menunjukkan adanya perbedaan signifikan skor kelayakan antar cluster. Penelitian ini dapat membantu program studi dalam memetakan tren penelitian mahasiswa dan mendukung proses evaluasi usulan judul skripsi secara lebih objektif.

References

J. P. Laksana, H. Irsyad, and A. Rahman, “Analisis Topik Dominan Dalam Paper Ilmu Komputer Menggunakan TF-IDF Dan K-Means,” vol. 3, no. 3, pp. 78–84, 2025, doi: 10.58369/biit.v2i3.122.

T. A. Br Sembiring and M. S. Hasibuan, “TEXT CLUSTERING IN KARO LANGUAGE USING TF-IDF WEIGHTING AND K-MEANS CLUSTERING,” J. Tek. Inform., vol. 4, no. 5 SE-Articles, pp. 1257–1265, Nov. 2023, doi: 10.52436/1.jutif.2023.4.5.1462.

J. P. Pamput, A. R. Muthmainnah, A. Akram, N. Risal, and D. Fatmarani, “K-Means ++ and TF-IDF for Grouping Library Books by Topic,” vol. 27, no. 2, pp. 74–82, 2025.

M. Y. Hidayat, M. A. Yaqin, and Z. Abidin, “Semantic-Enhanced News Clustering Using TF-IDF and WordNet with K-Means,” vol. 7, no. 4, pp. 3924–3951, 2025, doi: 10.63158/journalisi.v7i4.1260.

Miquel Yosafat and Jatmika, “Implementasi Text Clustering Terkait Pilpres 2024 Menggunakan Metode K-Means,” Infact Int. J. Comput. , vol. 8, no. 01 SE-Articles, pp. 6–12, Jan. 2024, doi: 10.61179/jurnalinfact.v8i01.496.

F. S. Genius Zendrato, A. Triayudi, and E. T. E, “Analisis Clustering Dokumen Tugas Akhir Mahasiswa Sistem Informasi Universitas Nasional menggunakan Metode K-Means Clustering,” J. JTIK (Jurnal Teknol. Inf. dan Komunikasi), vol. 6, no. 1 SE-Computer & Communication Science, pp. 70–76, 2022, doi: 10.35870/jtik.v6i1.389.

K. Nurul, I. Djati, and N. Faiza, “Identifying Improvement Strategic from User Application Reviews Group Using K-Means Clustering and TF-IDF Weighting,” vol. 7, no. 2, pp. 152–159, 2023.

A. F. Zabidi, “Penerapan Algoritma K-Means untuk Pengelompokan Koleksi Perpustakaan dengan Data Mining,” vol. 16, no. 2, 2024.

J. ZHU, S. HUANG, Y. SHI, K. WU, and Y. WANG, “A Method of K-Means Clustering Based on TF-IDF for Software Requirements Documents Written in Chinese Language,” IEICE Trans. Inf. Syst., vol. E105.D, no. 4, pp. 736–754, 2022, doi: 10.1587/transinf.2021EDP7144.

U. Buatoom, W. Kongprawechnon, and T. Theeramunkong, “Document Clustering Using K-Means with Term Weighting as Similarity-Based Constraints,” 2020. doi: 10.3390/sym12060967.

T. Bezdan et al., “Hybrid Fruit-Fly Optimization Algorithm with K-Means for Text Document Clustering,” 2021. doi: 10.3390/math9161929.

M. Shutaywi and N. N. Kachouie, “Silhouette Analysis for Performance Evaluation in Machine Learning with Applications to Clustering,” 2021. doi: 10.3390/e23060759.

D. Chicco, A. Sichenze, and G. Jurman, A simple guide to the use of Student ’ s t ‑ test , Mann ‑ Whitney U test , Chi ‑ squared test , and Kruskal ‑ Wallis test in biostatistics. BioMed Central, 2025.