Onnowpurbo: /* Contoh Praktis: */

2025-04-01T01:00:13Z

Contoh Praktis:

Onnowpurbo: Created page with "Pertanyaan bagus! Ukuran dataset yang '''ideal''' sebenarnya tergantung pada: =='''1. Jenis Model yang Digunakan'''== Semakin kompleks modelnya, semakin banyak data yang dib..."

2025-04-01T00:59:51Z

Created page with "Pertanyaan bagus! Ukuran dataset yang '''ideal''' sebenarnya tergantung pada: =='''1. Jenis Model yang Digunakan'''== Semakin kompleks modelnya, semakin banyak data yang dib..."

New page

Pertanyaan bagus! Ukuran dataset yang '''ideal''' sebenarnya tergantung pada:

=='''1. Jenis Model yang Digunakan'''==

Semakin kompleks modelnya, semakin banyak data yang dibutuhkan.

{| class="wikitable"
|+ Ukuran Dataset Ideal
|-
! Jenis Model !! Ukuran Dataset Ideal
|-
| '''Statistik sederhana''' || Ratusan data sudah cukup
|-
| '''Machine Learning klasik''' (Random Forest, SVM) || Ribuan data lebih baik
|-
| '''Deep Learning''' (LSTM, CNN) || Puluhan ribu – ratusan ribu data
|-
| '''Transformer (BERT, IndoBERT)''' || Ratusan ribu – jutaan data idealnya
|}

=='''2. Kompleksitas Masalah'''==
Kalau datanya sederhana (misal klasifikasi positif/negatif), data bisa lebih sedikit.

Tapi kalau datanya kompleks (multi-kategori, data tidak seimbang, noisy), perlu lebih banyak data.

=='''3. Keseimbangan Kelas (Class Balance)'''==
Idealnya, data terbagi rata antara kategori. Contoh:
- Positif: 1000
- Negatif: 1000
- Netral: 1000

Kalau tidak seimbang (misal: 90% positif, 10% negatif), model bisa bias.

=='''4. Tujuan Penggunaan'''==

{|class="wikitable"
|+ Dataset Ideal
|-
! Tujuan !! Dataset Ideal
|-
| '''Penelitian kecil / eksperimen awal''' || 500–3000 data bisa cukup
|-
| '''Publikasi jurnal / akurasi tinggi''' || >10.000 data lebih disarankan
|-
| '''Produksi / aplikasi nyata''' || Semakin besar, semakin baik
|}

=='''Contoh Praktis:'''==

Kalau kamu misalnya analisis '''komentar TikTok''', untuk:
* '''Eksperimen awal''': 1000–3000 komentar bisa dipakai
* '''Training ML (SVM/Random Forest)''': 3000–10.000 komentar ideal
* '''Deep Learning (LSTM/BERT)''': 10.000+ komentar akan jauh lebih stabil dan akurat

← Older revision		Revision as of 01:00, 1 April 2025
Line 52:		Line 52:
	* '''Training ML (SVM/Random Forest)''': 3000–10.000 komentar ideal		* '''Training ML (SVM/Random Forest)''': 3000–10.000 komentar ideal
	* '''Deep Learning (LSTM/BERT)''': 10.000+ komentar akan jauh lebih stabil dan akurat		* '''Deep Learning (LSTM/BERT)''': 10.000+ komentar akan jauh lebih stabil dan akurat
		+
		+
		+	==Pranala Menarik==
		+
		+	* [[Orange]]

Dataset Ideal - Revision history

Onnowpurbo: /* Contoh Praktis: */

Onnowpurbo: Created page with "Pertanyaan bagus! Ukuran dataset yang '''ideal''' sebenarnya tergantung pada: =='''1. Jenis Model yang Digunakan'''== Semakin kompleks modelnya, semakin banyak data yang dib..."