Difference between revisions of "GPU: AMD Matrix Cores Perbandingan"
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) |
||
(One intermediate revision by the same user not shown) | |||
Line 30: | Line 30: | ||
{| class="wikitable" | {| class="wikitable" | ||
− | |+ | + | |+ Performa dan Benchmark |
|- | |- | ||
! Aspek !! NVIDIA Blackwell (B200) !! AMD RDNA 4 (RX 9070 XT) / CDNA 4 (MI355X) !! Komentar | ! Aspek !! NVIDIA Blackwell (B200) !! AMD RDNA 4 (RX 9070 XT) / CDNA 4 (MI355X) !! Komentar | ||
Line 36: | Line 36: | ||
| '''FP16 TFLOPS''' || 90 (180 dengan sparsity) || 97.3 (194 dengan enhancements) || AMD kompetitif di dense ops, NVIDIA unggul sparsity. | | '''FP16 TFLOPS''' || 90 (180 dengan sparsity) || 97.3 (194 dengan enhancements) || AMD kompetitif di dense ops, NVIDIA unggul sparsity. | ||
|- | |- | ||
− | | '''FP8 TFLOPS''' || 2000 (4000 sparsity) || 1500-2000 (doubled per CU vs RDNA 3) | | + | | '''FP8 TFLOPS''' || 2000 (4000 sparsity) || 1500-2000 (doubled per CU vs RDNA 3) || NVIDIA 1.5x lebih cepat di Transformer models. |
|- | |- | ||
| '''AI Throughput (INT8 TOPS)''' || 40.000 || 20.000-30.000 || NVIDIA dominan inferensi; AMD lebih efisien VRAM (HBM3e vs GDDR7). | | '''AI Throughput (INT8 TOPS)''' || 40.000 || 20.000-30.000 || NVIDIA dominan inferensi; AMD lebih efisien VRAM (HBM3e vs GDDR7). | ||
Line 63: | Line 63: | ||
==Kesimpulan== | ==Kesimpulan== | ||
Pada 2025, Tensor Cores NVIDIA tetap pemimpin di performa absolut dan adopsi AI (pasar 80%+), ideal untuk workload skala besar. Matrix Cores AMD mengejar dengan value tinggi dan efisiensi, terutama di RDNA 4 untuk konsumen dan CDNA 4 untuk data center—membuatnya pilihan kuat untuk developer open-source atau budget-conscious. Pilihan tergantung kebutuhan: NVIDIA untuk kecepatan maksimal, AMD untuk keseimbangan biaya. | Pada 2025, Tensor Cores NVIDIA tetap pemimpin di performa absolut dan adopsi AI (pasar 80%+), ideal untuk workload skala besar. Matrix Cores AMD mengejar dengan value tinggi dan efisiensi, terutama di RDNA 4 untuk konsumen dan CDNA 4 untuk data center—membuatnya pilihan kuat untuk developer open-source atau budget-conscious. Pilihan tergantung kebutuhan: NVIDIA untuk kecepatan maksimal, AMD untuk keseimbangan biaya. | ||
+ | |||
+ | |||
+ | ==Pranala Menarik== | ||
+ | |||
+ | * [[GPU]] |
Latest revision as of 04:59, 30 September 2025
Pengenalan Perbandingan Tensor Cores vs Matrix Cores
Tensor Cores NVIDIA dan Matrix Cores AMD adalah unit akselerasi khusus yang dirancang untuk mempercepat operasi matriks multiply-accumulate (MMA) dalam komputasi AI, pembelajaran mendalam (deep learning), dan tugas berkinerja tinggi (HPC). Keduanya menargetkan throughput tinggi dengan presisi campuran untuk mengurangi konsumsi memori dan daya sambil mempertahankan akurasi. NVIDIA memimpin pasar dengan ekosistem CUDA yang matang, sementara AMD menawarkan alternatif open-source melalui ROCm, dengan fokus pada efisiensi biaya dan integrasi dengan arsitektur RDNA/CDNA. Perbandingan ini berfokus pada generasi terbaru per September 2025: Tensor Cores generasi kelima (Blackwell) vs Matrix Cores generasi ketiga (RDNA 4/CDNA 4), berdasarkan benchmark AI real-world dan spesifikasi teknis.
Evolusi dan Arsitektur Dasar
- Tensor Cores (NVIDIA): Dimulai pada Volta (2017), berevolusi ke Hopper (2022) dengan FP8 dan Transformer Engine, lalu Blackwell (2024-2025) dengan microscaling (MXFP8/6/4) dan Tensor Memory (TMEM) 256 KB per SM untuk operand sharing. Setiap SM memiliki Tensor Cores yang mendukung MMA asinkron warpgroup (128 thread), sparsity 2:4, dan operasi lintas SM untuk matriks besar. Fokus pada integrasi AI-gaming seperti DLSS 3/4.
- Matrix Cores (AMD): Diperkenalkan pada RDNA 3 (2022) sebagai respons langsung ke Tensor Cores, menggunakan instruksi MFMA (Matrix Fused Multiply-Add). Pada RDNA 4 (2025), generasi ketiga menambahkan dukungan FP8, INT4/8, dan dense matrix rates 2x-16b & 4x-8b/4b per Compute Unit (CU). CDNA 4 (untuk Instinct MI355X) meningkatkan throughput matriks untuk AI data center, dengan peningkatan 2x per CU vs RDNA 2. AMD menekankan open-source ROCm untuk kompatibilitas luas, meskipun kurang matang dibandingkan CUDA.
Perbedaan utama: NVIDIA lebih matang dalam sparsity dan presisi dinamis (via Transformer Engine), sementara AMD unggul dalam efisiensi per watt dan dukungan FP64 native untuk HPC.
Cara Kerja dan Fitur Teknis
Keduanya menjalankan operasi D = A × B + C dalam satu siklus clock, mendukung dimensi m × n × k fleksibel (misalnya, 16×16×16 untuk matriks kecil). Namun:
- Presisi dan Operasi:
- NVIDIA: FP8 (E4M3/E5M2), BF16, TF32, FP64, INT4/8, dengan microscaling untuk mengurangi noise pada presisi rendah. Dukung sparsity struktural untuk melewati 50% nol, dan TMA (Tensor Memory Accelerator) untuk transfer asinkron.
- AMD: FP16, FP8, INT8/4, BF16, dengan enhanced GEMM (Generalized Matrix Multiplication) pada RDNA 4. Sparsity kurang canggih (tidak ada 2:4 struktural seperti NVIDIA), tapi dukung primitive compression untuk ray tracing terintegrasi.
- Integrasi dalam GPU:
- NVIDIA: 1-4 Tensor Cores per SM, paralel dengan CUDA Cores; Blackwell mendukung MMA.2SM untuk skalabilitas matriks besar.
- AMD: 1-2 Matrix Cores per CU pada RDNA 4, terintegrasi dengan Dual SIMD32 Vector Units; instruksi WMMA (Wave Matrix Multiply-Accumulate) untuk warp-level (64 thread).
- Software Support:
- NVIDIA: CUDA, cuBLAS, TensorRT—mudah diadopsi, tapi proprietary.
- AMD: ROCm, HIP, MIOpen—open-source, tapi kompatibilitas lebih rendah (misalnya, PyTorch lebih optimal di NVIDIA).
AMD Matrix Cores lebih fleksibel untuk gaming (integrasi dengan FSR 3.1 frame generation), sementara Tensor Cores dominan di inferensi AI.
Performa dan Benchmark
Performa diukur dalam TFLOPS/TOPS untuk FP16/FP8, dengan benchmark dari MLPerf dan real-world LLM deployment per 2025. NVIDIA umumnya unggul 1.5-3x di tugas AI kompleks, tapi AMD menawarkan value lebih baik (biaya 20-40% lebih rendah).
Aspek | NVIDIA Blackwell (B200) | AMD RDNA 4 (RX 9070 XT) / CDNA 4 (MI355X) | Komentar |
---|---|---|---|
FP16 TFLOPS | 90 (180 dengan sparsity) | 97.3 (194 dengan enhancements) | AMD kompetitif di dense ops, NVIDIA unggul sparsity. |
FP8 TFLOPS | 2000 (4000 sparsity) | 1500-2000 (doubled per CU vs RDNA 3) | NVIDIA 1.5x lebih cepat di Transformer models. |
AI Throughput (INT8 TOPS) | 40.000 | 20.000-30.000 | NVIDIA dominan inferensi; AMD lebih efisien VRAM (HBM3e vs GDDR7). |
Benchmark MLPerf (LLM Training) | 6x vs Hopper | 2-3x vs CDNA 3 | NVIDIA B200: 1.1 PetaFLOPS; AMD MI355X: kompetitif di cost/performance. |
Daya (TDP) | 1000W | 300-500W | AMD 2x lebih efisien per watt untuk edge AI. |
Dalam benchmark 2025, NVIDIA unggul di pelatihan model besar (misalnya, GPT-scale: 30x vs Hopper), sementara AMD MI355X mencapai 80-90% performa H100 di inferensi dengan biaya 50% lebih rendah.
Aplikasi dan Kelebihan/Kekurangan
- Aplikasi Umum:
- Keduanya untuk pelatihan/inferensi AI, simulasi HPC, dan grafis (DLSS vs FSR).
- NVIDIA: Unggul di enterprise (cloud AI, seperti Azure), dengan ekosistem lengkap.
- AMD: Lebih baik untuk open-source projects, gaming AI (path tracing), dan budget HPC.
- Kelebihan NVIDIA Tensor Cores:
- Ekosistem matang, sparsity canggih, presisi dinamis.
- Kekurangan: Mahal, proprietary.
- Kelebihan AMD Matrix Cores:
- Efisiensi biaya/daya, open-source, integrasi gaming kuat.
- Kekurangan: Dukungan software kurang, sparsity terbatas.
Kesimpulan
Pada 2025, Tensor Cores NVIDIA tetap pemimpin di performa absolut dan adopsi AI (pasar 80%+), ideal untuk workload skala besar. Matrix Cores AMD mengejar dengan value tinggi dan efisiensi, terutama di RDNA 4 untuk konsumen dan CDNA 4 untuk data center—membuatnya pilihan kuat untuk developer open-source atau budget-conscious. Pilihan tergantung kebutuhan: NVIDIA untuk kecepatan maksimal, AMD untuk keseimbangan biaya.