Beranda Tech Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!
Tech

Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!

Bagikan
Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!
Bagikan

AI Belum Ahli dalam Tugas Jangka Panjang

Penelitian terbaru dari tim peneliti Microsoft menyoroti sebuah masalah mendasar: banyak model AI saat ini tidak mampu menangani alur kerja jangka panjang dengan baik. Hal ini tentu menjadi tantangan besar untuk pengembangan AI yang lebih efektif di masa depan.

Untuk memperjelas temuan mereka, tim peneliti ini memperkenalkan benchmark baru yang disebut DELEGATE-52. Benchmark ini mengukur kinerja AI di 52 sektor berbeda, mulai dari coding, akuntansi, hingga ilmu pengetahuan.

Kesimpulan dari penelitian ini menyatakan bahwa model AI yang ada saat ini “menghasilkan kesalahan yang sporadis, tapi serius, yang bisa merusak dokumen secara diam-diam dan akan semakin parah seiring dengan interaksi yang lebih panjang.”

Fana – Inline Article Ads

Model-model Terbaru dan Kinerjanya

Studi ini mencakup beberapa model AI terkini seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT-5.4. Ternyata, model-model ini “merusak sekitar 25% konten dokumen pada akhir alur kerja yang panjang,” dengan model-model yang lebih rendah cenderung lebih banyak melakukan kesalahan.

Baca juga  NCT WISH Pecahkan Rekor Penjualan Minggu Pertama dengan "Ode To Love"!

Benchmark DELEGATE-52 menggunakan dokumen nyata yang panjangnya sekitar 15.000 token dan memperkenalkan 5-10 tugas pengeditan kompleks dengan simulasi “relay bolak-balik” yang meminta AI untuk melakukan transformasi dan kemudian membaliknya. Metode ini memungkinkan peneliti mengukur seberapa efisien masing-masing model mengembalikan dokumen ke bentuk aslinya.

Model terbaik tampil di area yang sangat terstruktur dan programatik, dengan peneliti dari Microsoft menyimpulkan bahwa “Python adalah satu-satunya domain tempat sebagian besar model siap.” Sebaliknya, alur kerja bahasa alami, area kreatif, dan dokumen semi-terstruktur membuat model kesulitan.

Fana – Inline Article Ads

Satu hal yang terungkap dari penelitian ini adalah, semakin panjang token yang harus ditangani, semakin besar pula kemungkinan model AI mengalami kesulitan.

Performa yang Bervariasi

Perbedaan antara model-model frontier bukan terletak pada kemampuan mereka untuk menghilangkan kesalahan. Mereka hanya bisa menunda kesalahan tersebut. Beberapa model yang diuji oleh tim peneliti Microsoft mencakup berbagai generasi GPT-5 dan GPT-4, pilihan Claude, model Gemini, serta satu masing-masing dari Mistral, xAI, dan Moonshot, total ada 19 model berbeda dari enam keluarga.

Baca juga  Hacker Manfaatkan Stripe dan Google Tag Manager untuk Meluncurkan Kampanye Pencurian Kartu Kredit!

Gemini 3.1 Pro menempati posisi teratas dengan skor benchmark DELEGATE-52 sebesar 80,9% setelah 20 interaksi; diikuti oleh Claude 4.6 Opus (73,1%) dan GPT-5.4 (71,5%). Sementara GPT 5 Nano terjatuh di posisi akhir dengan skor 10,0%.

Arte7Travel – Inline Article Ads

Singkatnya, penelitian ini menunjukkan bahwa model AI saat ini belum cukup andal untuk dipercaya dalam alur kerja jangka panjang dan mandiri. Hal ini menandakan area-area krusial yang harus difokuskan para pengembang model di masa mendatang untuk meningkatkan kapabilitas AI.

Fana – Inline Article Ads
Bagikan
Berita terkait
Saatnya Mengendarai Pikiran: Steve Jobs Ungkapkan Betapa Teknologi Seperti Sepeda untuk Otak Kita!
Tech

Saatnya Mengendarai Pikiran: Steve Jobs Ungkapkan Betapa Teknologi Seperti Sepeda untuk Otak Kita!

Steve Jobs, sosok visioner dalam dunia komputer, meninggalkan jejak yang tak terlupakan....

“Terungkap! Operasi Rahasia Angkatan Darat AS: Hanya Insinyur dengan Semangat Memecahkan Kode yang Diizinkan Masuk—Tapi Sales Tidak!”
Tech

“Terungkap! Operasi Rahasia Angkatan Darat AS: Hanya Insinyur dengan Semangat Memecahkan Kode yang Diizinkan Masuk—Tapi Sales Tidak!”

Angkatan Darat AS Hacking Sistem Sendiri untuk Interoperabilitas Teknologi Militer Angkatan Darat...

16 Tahun Microsoft Build: Sorotan Penting dari Pengumuman, Panel, dan Sesi Bersejarah!
Tech

16 Tahun Microsoft Build: Sorotan Penting dari Pengumuman, Panel, dan Sesi Bersejarah!

Microsoft Build 2026 bakal digelar pada 2 dan 3 Juni di Fort...

Starbucks Menyerah pada Alat Inventaris AI Setelah 9 Bulan, Fokus Kembali pada Konsistensi dan Eksekusi yang Optimal
Tech

Starbucks Menyerah pada Alat Inventaris AI Setelah 9 Bulan, Fokus Kembali pada Konsistensi dan Eksekusi yang Optimal

Starbucks Hentikan Program AI Inventaris Setelah Delapan Bulan Starbucks, rantai kopi ternama,...