Beranda Tech Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!
Tech

Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!

Bagikan
Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!
Bagikan

AI Belum Ahli dalam Tugas Jangka Panjang

Penelitian terbaru dari tim peneliti Microsoft menyoroti sebuah masalah mendasar: banyak model AI saat ini tidak mampu menangani alur kerja jangka panjang dengan baik. Hal ini tentu menjadi tantangan besar untuk pengembangan AI yang lebih efektif di masa depan.

Untuk memperjelas temuan mereka, tim peneliti ini memperkenalkan benchmark baru yang disebut DELEGATE-52. Benchmark ini mengukur kinerja AI di 52 sektor berbeda, mulai dari coding, akuntansi, hingga ilmu pengetahuan.

Kesimpulan dari penelitian ini menyatakan bahwa model AI yang ada saat ini “menghasilkan kesalahan yang sporadis, tapi serius, yang bisa merusak dokumen secara diam-diam dan akan semakin parah seiring dengan interaksi yang lebih panjang.”

Model-model Terbaru dan Kinerjanya

Studi ini mencakup beberapa model AI terkini seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT-5.4. Ternyata, model-model ini “merusak sekitar 25% konten dokumen pada akhir alur kerja yang panjang,” dengan model-model yang lebih rendah cenderung lebih banyak melakukan kesalahan.

Baca juga  Ukraina Ubah Antonov An-28 Berusia 55 Tahun Jadi Mesin Pembunuh Drone dengan Minigun, Drone Interceptor, dan Targeting VR!

Benchmark DELEGATE-52 menggunakan dokumen nyata yang panjangnya sekitar 15.000 token dan memperkenalkan 5-10 tugas pengeditan kompleks dengan simulasi “relay bolak-balik” yang meminta AI untuk melakukan transformasi dan kemudian membaliknya. Metode ini memungkinkan peneliti mengukur seberapa efisien masing-masing model mengembalikan dokumen ke bentuk aslinya.

Model terbaik tampil di area yang sangat terstruktur dan programatik, dengan peneliti dari Microsoft menyimpulkan bahwa “Python adalah satu-satunya domain tempat sebagian besar model siap.” Sebaliknya, alur kerja bahasa alami, area kreatif, dan dokumen semi-terstruktur membuat model kesulitan.

Fana – Inline Article Ads

Satu hal yang terungkap dari penelitian ini adalah, semakin panjang token yang harus ditangani, semakin besar pula kemungkinan model AI mengalami kesulitan.

Performa yang Bervariasi

Perbedaan antara model-model frontier bukan terletak pada kemampuan mereka untuk menghilangkan kesalahan. Mereka hanya bisa menunda kesalahan tersebut. Beberapa model yang diuji oleh tim peneliti Microsoft mencakup berbagai generasi GPT-5 dan GPT-4, pilihan Claude, model Gemini, serta satu masing-masing dari Mistral, xAI, dan Moonshot, total ada 19 model berbeda dari enam keluarga.

Baca juga  Hackers Kini Bisa Ambil Alih Situs WordPress dengan Mudah lewat Celah Plugin yang Buka Akses Admin Tanpa Login!

Gemini 3.1 Pro menempati posisi teratas dengan skor benchmark DELEGATE-52 sebesar 80,9% setelah 20 interaksi; diikuti oleh Claude 4.6 Opus (73,1%) dan GPT-5.4 (71,5%). Sementara GPT 5 Nano terjatuh di posisi akhir dengan skor 10,0%.

Singkatnya, penelitian ini menunjukkan bahwa model AI saat ini belum cukup andal untuk dipercaya dalam alur kerja jangka panjang dan mandiri. Hal ini menandakan area-area krusial yang harus difokuskan para pengembang model di masa mendatang untuk meningkatkan kapabilitas AI.

Fana – Inline Article Ads
Bagikan
Berita terkait
Peneliti Gunakan AI untuk Ciptakan Organisme Hidup Tanpa Blok Bangunan Dasar: Selamat Datang, Kehidupan Sintetis 19-Amino Asam Pertama di Dunia!
Tech

Peneliti Gunakan AI untuk Ciptakan Organisme Hidup Tanpa Blok Bangunan Dasar: Selamat Datang, Kehidupan Sintetis 19-Amino Asam Pertama di Dunia!

AI Ciptakan Versi Baru E. coli Tanpa Isoleusin Peneliti dari Columbia University,...

Android Show 2026: Semua Kabar Terbesar tentang Android 17 dan Inovasi Terkini!
Tech

Android Show 2026: Semua Kabar Terbesar tentang Android 17 dan Inovasi Terkini!

Tahun 2026 ini, Android Show kembali menyuguhkan berita-berita menarik, dan semuanya berpusat...

ThinkPad Nub Unik Ini Ludes Terjual Seketika Meski Bikin Orang Kebingungan di Luar Kalangan Penggemar!
Tech

ThinkPad Nub Unik Ini Ludes Terjual Seketika Meski Bikin Orang Kebingungan di Luar Kalangan Penggemar!

Ploopy Luncurkan Controller Desktop Berbasis Titik Penunjuk ThinkPad Mouse komputer telah bertransformasi...

Tentara AS Siap Luncurkan Kendaraan Robotik untuk Evakuasi Medis, Saat Drone Murah Ubah Pertarungan Menjadi Taruhan Mematikan di Medan Perang!
Tech

Tentara AS Siap Luncurkan Kendaraan Robotik untuk Evakuasi Medis, Saat Drone Murah Ubah Pertarungan Menjadi Taruhan Mematikan di Medan Perang!

Pertempuran Drone Memaksa Tentara Rethink Prosedur Evakuasi Dalam dunia pertempuran modern, angka...