AI Belum Ahli dalam Tugas Jangka Panjang
Penelitian terbaru dari tim peneliti Microsoft menyoroti sebuah masalah mendasar: banyak model AI saat ini tidak mampu menangani alur kerja jangka panjang dengan baik. Hal ini tentu menjadi tantangan besar untuk pengembangan AI yang lebih efektif di masa depan.
Untuk memperjelas temuan mereka, tim peneliti ini memperkenalkan benchmark baru yang disebut DELEGATE-52. Benchmark ini mengukur kinerja AI di 52 sektor berbeda, mulai dari coding, akuntansi, hingga ilmu pengetahuan.
Kesimpulan dari penelitian ini menyatakan bahwa model AI yang ada saat ini “menghasilkan kesalahan yang sporadis, tapi serius, yang bisa merusak dokumen secara diam-diam dan akan semakin parah seiring dengan interaksi yang lebih panjang.”
Model-model Terbaru dan Kinerjanya
Studi ini mencakup beberapa model AI terkini seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT-5.4. Ternyata, model-model ini “merusak sekitar 25% konten dokumen pada akhir alur kerja yang panjang,” dengan model-model yang lebih rendah cenderung lebih banyak melakukan kesalahan.
Benchmark DELEGATE-52 menggunakan dokumen nyata yang panjangnya sekitar 15.000 token dan memperkenalkan 5-10 tugas pengeditan kompleks dengan simulasi “relay bolak-balik” yang meminta AI untuk melakukan transformasi dan kemudian membaliknya. Metode ini memungkinkan peneliti mengukur seberapa efisien masing-masing model mengembalikan dokumen ke bentuk aslinya.
Model terbaik tampil di area yang sangat terstruktur dan programatik, dengan peneliti dari Microsoft menyimpulkan bahwa “Python adalah satu-satunya domain tempat sebagian besar model siap.” Sebaliknya, alur kerja bahasa alami, area kreatif, dan dokumen semi-terstruktur membuat model kesulitan.
Satu hal yang terungkap dari penelitian ini adalah, semakin panjang token yang harus ditangani, semakin besar pula kemungkinan model AI mengalami kesulitan.
Performa yang Bervariasi
Perbedaan antara model-model frontier bukan terletak pada kemampuan mereka untuk menghilangkan kesalahan. Mereka hanya bisa menunda kesalahan tersebut. Beberapa model yang diuji oleh tim peneliti Microsoft mencakup berbagai generasi GPT-5 dan GPT-4, pilihan Claude, model Gemini, serta satu masing-masing dari Mistral, xAI, dan Moonshot, total ada 19 model berbeda dari enam keluarga.
Gemini 3.1 Pro menempati posisi teratas dengan skor benchmark DELEGATE-52 sebesar 80,9% setelah 20 interaksi; diikuti oleh Claude 4.6 Opus (73,1%) dan GPT-5.4 (71,5%). Sementara GPT 5 Nano terjatuh di posisi akhir dengan skor 10,0%.
Singkatnya, penelitian ini menunjukkan bahwa model AI saat ini belum cukup andal untuk dipercaya dalam alur kerja jangka panjang dan mandiri. Hal ini menandakan area-area krusial yang harus difokuskan para pengembang model di masa mendatang untuk meningkatkan kapabilitas AI.

