Breaking News

Winter aespa Terjebak Kontroversi Besar Gara-gara Video Idol Makan!

17 menit Lalu

Sekuel Hit PS5 2024 Diprediksi Rilis Bersamaan di Xbox & Switch 2!

1 jam Lalu

Hanya 3 Minggu Lagi! Film Perang Dunia II dengan Cast Blockbuster Siap Mengguncang Bioskop!

4 jam Lalu

Karakter Terbaru Elbaph di Anime One Piece Akhirnya Diperkenalkan, dan Fans Tak Siap dengan Rahasianya!

4 jam Lalu

Saham Indonesia Anjlok Setelah Penghapusan MSCI Picu Penjualan Besar-Besaran; Saham Terkait Taipan Terpuruk Terparah!

5 jam Lalu

BTS Raih Sertifikasi Quadruple Juta Circle, P1Harmony, HUNTR/X, dan DK Sukses Capai Platinum!

6 jam Lalu

Breaking News

Winter aespa Terjebak Kontroversi Besar Gara-gara Video Idol Makan!

17 menit Lalu

Sekuel Hit PS5 2024 Diprediksi Rilis Bersamaan di Xbox & Switch 2!

1 jam Lalu

Hanya 3 Minggu Lagi! Film Perang Dunia II dengan Cast Blockbuster Siap Mengguncang Bioskop!

4 jam Lalu

Karakter Terbaru Elbaph di Anime One Piece Akhirnya Diperkenalkan, dan Fans Tak Siap dengan Rahasianya!

4 jam Lalu

Saham Indonesia Anjlok Setelah Penghapusan MSCI Picu Penjualan Besar-Besaran; Saham Terkait Taipan Terpuruk Terparah!

5 jam Lalu

BTS Raih Sertifikasi Quadruple Juta Circle, P1Harmony, HUNTR/X, dan DK Sukses Capai Platinum!

6 jam Lalu

Beranda Tech Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!

Tech

Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!

Ray KusumaDi update 19 jam Lalu1 menit membaca23

Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!

AI Belum Ahli dalam Tugas Jangka Panjang

Penelitian terbaru dari tim peneliti Microsoft menyoroti sebuah masalah mendasar: banyak model AI saat ini tidak mampu menangani alur kerja jangka panjang dengan baik. Hal ini tentu menjadi tantangan besar untuk pengembangan AI yang lebih efektif di masa depan.

Untuk memperjelas temuan mereka, tim peneliti ini memperkenalkan benchmark baru yang disebut DELEGATE-52. Benchmark ini mengukur kinerja AI di 52 sektor berbeda, mulai dari coding, akuntansi, hingga ilmu pengetahuan.

Kesimpulan dari penelitian ini menyatakan bahwa model AI yang ada saat ini “menghasilkan kesalahan yang sporadis, tapi serius, yang bisa merusak dokumen secara diam-diam dan akan semakin parah seiring dengan interaksi yang lebih panjang.”

Model-model Terbaru dan Kinerjanya

Studi ini mencakup beberapa model AI terkini seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT-5.4. Ternyata, model-model ini “merusak sekitar 25% konten dokumen pada akhir alur kerja yang panjang,” dengan model-model yang lebih rendah cenderung lebih banyak melakukan kesalahan.

Benchmark DELEGATE-52 menggunakan dokumen nyata yang panjangnya sekitar 15.000 token dan memperkenalkan 5-10 tugas pengeditan kompleks dengan simulasi “relay bolak-balik” yang meminta AI untuk melakukan transformasi dan kemudian membaliknya. Metode ini memungkinkan peneliti mengukur seberapa efisien masing-masing model mengembalikan dokumen ke bentuk aslinya.

Model terbaik tampil di area yang sangat terstruktur dan programatik, dengan peneliti dari Microsoft menyimpulkan bahwa “Python adalah satu-satunya domain tempat sebagian besar model siap.” Sebaliknya, alur kerja bahasa alami, area kreatif, dan dokumen semi-terstruktur membuat model kesulitan.

Satu hal yang terungkap dari penelitian ini adalah, semakin panjang token yang harus ditangani, semakin besar pula kemungkinan model AI mengalami kesulitan.

Performa yang Bervariasi

Perbedaan antara model-model frontier bukan terletak pada kemampuan mereka untuk menghilangkan kesalahan. Mereka hanya bisa menunda kesalahan tersebut. Beberapa model yang diuji oleh tim peneliti Microsoft mencakup berbagai generasi GPT-5 dan GPT-4, pilihan Claude, model Gemini, serta satu masing-masing dari Mistral, xAI, dan Moonshot, total ada 19 model berbeda dari enam keluarga.

Gemini 3.1 Pro menempati posisi teratas dengan skor benchmark DELEGATE-52 sebesar 80,9% setelah 20 interaksi; diikuti oleh Claude 4.6 Opus (73,1%) dan GPT-5.4 (71,5%). Sementara GPT 5 Nano terjatuh di posisi akhir dengan skor 10,0%.

Singkatnya, penelitian ini menunjukkan bahwa model AI saat ini belum cukup andal untuk dipercaya dalam alur kerja jangka panjang dan mandiri. Hal ini menandakan area-area krusial yang harus difokuskan para pengembang model di masa mendatang untuk meningkatkan kapabilitas AI.

Berita sebelumnya Penampilan Perdana Grup Wanita Baru HYBE Diterpa Kritikan Pedas!

Berita selanjutnya 5 Karakter Marvel Yang Diharapkan Hadir di Game Fighting Terbaru Ini!

Berita terkait

Tech

Peneliti Gunakan AI untuk Ciptakan Organisme Hidup Tanpa Blok Bangunan Dasar: Selamat Datang, Kehidupan Sintetis 19-Amino Asam Pertama di Dunia!

AI Ciptakan Versi Baru E. coli Tanpa Isoleusin Peneliti dari Columbia University,...

6 jam Lalu

Tech

Android Show 2026: Semua Kabar Terbesar tentang Android 17 dan Inovasi Terkini!

Tahun 2026 ini, Android Show kembali menyuguhkan berita-berita menarik, dan semuanya berpusat...

12 jam Lalu

Tech

ThinkPad Nub Unik Ini Ludes Terjual Seketika Meski Bikin Orang Kebingungan di Luar Kalangan Penggemar!

Ploopy Luncurkan Controller Desktop Berbasis Titik Penunjuk ThinkPad Mouse komputer telah bertransformasi...

1 hari Lalu

Tech

Tentara AS Siap Luncurkan Kendaraan Robotik untuk Evakuasi Medis, Saat Drone Murah Ubah Pertarungan Menjadi Taruhan Mematikan di Medan Perang!

Pertempuran Drone Memaksa Tentara Rethink Prosedur Evakuasi Dalam dunia pertempuran modern, angka...

1 hari Lalu

Winter aespa Terjebak Kontroversi Besar Gara-gara Video Idol Makan!

Sekuel Hit PS5 2024 Diprediksi Rilis Bersamaan di Xbox & Switch 2!

Hanya 3 Minggu Lagi! Film Perang Dunia II dengan Cast Blockbuster Siap Mengguncang Bioskop!

Karakter Terbaru Elbaph di Anime One Piece Akhirnya Diperkenalkan, dan Fans Tak Siap dengan Rahasianya!

Saham Indonesia Anjlok Setelah Penghapusan MSCI Picu Penjualan Besar-Besaran; Saham Terkait Taipan Terpuruk Terparah!

BTS Raih Sertifikasi Quadruple Juta Circle, P1Harmony, HUNTR/X, dan DK Sukses Capai Platinum!

Winter aespa Terjebak Kontroversi Besar Gara-gara Video Idol Makan!

Sekuel Hit PS5 2024 Diprediksi Rilis Bersamaan di Xbox & Switch 2!

Hanya 3 Minggu Lagi! Film Perang Dunia II dengan Cast Blockbuster Siap Mengguncang Bioskop!

Karakter Terbaru Elbaph di Anime One Piece Akhirnya Diperkenalkan, dan Fans Tak Siap dengan Rahasianya!

Saham Indonesia Anjlok Setelah Penghapusan MSCI Picu Penjualan Besar-Besaran; Saham Terkait Taipan Terpuruk Terparah!

BTS Raih Sertifikasi Quadruple Juta Circle, P1Harmony, HUNTR/X, dan DK Sukses Capai Platinum!

Microsoft Ungkap: Model AI Saat Ini Masih Rawan Kesalahan Saat Edit Dokumen, Jangan Terlalu Percaya Dulu!

AI Belum Ahli dalam Tugas Jangka Panjang

Model-model Terbaru dan Kinerjanya

Performa yang Bervariasi

Don't Miss

Ranking Kekuatan 5 Karakter Terkuat di The Boys: Setelah Season 5, Episode 6!

Ulasan Menarik Call of the Elder Gods: Siapa yang Berani Tantang Dewa!?

Tetangga Myanmar Berupaya Hapus Isolasi di Tengah Konflik yang Mengguncang

Finale Season 2 Born Again Cetak Rekor IMDb Tertinggi Sepanjang Masa di Marvel Cinematic Universe!

Peneliti Gunakan AI untuk Ciptakan Organisme Hidup Tanpa Blok Bangunan Dasar: Selamat Datang, Kehidupan Sintetis 19-Amino Asam Pertama di Dunia!

Android Show 2026: Semua Kabar Terbesar tentang Android 17 dan Inovasi Terkini!

ThinkPad Nub Unik Ini Ludes Terjual Seketika Meski Bikin Orang Kebingungan di Luar Kalangan Penggemar!

Tentara AS Siap Luncurkan Kendaraan Robotik untuk Evakuasi Medis, Saat Drone Murah Ubah Pertarungan Menjadi Taruhan Mematikan di Medan Perang!

Kategori

Informasi

This Week

Ranking Kekuatan 5 Karakter Terkuat di The Boys: Setelah Season 5, Episode 6!

Ulasan Menarik Call of the Elder Gods: Siapa yang Berani Tantang Dewa!?

Tetangga Myanmar Berupaya Hapus Isolasi di Tengah Konflik yang Mengguncang