AI

AI Tercanggih Diuji Soal Matematika Profesor, Hasilnya Jauh Dari Ekspektasi

AI Tercanggih Diuji Soal Matematika Profesor, Hasilnya Jauh Dari Ekspektasi
AI Tercanggih Diuji Soal Matematika Profesor, Hasilnya Jauh Dari Ekspektasi

JAKARTA - Kekhawatiran bahwa kecerdasan buatan atau artificial intelligence (AI) akan menggantikan peran matematikawan dinilai terlalu berlebihan. Pandangan tersebut ditegaskan langsung oleh Martin Hairer, peraih Fields Medal 2014, penghargaan paling bergengsi di dunia matematika, yang menilai bahwa matematika masih berada di wilayah yang “aman” dari dominasi AI.

Pandangan Hairer muncul saat ia menanggapi kegelisahan seorang siswa SMA yang mengirimkan e-mail kepadanya. Dalam surat tersebut, sang siswa mengungkapkan kecemasan tentang masa depannya di bidang matematika, seiring kemampuan AI yang berkembang sangat pesat dari hari ke hari. Ia khawatir kehadiran AI akan membuat profesi matematikawan kehilangan relevansi.

Hairer menenangkan kekhawatiran tersebut dengan penjelasan yang lugas dan berbasis pengalaman langsung. Menurut dia, meskipun teknologi AI berkembang cepat, ada batas yang hingga kini belum bisa ditembus oleh mesin, khususnya dalam ranah penciptaan ide matematika yang benar-benar baru.

AI Jago Latihan, Bukan Riset Orisinal

Hairer mengakui bahwa model AI berbasis Large Language Model (LLM), seperti ChatGPT, memang sangat piawai menyelesaikan soal-soal latihan matematika standar. Hal itu tidak mengherankan karena sebagian besar soal tersebut telah memiliki jawaban yang tersebar luas di internet dan masuk ke dalam data pelatihan AI.

Namun, Hairer menegaskan bahwa kemahiran tersebut tidak bisa disamakan dengan kemampuan riset matematika tingkat tinggi. Ia menyebut belum pernah melihat contoh konkret di mana AI mampu mencetuskan ide atau konsep matematika yang benar-benar orisinal.

“Saya belum melihat contoh yang masuk akal di mana LLM menghasilkan ide atau konsep baru yang benar-benar orisinal,” ujar Hairer.

Pernyataan ini menjadi landasan bagi Hairer dan rekan-rekannya untuk menguji klaim tentang kecerdasan AI secara lebih sistematis melalui sebuah eksperimen khusus.

Eksperimen First Proof: Ujian Sesungguhnya untuk AI

Untuk membuktikan argumennya, Hairer bersama tim matematikawan dari Harvard, Stanford, dan MathSci.ai merilis eksperimen bertajuk “First Proof”. Eksperimen ini dirancang untuk menguji kemampuan model AI tercanggih saat ini dalam menyelesaikan persoalan matematika riset yang nyata.

Dalam pengujian tersebut, mereka menggunakan sejumlah model mutakhir, termasuk ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think. Soal-soal yang diberikan bukan soal latihan biasa, melainkan masalah riset yang belum pernah dipublikasikan sebelumnya.

Tujuan utama eksperimen ini adalah memastikan bahwa AI tidak bisa “menyontek” jawaban dari data pelatihannya di internet. Dengan kata lain, AI dipaksa berpikir tanpa referensi jawaban yang sudah ada.

Hasil dari eksperimen tersebut ternyata jauh dari ekspektasi sebagian pihak yang optimistis terhadap AI. Hairer menyebut hasil kerja AI justru mengecewakan dan belum mendekati kualitas seorang matematikawan profesional.

Jawaban Panjang, Inti Masalah Hilang

Dalam penilaiannya, Hairer bahkan menyamakan jawaban AI dengan “mahasiswa S1 yang kurang pintar”. Ia menjelaskan bahwa pola jawaban AI cenderung bermasalah pada bagian yang paling krusial dari pembuktian matematika.

“Model AI cenderung memberikan banyak detail bertele-tele pada bagian yang mudah. Namun, pada inti argumen yang sulit, detailnya sangat minim,” kata Hairer.

Ia menambahkan bahwa AI seolah memahami titik awal dan tujuan akhir sebuah pembuktian, tetapi tidak mengetahui jalur logis yang harus ditempuh untuk sampai ke sana. Akibatnya, AI sering kali hanya “mengarang” di bagian tengah pembuktian.

Praktik ini dikenal sebagai hand-waving, yaitu memberikan argumen yang kabur atau tidak jelas, dengan harapan pembaca tidak menyadari kelemahan logika tersebut.

Sejumlah Kelemahan Fundamental AI

Dari hasil eksperimen tersebut, tim peneliti mengidentifikasi beberapa kelemahan mendasar yang membuat AI masih jauh dari kemampuan seorang profesor matematika. Salah satunya adalah kelemahan dalam penalaran visual atau visual reasoning.

AI diketahui sangat buruk dalam menyelesaikan soal yang membutuhkan imajinasi ruang atau visualisasi kompleks. Selain itu, AI juga memiliki daya ingat yang pendek. Jika sebuah pembuktian membutuhkan penjelasan panjang lebih dari lima halaman, kualitas jawaban AI akan menurun drastis dan mulai tidak konsisten.

Tamara Kolda, salah satu penulis makalah dari MathSci.ai, juga menyoroti karakter AI yang cenderung menjadi “yes man”. Menurut dia, AI tidak mampu berdebat atau menantang sudut pandang yang diberikan oleh pengguna.

Padahal, kemajuan sains sangat bergantung pada perdebatan ide dan pertukaran perspektif yang saling menguji.

Terjebak Lingkaran Setan dan Ancaman bagi Sains

Lauren Williams, profesor matematika dari Harvard yang terlibat dalam riset ini, menemukan fenomena lain yang tak kalah menarik. Saat dihadapkan pada masalah riset sungguhan, AI kerap terjebak dalam lingkaran setan atau infinite loop.

AI akan memberikan satu jawaban, lalu mengoreksi dirinya sendiri dengan pernyataan seperti “Tunggu, ada yang salah!”. Setelah itu, AI menyajikan jawaban baru, lalu kembali mengoreksinya, dan proses tersebut berulang tanpa pernah mencapai solusi final yang benar.

Tamara Kolda juga mengingatkan bahaya lain yang lebih fundamental. Menurut dia, AI justru berpotensi memperlambat kemajuan sains di masa depan jika digunakan secara keliru.

Alasannya, AI hanya akan mengulang sudut pandang yang diperintahkan kepadanya. Hal ini berbeda dengan kolaborasi manusia, di mana rekan kerja dapat berdebat, berbeda pendapat, dan memunculkan ide-ide baru yang menantang asumsi lama, sebagaimana dihimpun KompasTekno dari The New York Times, Selasa (10 Februari 2026).

Rekomendasi

Index

Berita Lainnya

Index