
JAKARTA (Lentera) - Walaupun model kecerdasan buatan (AI) generasi terbaru tampak mampu memahami dunia seperti manusia, studi terkini mengungkap bahwa ketiadaan tubuh fisik serta indra seperti penciuman, sentuhan, dan pengecap membatasi kemampuan mereka dalam menangkap konsep-konsep yang berkaitan dengan pengalaman sensorik, seperti aroma bunga atau makna humor.
Penelitian ini dipimpin oleh Qihui Xu dari Ohio State University bersama timnya. Mereka membandingkan persepsi manusia dan model bahasa besar (large language models/LLM), seperti GPT-3.5 dan GPT-4 dari OpenAI serta PaLM dan Gemini dari Google, terhadap hampir 4.500 kata. Kata-kata yang diuji mencakup berbagai kategori, mulai dari yang kongkret seperti “bunga” dan “kuku kaki”, hingga yang abstrak seperti “lucu” dan “ayunan”.
Partisipan manusia dan model AI diminta memberikan penilaian terhadap tiap kata berdasarkan sejumlah aspek, termasuk tingkat emosi yang dipicu, keterkaitannya dengan indra, serta hubungan fisiknya dengan bagian tubuh tertentu.
Hasil studi mengungkap bahwa manusia dan AI memiliki peta konseptual yang serupa untuk kata-kata yang tidak melibatkan interaksi fisik dengan dunia luar. Namun, kesenjangan muncul secara signifikan saat kata-kata itu berkaitan dengan pengalaman sensorik atau tindakan tubuh.
Contohnya, model AI cenderung mengasosiasikan pengalaman terhadap bunga melalui torso, sementara manusia lebih mengaitkannya dengan indera penglihatan dan penciuman.
Xu menjelaskan bahwa hal ini terjadi karena model bahasa besar membangun pemahaman tentang dunia dari teks yang diambil dari internet. “Mereka sangat berbeda dari manusia,” katanya, dikutip dari laporan New Scientist, Senin (9/6/2025).
Beberapa model yang dilatih menggunakan informasi visual seperti foto dan video menunjukkan hasil yang lebih mendekati persepsi manusia. Hal ini membuka kemungkinan bahwa pelatihan multi-modal—menggabungkan berbagai jenis data—bisa membawa AI lebih dekat ke pemahaman manusia.
“Ini menunjukkan bahwa manfaat dari pelatihan multi-modal mungkin lebih besar dari yang kita duga. Seperti satu ditambah satu ternyata bisa lebih besar dari dua,” ujar Xu. “Dalam konteks pengembangan AI, ini mendukung pentingnya mengembangkan model multi-modal dan pentingnya memiliki tubuh.”
Philip Feldman dari University of Maryland, Baltimore County, menambahkan bahwa memberikan tubuh robotik dan paparan input sensorimotor kepada AI kemungkinan besar dapat meningkatkan kemampuannya secara signifikan. Namun, menurut dia, pendekatan ini harus dilakukan dengan sangat hati-hati agar tidak menimbulkan risiko.
“Ini akan mempengaruhi cara mereka memahami dunia,” kata Feldman. Ia mencontohkan bahwa pelatihan menggunakan robot lunak yang ringan bisa membuat AI menyimpulkan bahwa tabrakan tidak berbahaya.
"Salah satu hal yang akan mereka pelajari adalah bahwa mereka bisa memantul saat menabrak sesuatu, karena tubuh mereka ringan. Dan ketika pemahaman itu diterapkan pada robot humanoid sungguhan yang memiliki massa, mereka akan percaya bahwa mereka bisa saling bertabrakan dengan kecepatan penuh. Nah, itu akan jadi masalah,” ujar Feldman.
Temuan ini memperkuat gagasan bahwa agar AI dapat memahami dunia seperti manusia, dibutuhkan pendekatan pelatihan yang lebih kompleks dengan melibatkan pengalaman sensorik dan interaksi fisik yang nyata.
Co-Editor: Nei-Dya/berbagai sumber