Yapay zeka ne kadar zeki?

Lale Akarun
Yapay zeka ne kadar zeki?

Matematikte olimpiyatçıların seviyesinde değil; ortalama bir lise öğrencisi kadar soru çözebiliyor!

Geçen yazımda, büyük dil modellerinden birisi olan GPT4.5’in insandan ayırt edilemediğini, dolayısıyla Turing testini geçmiş sayılacağını anlatan makaleyi özetlemiştim. Büyük dil modeli, başarısını trilyon mertebesinde parametreye sahip olmasına borçlu. Bu parametrelerini de onlarca, yüzlerce trilyon kelimeyle eğitilmesi gerekiyor. Bu kadar kelime, milyonlarca kitaptan geliyor; yani yapay zeka neredeyse dünyanın tüm kitaplarını okuyor, hatta ezberliyor.

Dünyanın tüm kitaplarını okuması, ezberlemesi, yapay zekayı insandan üstün yapıyor mu? İnsan mı akıllı, yapay zeka mı? Bunu anlamak, yapay zekayı değişik görevlerde sınamak için pek çok çalışma yapılıyor. Nisan 2025’te yayınlanan iki makalede, karar verme, akıl yürütme konusunda uzmanlaşmış değişik yapay zekalar, matematik sınavına sokulmuş.


Ancak bu kez sorulan sorular sıradan matematik soruları değil, matematik olimpiyatı soruları. Matematik olimpiyatı soruları, aslında lise matematiğine dayalı, ancak hemen çözülemeyen, matematik bilgisi yanı sıra yaratıcılık ve temel kavramların hangi sırayla uygulanacağına dair sağlam bir strateji gerektiren sorular. Geometri soruları, cebir soruları, sayı teorisi soruları içeriyor. Sadece sonucun verilmesi değil, hangi adımların kullanılarak sonuca varıldığının açıklanması isteniyor. Bazı sorular ispat soruları. Soruların bazıları nispeten kolay iken, bazı sorular çok zor. Matematik olimpiyatlarına, matematikte en başarılı öğrenciler katılıyor, ama çoğu öğrenci soruların hepsini çözemiyor.

Yarışan yapay zekalar

Çalışmada karşılaştırılan yapay zekalar, çok çeşitli: ABD firması OpenAI’ın O3-Mini ve O1-Pro modelleri, Çin’den geçtiğimiz aylarda ucuzluğuyla bir sansasyon yaratan yapay zeka sistemi DeepSeek R1, Çinli firma Alibaba’nın QWQ32B modeli, Google’ın Gemini-2.0 Flash Thinking ve Gemini-2.5-Pro modelleri, X firmasının yapay zekası Grok 3 Beta ve Amazon’un Claude 3 Sonnet modeli yarışmaya sokulmuş. Modellere, altı adet matematik olimpiyatı sorusu sorulmuş. Altı sorunun her biri, yedi üzerinden puanlanmış.

En iyi performans gösteren model, Google’ın Gemini 2.5Pro modeli olmuş. Bu model, bir soruda yedi üzerinden 6.5, diğer bir soruda da 7 üzerinden 3.5 almış. Bir soruda da teselli puanı olarak yedi üzerinden 0.1 puan alırken, diğer sorularda sıfır çekmiş. Yani bir soruyu tama yakın, ikinci bir soruyu ise yarım yapmış. Toplam puanı 42 üzerinden 10.1 – yani 100 üzerinden 24 almış. Diğer modeller, bu performansın da epey altında kalmışlar: R1 ve Grok, 42 üzerinden 2 alırken, diğerleri daha da düşük puan almış.

Modellerin nerelerde hata yaptıkları da incelenmiş: Mantık hataları ve yaratıcılık eksikliği yanı sıra, yanlış varsayımlarda bulunma ve cebir hataları yaygın görülmüş. Modeller, çözümü sağlayan bir örnek bularak, oradan genellemeye gitmişler; döngüsel mantık kullanarak ispat yapmışlar. En iyi performans gösteren Gemini 2.5 pro, pek çok teorem uydurmuş.

Halüsinasyon, yapay zeka modellerinin yaygın bir problemi; ancak matematiksel teoremlerin halüsinasyonu, oldukça komik: Gemini’nin uydurduğu teoremin başlığında bir emoji var!

Yapay zeka ne kadar zeki? Matematikte olimpiyatçıların seviyesinde değil; ortalama bir lise öğrencisi kadar soru çözebiliyor. Kötü bir öğrenci gibi soruları ezberliyor, şıkları deniyor; bir şeyler atıyor, ispat yapamıyor. Bildiği sonuçları nasıl bildiğini açıklamakta yetersiz kalıyor. Daha önce gördüğü soruları, okuduğu kitapları hatırlamakta çok iyi. Bundan dolayı üniversite sınavı sorularını kolayca çözebiliyor. Ancak yaratıcılık gerektiren, mantık yürütme ve stratejik düşünme gerektiren sorularda yetersiz kalıyor.

Lale Akarun

Not: Bu yazı, HBT Dergi 472. sayıda yayımlanmıştır.

Lale Akarun