Yapay Zekâ, Matematikçileri İkna Edebilir mi?

Kategori : Eğitim Dünyası

Yazan: Emily Riehl
İlk Yayımlanma Tarihi: 07.08.2025
Çeviri: Atilla Özdemir

Yapay zekâ modellerinin Uluslararası Matematik Olimpiyatı sorularında yüksek başarı elde ettiği belirtiliyor. Ancak bu modellerin olimpiyat sorularını çözme biçimi, matematiğin neden hâlâ insanlar tarafından yapılması gerektiğini ortaya koyuyor.
Lise son sınıftaki en unutulmaz anılarımdan biri, yalnızca altı sorudan oluşan dokuz saatlik bir matematik sınavıydı. En yüksek puanı alan altı kişi, lise öğrencileri için dünyanın en uzun süredir düzenlenen matematik yarışması olan Uluslararası Matematik Olimpiyatı (UMO) (International Mathematical Olympiad – IMO)’nda ABD takımına katılma hakkı kazandı. Ben seçilemedim, ama yine de sonunda bir matematik profesörü oldum.

Bu yılki olimpiyat, geçen ay Avustralya’nın Sunshine Coast bölgesinde düzenlendi ve alışılmadık bir yan etkinliğe sahne oldu. Dünyanın dört bir yanından gelen 110 öğrenci, karmaşık matematik problemlerini kalem ve kâğıtla çözerken, birkaç yapay zekâ şirketi ise geliştirme aşamasındaki yeni modellerini sınavın bilgisayar ortamına uyarlanmış versiyonunda sessizce test etti. Kapanış töreninin hemen ardından OpenAI, ardından da Google DeepMind, modellerinin altı sorudan beşini çözerek altın madalya kazandığını duyurdu (resmî olarak geçerli olmayan, yalnızca sembolik bir ödül). OpenAI’den Sébastien Bubeck gibi araştırmacılar, bu modellerin başarısını sektör için bir “Ay’a iniş anı” olarak kutladı.

Peki gerçekten öyle mi? Yapay zekâ profesyonel matematikçilerin yerini mi alacak? Ben ise hâlâ bunun doğruluğunu gösterecek bir kanıt bekliyorum.

Uluslararası Matematik Olimpiyatları’nın ne kadar zorlu olduğu düşünülürse, yapay zekâ sistemlerinin bu yılki başarısının büyük heyecan yaratması hiç şaşırtıcı değil. Nitekim, lise son sınıftayken kalkülüs ve lineer cebiri bir kenara bırakıp, çok daha zorlu olduğu için Olimpiyat tarzı problemlere odaklanmıştım. Üstelik, henüz tamamlanmamış, üzerinde hâlen çalışma ve iyileştirme yapılan en yeni ve en gelişmiş yapay zekâ modelleri, sınavda hâlihazırda piyasada bulunan ticari modellere kıyasla çok daha iyi bir performans gösterdi. MathArena.ai tarafından düzenlenen paralel bir yarışmada Gemini 2.5 pro, Grok 4, o3 high, o4-mini high ve DeepSeek R1 modellerinin hiçbiri tamamen doğru tek bir çözüm bile üretemedi. Bu durum, yapay zekâ modellerinin giderek akıllandığını ve akıl yürütme yeteneklerinin oldukça belirgin biçimde geliştiğini gösteriyor.

Yine de endişelenmiyorum.

En yeni modeller, birçok öğrencinin de yaptığı gibi, sadece tek bir sınavdan yüksek puan aldı; bu yüzden bire bir karşılaştırma aslında pek adil sayılmaz. Bu modeller çoğu zaman “best-of-n” (en iyisini seçme) stratejisi kullanıyor; yani birden fazla çözüm üretiyor, ardından kendi kendilerini değerlendirerek en güçlü olanı seçiyorlar. Bu, birkaç öğrencinin bağımsız olarak çalışıp sonra bir araya gelerek en iyi çözümü seçip yalnızca onu teslim etmesine benziyor. İnsan yarışmacılara da bu imkân tanınsaydı, muhtemelen onların puanları da artardı.

Diğer matematikçiler de benzer şekilde bu heyecana karşı temkinli davranıyor. UMO altın madalyalı Terence Tao (şu anda California Üniversitesi, Los Angeles’ta matematikçi) Mastodon’da, yapay zekânın neler yapabileceğinin kullanılan test yöntemine bağlı olduğunu belirtti. UMO başkanı Gregor Dolinar ise, kuruluş olarak “yapay zekâ modelleri tarafından kullanılan yöntemleri doğrulama, kullanılan işlem gücünün miktarını, herhangi bir insan müdahalesi olup olmadığını ya da sonuçların tekrar elde edilip edilemeyeceğini” teyit edemeyeceklerini söyledi.

Ayrıca, UMO sınav soruları, profesyonel matematikçilerin cevaplamaya çalıştığı türden sorularla kıyaslanamaz; çünkü matematik araştırmalarının ön cephesindeki bir problemi çözmek dokuz saat değil, dokuz yıl sürebilir. Imperial College London’da matematik profesörü olan Kevin Buzzard’ın çevrim içi bir forumda söylediği gibi: “UMO altın madalyamı elime alıp lisans öğrencisi olarak Cambridge’e geldiğimde, oradaki araştırmacı matematikçilere yardım edebilecek durumda değildim.”

Günümüzde, doğru uzmanlığı kazanmak için gerekli matematiksel araştırmalar, bazen bir insan ömründen bile uzun sürebiliyor. Ben de birçok meslektaşım gibi “sezgisel kanıtlama” (vibe proving) yapmayı denemeye heveslendim. Bu, bir meslektaşımla konuşur gibi, bir Büyük Dil Modeli (Large Language Model – LLM) ile matematik üzerine sohbet etmek anlamına geliyor. Sohbet sırasında, “Şu doğru mu…” diyerek teknik bir matematiksel varsayım soruyorsunuz. Sohbet botu, çoğu zaman açık ve düzenli şekilde ifade edilmiş bir argüman sunuyor. Benim deneyimime göre bu argümanlar, standart konularda genellikle doğru olsa da işin en ileri ve karmaşık noktalarında fark edilmesi güç hatalar barındırabiliyor. Örneğin, sorduğum her model aynı ince hatayı yaptı: idempotentler kuramının (matematikte, belirli bir işlemi bir kez veya birden çok kez uyguladığınızda sonucu değiştirmeyen öğelerle ilgili teori), zayıf sonsuz boyutlu kategorilerde de sıradan kategorilerdekiyle aynı şekilde işlediğini düşünmek. Oysa, benim uzmanlık alanımda çalışan deneyimli matematikçiler—bana güvenin—bunun doğru olmadığını çok iyi bilir.
Özünde, veri kümesindeki bilgilere dayanarak bir kelime dizisinde hangi metnin geleceğini tahmin eden bir büyük dil modeline asla güvenmem. Hele ki, kendi başıma doğrulama imkânım olmayan bir matematiksel kanıt sunuyorsa.

İyi haber şu ki, kanıtların güvenilir olup olmadığını belirlemek için elimizde otomatik bir mekanizma var. Görece yeni sayılabilecek “kanıt asistanı” (proof assistant) adı verilen bu araçlar (yapay zekâ kullanmayan) ve verilen mantıksal bir argümanın belirtilen iddiayı gerçekten kanıtlayıp kanıtlamadığını kontrol etmek için tasarlanmış yazılım programlarıdır. Terence Tao, Kevin Buzzard ve benim gibi, kendi kanıtlarımızın doğruluğundan daha fazla emin olmak isteyen matematikçilerin ilgisini giderek daha fazla çekiyorlar. Ayrıca, matematiğin daha geniş kitlelere yayılmasına yardımcı olma ve hatta yapay zekâ güvenliğini geliştirme potansiyeli taşıyorlar.

Diyelim ki Hindistan’ın Tamil Nadu eyaletindeki Erode kentinden, el yazısı bana yabancı olan bir mektup aldım. Mektup, içinde bir matematiksel kanıt bulunduğunu iddia ediyor. Belki ortaya koyduğu fikirler olağanüstü derecede parlak, belki de tamamen anlamsız. Sonuçlarının doğru mu yoksa yanlış mı olduğunu anlayabilmem için, her satırını saatlerce dikkatle incelemem ve argümanın adım adım tutarlı ilerlediğinden emin olmam gerekir.

Eğer bu matematiksel metin, doğal dil yerine uygun bir bilgisayar sözdizimiyle yazılmış olsaydı, bir kanıt asistanı mantığı benim için denetleyebilirdi. Böyle bir durumda, benim gibi bir matematikçinin yalnızca teorem ifadesindeki teknik terimlerin anlamını bilmesi yeterli olurdu. Erode doğumlu, kuşağının ötesinde bir matematik dehası olan Srinivasa Ramanujan örneğinde ise, bir uzman onun mektubunu dikkatle çözümlemek için zaman ayırdı. 1913’te Ramanujan, fikirlerini Britanyalı matematikçi G. H. Hardy’ye yazdı. Neyse ki Hardy, Ramanujan’ın dehasını fark ederek onu Cambridge’e davet etti ve böylece gelmiş geçmiş en büyük matematikçilerden birinin kariyerinin başlamasını sağladı.

İlginçtir ki, yapay zekâ ile Uluslararası Matematik Olimpiyatı’na katılan bazı modeller, cevaplarını Lean adlı bilgisayar kanıt asistanının dilinde sundu. Böylece program, akıl yürütmelerindeki hataları otomatik olarak denetleyebildi. Harmonic adlı bir girişim, modellerinin altı sorudan beşi için ürettiği resmî kanıtları yayımladı. ByteDance ise altı sorudan dördünü çözerek gümüş madalya seviyesinde bir başarı elde etti. Ancak sorular, modellerin dil konusundaki sınırlamalarına uyacak şekilde yazılmak zorundaydı buna rağmen doğru çözüme ulaşmaları günler aldı.

Yine de resmî kanıtlar kendine özgü bir güvenilirliğe sahiptir. “akıl yürütme” modelleri olarak adlandırılan sistemler, problemleri parçalara ayırıp “düşünce süreçlerini” adım adım açıklamaya yönlendirilir. Ancak ortaya çıkan sonuç, kimi zaman mantıklıymış gibi görünen fakat gerçekte hatalı bir argüman olabilir. Bazen de gerçek bir kanıt niteliği taşıyabilir. Oysa bir kanıt asistanı, zincirin her adımını gerekçelendirmeyen, tamamen kesin ve titizlikle hazırlanmış olmayan hiçbir kanıtı kabul etmez. Bazı durumlarda yüzeysel ya da yaklaşık çözümler yeterli olabilir. Ancak matematiksel doğruluğun önemli olduğu yerde, yapay zekâ tarafından üretilen kanıtların mutlaka resmî olarak doğrulanabilir olmasını talep etmeliyiz.

Üretken yapay zekânın her kullanım alanı, doğru uzmanlığa sahip insanların sonuçların kesin olarak doğru mu yanlış mı olduğunu belirleyebileceği kadar net değildir. Hayatta pek çok belirsizlik vardır ve hata yapmak oldukça kolaydır. Lisede öğrendiğim gibi, matematiğin en güzel yanlarından biri, bazı fikirlerin kesin olarak yanlış olduğunu kanıtlayabilmektir. Bu yüzden, yapay zekânın kişisel matematik problemlerimi çözmeyi denemesinden memnun olurum—ama yalnızca sonuçlar resmî olarak doğrulanabiliyorsa. Henüz o noktada değiliz.

 

Bu yazı https://www.scientificamerican.com adlı sitede yer alan  AI Took on the Math Olympiad—But Mathematicians Aren’t Impressed”  adlı makaleden çevrilmiştir.

 

Paylaş:

Bir yorum yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Fill out this field
Fill out this field
Lütfen geçerli bir e-posta adresi yazın.
You need to agree with the terms to proceed

MEB’in Lise Operasyonu
Ötekileştirilen Öğretmenler 04-10 Ağustos 2025