DeepSick'in yarattığı büyük etki üzerine OpenAI'de modellerini hiç vakit kaybetmeden yayınlamaya devam ediyor. Çok seri bir şekilde O3 Mini'yi ve hemen arkasından Deep Research'u yayınladılar. Hemen baştan şunu söyleyeyim. Aslında sıra O2'deydi.
ama O2 isminde bir İngiliz telekomünikasyon firması olduğu için isim hakları ile uğraşmadan direkt O3 isimlendirmesine atladılar. Bu isimlendirme işi de biraz kafa karıştırmaya başladı. Sam Edmund da bundan şikayetçi olduğunu belirtti. Umarım zamanla toparlarlar.
O3 Mini de O1 gibi, DeepSick R1 gibi düşünebilen bir model. Bunun yanında yine düşünemese de Alibaba Cloud, QN'in çok güçlü modellerini yayınladı. En son yayınlanan... QN 2.5 Max oldu.
E tabi bu kadar model ardı ardına yayınlanınca da bize de her zaman olduğu gibi hunharca kıyaslama düştü. Ama önce O3 Mini'ye bakalım neymiş neler getirmiş. Geçen hafta ben Zeki Müren'in kahır mektubu gibi uzun deepsick videosu ile uğraşırken Alibaba Cloud QN 2.5 Max'e duyurdu. Hemen arkasından hızlı bir şekilde OpenAI O3 Mini'yi şöyle bir blog yazısıyla duyurdu. O3 Mini ailesi Low Medium ve High olarak 3 modelle geldi.
Önce şuradan hemen konunun daha kolay anlaşılması için Google Translate yardımıyla Türkçeleştireyim sayfayı. En yeni ve en uygun maliyetli model olarak hem ChatGPT içerisinde hem de API olarak kullanıma sundular. Ya hayırdır bir şey mi oldu neden en uygun maliyet işlerine girdik yani hani çok pahalıydı masraflıydı falan.
İlginç yani dikkat çekici. Dediğim gibi düşük, orta ve yüksek kapasiteli 3 modelle geldi. Bunu da şöyle düşünebilirsiniz. Hızlıca cevap isterseniz basit bir sorunuz varsa O3 Mini Low'u seçebilirsiniz. Zamanınız var ve daha çok düşünmesini istediğiniz bir sorunuz varsa High'ı seçebilirsiniz.
Bunu da artık chat GPT'nin seçmesi lazım bence. Hani soruyu anlasın. Soru kolaysa Low'a yönlendirsin.
Soru zorsa High'a yönlendirsin. O3 Mini'nin görselleri anlama kapasitesi yok. Aynı Deep Sea Garvan gibi.
Görsel üzerinde soru soracaksanız... O1'dan devam edebilirsiniz. Plus ve Team kullanıcıları hemen kullanmaya başlayabilirler. Plus kullanıcıları için O1 mini ile gelen günlük 50 mesaj limiti O3 mini ile günlük 150 mesaja çıkarıldı. Bunun yanında güzel haber, ücretsiz kullanıcılarda ChatGPT arama kutucunun altındaki Akıl Yürüt butonuna basarak ücretsiz olarak deneyebilecekler.
Bakın burada ücretsiz hesabımdan göstereyim. Buradaki butona basıp soru sorarsam akıl yürüterek cevap verecek. Ya bir saniye bu özelliği sürekli ücretsiz...
kullandıran bir model vardı ya. Neydi onun adı? Neyse hatırlarım birazdan herhalde. Aylık 200 dolar bütçeli pro hesap kullanıcıları O1 Mini Hay'ı sınırsız kullanabilecekler.
Peki biraz tablolara bakalım. Geçen hafta yayınladığım Dipsik videomda tablolardaki karşılaştırmaların neye göre yapıldığını detaylı anlatmıştım. Videonun linkini bırakıyorum.
İsterseniz bakabilirsiniz. İlk karşılaştırma AIME 2024. Yani American Invitational Mathematics Exam. Sadece çeşitli sınavlarda başarılı olmuş gençlerin çağrıldığı zorlu bir matematik sınavı.
Bu sınavdan O3 Mini High %87.3 gibi başarılı bir sonuç almış. Bu çok başarılı bir gelişme bence. Burada bir şeye dikkatinizi çekmek istiyorum. Henüz O3 duyurulmadı. O3 Mini duyuruldu.
Nedense bir şey oldu O3'ü beklemeden Mini'yi yayına aldılar. Dolayısıyla O1 Mini ile karşılaştırmamız daha doğru olur. O1 Mini'nin %63.6'lık başarısından %87.3'e sıçrama bence çok... O1 %83.3 oranında başarılı. Aynı standart ölçümleri kullanmaları modelleri birbiriyle kıyaslama açısından çok iyi.
Hemen geliyorum DeepSick'e O1 mini %63.6 idi. Tutarlı gördüğünüz gibi. Buradan hareketle DeepSick R1 %79.2 O3 mini medium seviyesine geldi. High zaten %87 ile geçti.
O1 mini'den O1'a artış kadar artarsa O3 ile %100'ü geçmemiz lazım bakalım nasıl olacak. Biz tabi bunlarla ikna olmuyoruz kendi testlerimizi yapacağız. QN 2.5 Max AIME 2024 testine kendini sokmamış. Karşılaştıramıyoruz ama Gemini 2.0 Flash Thinking Experimental girmiş bu teste ve %73.3 gibi bir sonuç almış. Dolayısıyla O3 Mini Low ile Medium arasında bir yerlere konumlanıyor.
Bu videoya düşünemeyen model QN 2.5 Max'i kattıysa Cloud'u da katabiliriz diye düşündüm. Bu arada Cloud ekimden beri yeni bir model yayınlamadı. Bekliyoruz kapıdayız yani.
Cloud bu testte %16'lık bir başarıyla oldukça geride. Sözelci ya bu çocuk. Herkesin yetenekleri farklı.
Devam edelim O3 mini incelemesine. GPQA Diamond. Bunu geçen hafta yanlış aktarmışım özür dilerim.
Kodlamayla ilgili olduğunu söylemiştim ama değil. Graduated Level Google Proof QNA. Benchmark olarak geçiyor. Özellikle biyoloji, fizik ve kimya alanlarında lisans üstü düzeyde zorlu sorular var. Sorular gerçekten zor.
Doktor öderecisine sahip uzmanlar bile... bu sorularda sadece yaklaşık %65 doğruluk oluşturulmuştur. oranına ulaşabiliyorlarmış. Adında geçen Google Proof terimi soruların cevaplarının basit bir internet aramasıyla bulunamayacak kadar karmaşık olduğunu gösteriyor.
Bu tabloda O3 mini %70.6 Medium %76.8 High %79.7 gibi bir değerdi. Kabaca doktora seviyesinde bir uzmanı geçmiş durumda. QN2.5 %60.1 Cloud 3.5 Sonet %65 DeepSeek %71.5 gibi bir oran veriyor.
O3 mini burada da hepsini geçmiş gibi görünüyor. Yine geçen hafta bahsettiğim Code Forces sorularının çözümünde de kendini çok geliştirmiş. Burada yüzdesel değil Ela puanı ile hesaplanıyor. Ela puanının hesaplaması biraz farklı.
Güçlü modelin alacağı puan düşük, zayıf modelin alacağı puan yüksek. Futbol bahsi gibi düşünebilirsiniz. Favori takımların çarpan oranı düşük.
Özetle O1 mini'den O3 mini'ye çok ciddi bir artış olmuş. Bizi esas mutlu edecek konuya da bakalım. O3 Mini'nin fiyatı birden ne olduysa inanılmaz ucuzladı.
O1 seviyesinde bir model ve output token'da neredeyse 14 kat daha ucuz. Hatırlarsanız DeepSick'in düşünebilen modelinin chat iti 0.14 dolar, cash miss'i 0.15 dolar, output'u 2.19 dolardı. Bunların ne olduğunu DeepSick videomda detaylı açıklamıştım.
O3 Mini 60 dolardan 4.4 dolara düştü. Fiyatlar da bir garip tesadüf, DeepSick'in tam 2 katı. Şimdi oldu bence O3 Mini kullanılır. Çünkü DeepSync iyi hoş da 2 haftadır dükkan kapı duvar.
O3 Mini'nin bu fiyatı iyidir. Daha da sorgulamayın alın gidin bence. Hep bahsettiğim ve önemsediğim gerçek hayattaki yazılım mühendisliği çalışmalarını içeren karşılaştırma SWE Benchmark Verified. Burada çok büyük bir gelişme olmamış.
%50'nin üzerine bir atamadık kendimizi. O3 Mini High %49.3'e gelmiş. DeepSync %49.2'deydi. Cloud'a bakalım.
O da %49'da kalmış. Çok ilginç geliyor bana burası ya. Bir sınır var aşılamıyor bir türlü. Millet mobil uygulamalar oyunlar yapacak.
Hadi yani bekliyor insanlar. Aslında bir yanıyla da bu kadar uygulama yapma talebi de bana çok ilginç geliyor. Burada motivasyonu tam tespit edemiyorum.
Bir uygulama yapıp para kazanmak mı yoksa bir uygulamayla bir ihtiyacı bir sorunu çözme çabası mı? Para kazanmaksa bu gelecekte pek mümkün olmayacak gibi. Çünkü bize kolay ve hızlıca uygulama yapabilen yapay zeka...
Başkasına da yine aynı kolaylıkla hızla yapabilecek. Neyse özetle zamanla göreceğiz. Belki O3'ün kendisi bu sınırı aşabilir. O3 demişken O3'ün de erken sürümünü gördük.
Nerede derseniz OpenAI O3 mini'nin duyurusunun hemen ardından Deep Research özelliğini duyurdu. Hemen ona bakalım. OpenAI Deep Research'ü yani derin araştırmayı bu blog yazısıyla duyurdu.
Yine önce sayfayı Türkçe'ye çeviriyorum. AI Agent konusunu anlatırken 2025 yılı içerisinde modellerin kendi içerisine de AI Agent getireceğini söylemiştim. Derin araştırma tam bir AI Agents örneği oldu.
Bunu alıştığımız modeller gibi düşünmeyin. Araştırma için bir talep gönderiyorsunuz. Önce araştırmasını yapıyor.
Çok büyük miktarda veriyi sentezliyor ve size harika bir rapor olarak sunuyor. Şu an sadece aylık 200 dolarlık pro kullanıcıları için geldi. Plus ve Team kullanıcıları bekleyecek. Kullanmak için arama kutucuğundaki Deep Research butonuna tıklamanız yeterli olur. Bir de hani ayık 200 dolar ödemeniz lazım o çok önemli değil.
Bir insanın saatlerce yapacağı araştırmayı dakikalar içerisinde yapıyor. Bu konuda Derya Unutmaz hocamız Deep Research'un kendisine saatler ve dolayısıyla binlerce dolar kazandırdığını yazmış. Tıbbi raporlar oluşturmuş birinin hayatını kurtarabilecek tavsiyeler almış. Bu çok güzel örnek oldu bence artık bizden çıktı yapay zeka. Doktora seviyesinde araştırmalar yapabiliyor.
Benim birisinin hayatını kurtarabilecek en büyük tavsiyem otur bir su iç soluklan kardeşim bir sakin ol. Olur yani daha fazlası olmaz. Bunu çok önemsiyorum. Derya Hoca gibi direkt insanlığı etkileyecek, hayatı etkileyecek işlerde yapay zekanın ilerlemesi çok önemli.
Derya Hoca'nın kendi söylemiyle ona saatler kazandıracak bir yapay zeka ile bulacağı, keşfedeceği şeyler hepimizin gelecekte hayatını direkt etkileyecek. Özetle Deep Research, finans, bilim, politika, mühendislik gibi alanlarda yoğun bilgi çalışması yapan kişilerin kapsamlı, kesin ve güvenilir ihtiyaçlarına cevap verecek bir gelişme. Dediğim gibi şu an için pro hesaplar Deep Research butonuna tıklayarak kullanmaya başlayabiliyor.
Cevaplar 5 ile 30 dakika arasında geliyor. Şu an için text bazlı cevap veriyor. Yakında vereceği cevapların içerisine görseller, grafik tabloları da ekleyebilecekmiş.
Bakın burada bir örnek var. ChatGPT-O'ya ve Deep Research'e aynı soru sorulmuş. Bir çeviri translate uygulaması için fikri sorulmuş.
Son 10 yılda gayri safi yurt içi hasılaya göre en gelişmiş ve gelişmekte olan ilk 10 ülke için iOS ve Android benimseme oranlarını, başka bir dil öğrenmek isteyenlerin yüzdesini ve mobil penetrasyondaki değişimi bulmama yardım edin. Bu bilgileri bir tabloya yerleştirin ve istatistikleri sütunlara ayırın ve ChatGPT'den yeni bir iOS çeviri uygulaması için Hedef pazarlara ilişkin öneriler ekleyin. ChatGPT'nin şu anda aktif olduğu pazarlara odaklanın.
ChatGPT 4.0 hemen kapsamlı veri derleme, veri kısıtlamaları nedeniyle zordur diyerek kendini sağlama aldı. 10 gelişmiş ülkeyi saymış, 10 adet gelişmekte olan ülkeyi saymış, genel olarak iOS, Android kullanım oranlarını Duolingo uygulaması üzerinden genel bir açıklama yapmış. Deep Research'un araştırmasına baktığımızda tek tek ülkeleri incelemiş, hem iOS hem Android kullanım oranlarını vermiş, hem de dil öğrenmeyle ilgili bulduğu verileri getirmiş. Amerika'da mesela iOS kullanımı %58'miş. Android %42'miş.
İnsanların %70'i yabancı dil yeteneğini kaybettiği için pişmanmış. Çünkü herkes İngilizce konuşabiliyor. İhtiyaç duymadıkları içindir. Japonya'da %69 olması ilginçmiş iOS kullanımının.
Almanlar da ilginç Android seviyorlar. Tutumlu Almanlar telefon okuya para verilmez demiş olabilirler. Diye devam ediyor. Gelişmekte olan ülkelere bakalım.
Hindistan'da iOS kullanımı %40'miş. Türkiye'de %15'miş iOS kullanımı. Neyse amacımız bu videoda raporu incelemek değil, konuyu anladınız siz diye düşünüyorum. Burada farklı örnekler var. Needle in High Stack yani samanlıkta iğne aramı diye tabir ettiğimiz bir teknik, çok büyük data içerisindeki küçük ipuçlarıyla bir şeyler bulabilmek.
Bakın burada bir dizi sahnesini tarif etmişler ve dizinin adını bulmasını istemişler. ChatGPT 4.0 bir tahminde bulunmuş. Deep Research dizinin adını, bölümünü, bölüm adını, sezonunu, ışıkçısına kadar bilmiş.
Çok başarılı görünüyor ya. Deep Research'ı şu Humanities Less Exam'e sokmuşlar. Bu sınavın da adı çok manidir. İnsanlığın son sınavı. Çok zor bir sınav.
İçerisinde 3000 soru var. Bilimsel sorular var. Cevapları bazen kısa bazen çoktan seçmeli. 50'den fazla ülkeden 1000 civarında uzman, araştırmacı ve akademisyenin katkılarıyla hazırlanmış bir sınav.
Özetle uzmanlık gerektiren sorular. Sonuçlar mevcut yapay zeka modellerinin uzman insan zekası seviyesine henüz ulaşamadığını gösteriyor. Deep DeepResearch'e kadar %10 başarıya gelebilen yapay zeka yoktu. Geçen videoda söylemiştim artık mevcut sınav ölçüleri yetmiyor. %90'lara geldi yapay zekalar diye.
Meğerse varmış. İnsanlığın son sınavı. Gerçekten bizim son sınavımız olabilir. Bu sınav sonuçlarına göre ChatGPT 4.0 %3.3 Grok 2 %3.8 Cloud %4.3 Geminal %6.2 Ovan %9.1 DeepSeek %9.4 O3 Mini %13 Deep Research %26.6 ile inanılmaz bir gelişim göstermiş. O olandan buraya neredeyse 3 kat artış var.
Cloud'dan 6 kat başarılı görünüyor. Merak ediyorum açıkçası. Bu insanlığın son sınavı sorularını da buldum.
Bir yerlerden de OpenAI Pro hesap aparırsam anlatırım diye düşünüyorum. Şu anlık Pro hesabım yok. Şuna da bakalım. Hani 200 dolara ödedim ben artık Pro kullanıcısı oldum. Uçarım kaçarım diyemiyorsunuz.
Aylık kullanım sınırı şu an için 100 sordu. Bir sonraki aşama ne olacak onun hakkında da bilgi vermiş OpenAI. Öncelikle şu an sadece Deep Research webde var.
Mobil ve masaüstü uygulamasına da gelecekmiş. Burada bence önemli bir nokta var. Deep Research şu an için açık web'e ve web'de olan tüm dosyalara erişebiliyor.
Gelecekte de gelişmiş veri kaynaklarına erişmeyi hedefliyormuş. Aynı zamanda ücretli üyelik gerektiren kaynaklara da erişebilecekmiş. Böyle olduğunda çok çok sağlıklı ve gelişmiş sonuçlar verecektir diye düşünüyorum.
Şurada son olarak çok önemli bir ibare var. Deep Research'e güç veren O3'ün erken sürümüymüş. Yani Deep Research gücünü buradan alıyorsa acayip bir model geliyor diye düşünebiliriz.
Çok beklemeyeceğiz gibi görünüyor. Sam Edmund'un bu ay içerisinde malı depodan çıkaracağını söyledi. Detaylar böyleydi. Şimdi modelleri kıyaslamaya başlayalım. O3 Mini var.
Deepseeker One var. Alibaba Cloud'un QN 2.5 Max isminde duyurduğu güçlü bir model var. Henüz düşünemiyor ama olsun. Yeni çıktı hemen ekledim.
Tabi ki Gemini 2.0 Flash Thinking Experimental modelini de ekledim. Bu karşılaştırmada 0.1.21 versiyonunu kullandım. Ben bu videoyu hazırlarken Gemini onu yayınladı.
Yani Gemini'nin kendi sitesine koydu. Bildiğiniz gibi EOS video üzerinde genelde deneysel modeller var. Özetle biz bu videoda şu an Gemini'nin kendi sitesinde olan modeli incelemiş olduk.
Siz bu videoyu izlerken... Eğer stüdyo üzerinde göreceğiniz model bu model değil yani. Hadi başlayalım. Önce O3 Mini Hay'dayım.
A.I.M.E. 2024 Matematik Sorularıyla Başlayacağım. O3 Mini'ye henüz dosya yükleyemediğimden soruyu kopyalıp yapıştıracağım. Çeviri hatası olmasın diye İngilizce gireceğim soruyu.
Soru şu. Aya her sabah 9 kilometrelik bir yürüyüş yapıyor ve sonrasında bir kahve dükkanında duruyormuş. İlk durumda S kilometre bölü saat hızla yürüdüğünde kahve molası yani T değeri.
dahil toplam 4 saat sürüyormuş. İkinci durumda S artı 2 km saat hızlı yürüdüğünde kahve molası T dahil 2 saat 24 dakika sürüyormuş. Soru şu S artı 1 bölü 2 km saat hızlı yürürse kahve molası dahil kaç dakika sürer?
Buradaki T kahve molasının dakika cinsinden süresini gösteriyor ve her durumda aynı. Kopyaladım geldim O3 mini H'ya yapıştırdım. Şu an muhakemeye düşünmeye başladı. Gördüğünüz gibi artık chat GPT'de düşüncelerini yazmaya başladı. Bunu bir model daha yapıyordu ya.
Hangisiydi o? Adı aklıma gelir gelmez söylerim birazdan. DeepSick Arvan'a geldim.
Ona da aynı prompt'ı girdim ve gönderdim. DeepThink'de açık gördüğünüz gibi. QN'e geldim.
QN'in en son yayınlanan modeli QN 2.5 Max'i seçtim. Buna da girdim ve gönderdim. EOS Studio'ya geldim.
Onda da Gemini 2.0 Flash Thinking Experimental'ı seçtim. Prompt'ımı girdim ve gönderdim. Cloud'a geldim ona da aynı prompt'ı girdim ve gönderdim.
Bakalım hangileri bilecek. O3 mini high tamamlamış 204 dakika diyerek doğru cevabı vermiş. Ve bunu sadece 17 saniyede vermiş harika puanı kaptı.
DeepScape'e geldim 159 dakika diyerek 30 saniyede yanlış cevabı verdi. Qn'e bakalım olmamış garip garip cevaplar. 3 haneli bir cevap bile değil.
Farklı yerlerdeyiz yani. Kağıdı doldurdun bana atmak için ama olmadı köen. Gemini'ye gelelim. Oo öncelikle yavaş kalmış.
O3 mini'ye göre geçen hafta uçuyordu kaçıyordu. 27 saniyede yalnız cevabı vermiş. 294 demiş.
İyi var en azından 3 basamaklı ama 204 olacaktı doğru cevap. Cloud'a bakalım 204 diyerek doğru cevabı vermiş. Güzel be. Hoşuma gitti ne yalan söyleyeyim Cloud'un bilmesi. Şu durumda O3 mini ve Cloud puan aldı.
diğerleri alamadı. O3 mini 1, DeepSick 0, QN 0, Gemini 0, Cloud 1 puanda. İkinci zorlu matematik sorumla devam edeyim.
Geldim sorulara üçüncü problemi sorabilirim. Çok latex formülasyonu olan soruları seçmek istemiyorum. Arkadaşlar dosya alamadıkları için haliyle görsel okuyamadıklarından dolayı problemi yanlış anlama ihtimallerine karşı kopyalıyorum.
Bu problem şöyle bir problem. Alice ve Bob jetonlarla bir oyun oynuyorlar. En kadar jetonla başlıyormuş oyunları.
İlk hamleyi Alice yapıyormuş. Sırası gelen oyuncu masadan 1 ya da 4 jeton olabiliyormuş. Son jetonu alan kazanıyormuş.
Soru şu, 1'den 24'e kadar olan sayılar içerisinde Bob'un kesin kazanma stratejisi olan kaç farklı en sayısı vardır? Yani hangi başlangıç jeton sayılarında, yani en, Alice ne yaparsa yapsın Bob'un kazanma garantisi olduğunu bulmaları gerekiyor. Nasıl zor değil mi? Hesap makinem yok olsa şak diye söylerdi.
Bence hiçbirisi çözemez. Kopya adım soruyu. Hepsinde yaşanan acıları unutmak için yeni trade açtım.
Hızlıca soruyu girip gönderdim. Cevaplar geldi. Önce o 3 miniye bakalım.
Tamamladı. Evet 809 dedi. Doğru. Yani Bob'un 809 farklı N sayısında yani başladığınız Z10 sayısında kazanma şansı varmış.
Çok iyi ya ben hayran oldum. Dipsik'e bakalım. Hesaplamaya devam ediyor. Kuen ne yapmış?
O da hesaplamaya devam ediyor. Demin makara yaptık içerledi herhalde. Cemine'ye geldim. 809 doğru cevabı verdi.
Tebrikler moruk. Cloud'a geldim. Dım dım.
Hayal kırıklığı. 404 dedi ve bilemedi. Deep Seek devam ediyor.
Bu arada bakalım. O3 mini kaç saniyede bitirmiş? 25 saniyede bitirmiş. Süper ya. QN 405 diyerek yanlış cevabı verdi.
Cemine 22 saniyede doğru cevabı verdi. Geçmiş yani O3 mini'yi. Deep Seek de 809 diyerek doğru cevabı verdi.
Ama 133 saniye sürdü. Bilmiyorum sizin için ne kadar önemli. Son puan durumumuz şöyle.
O3 mini 2. Deep Seek. 1, Kuen 0, Gemini 1, Cloud 1 puanda. Yeni soruyla devam edelim.
İnsanlığın son sınavından aldığım bir soru var. Onu sorayım. O 3 mini deyim sorumu girdim.
Bir pozitron hareketsizdir. Yani hareket etmez. Bir elektron yatar eksen boyunca soldan Lorentz faktörü 3 ile hareket etmektedir. Pozitrona çarptıktan sonra her ikisi de 2 foton üreterek yok olur. Her 2 fotonun enerjileri ölçülmüştür ve aynı değere sahiptirler.
Yönleri de ölçülmüştür. fotonlardan biri sağ üst yönde giderken diğeri sağ alt yönde hareket ediyordu. Fotonların yata eksene göre yönleri arasındaki açı her iki fotonun içinde aynıdır. Açının kosünüsü kaçtır? Bak matematik sorusu bu.
İçinde rakam yok ama cevabı rakam olacak. Gönderdim diğerlerine de aynı şekilde girip gönderiyorum. Bu arada QN'e harika özellikler geldi.
Artifact ile yazdığı kodların ön izlemesini gösteriyor. Web Search ile cevaplarına web dönüşleri ekleyebiliyor. Image Generation ile görsel atabiliyor.
Video Generation ile Video da üretebiliyor. Komple bir model olarak geldi. QN 2.5 Max.
Video üretimi şu an geçici olarak kapatıldı. Belki siz bu videoyu izlerken açılır. Cevap geldi. Bu arada kök 2 bölü 2 diyerek doğru cevabı verdi. O3 mini yine doğru cevabı verdi.
Deepseek devam ediyor. Gemini de doğru cevabı verdi. Cloud 0,707 diyerek doğru cevabı verdi. Deepseek de doğru cevabı verdi. Özetle hep sivil.
Son puan durumumuz O3 mini 3. Deepseek 2. QN 1. Gemini 2, Cloud 2 puanda. Sayısal bölümü tamamladık. Gördüğünüz gibi O3 Mini çok başarılı görünüyor. Madem elinizde bu kadar güçlü modeller vardı, neden yayınlamadın sayın OpenAI'da DeepSickArva'nın yayınlamasını bekledin? Şimdi de biraz genel bilgi sorularına bakalım.
O3 Mini'deyim, sorumu girdim. Ender'ın Nuvasif ile ilgili aşağıdakilerden hangisi yanlıştır? A.
Hayatı boyunca sarayda görev yapmıştır. B. Sultan 3. Selim'e 7 kaside sunmuştur.
C. İstanbul'da doğmuştur. D.
Sarayda peşkir ağası, anahtar ağası, kiler ket yudası olmuştur. Galata Sarayı'ndan Enderun'a taşınmıştır. Dedim ve gönderdim. Diğerlerine de hızlıca aynı soruyu girip gönderiyorum.
Cevaplara bakalım. O. Üçmini düşünüyor. Ana dilinde düşünüyor gördüğünüz gibi.
Deepsik cevaplamış. A. Hayatı boyunca sarayda görev yapmıştır. Cevabı yanlıştır demiş. Doğru cevap.
Tebrikler Deepsik. Bizim Enderun'un vasıfı da tanıyorsun demek ki. QN'e bakalım sallamış.
C İstanbul'da doğmuş ve ölmüştür demiş. Nereden biliyorsun nerede doğduğunu öldüğünü? Yanlış işte.
Cemine'ye bakalım E demiş. Bilemedi doğru cevabı şaşırttı. Normalde iyidir Cemine'ye bu bilgi sorularında. Cloud'a bakalım doğru cevabı vermiş tebrikler.
O3mini'ye bakıyorum. O da C demiş yani bilemedi. Bu ifadelerden hayatı boyunca sarayda görev yapmış ifadesi yanlıştı.
Hayatı boyunca sarayda görev yapmamış, başka görevlerde de bulunmuş. Deepseek ile Cloud doğru cevap verdi, çok çekişmeli geçiyor. Son durum şöyle, O3 mini 3, Deepseek 3, Quen 1, Gemini 2, Cloud 3 puanda. Yeni soruyla devam edelim.
O3 mini deyim sorumu girdim. Aşağıdakiler hangisi Azerbaycan basını için çok önemli olup, millete çağdaş ilimleri, çağdaş metot... A. Hasan Bey Zerdabi B. Abbas Kulia Bakihanov C. Mirza Fethali Ahundov D. Muhtarav Tagiyev D. Dedim ve gönderdim.
Diğerlerine de aynı şekilde soruyu girdim ve gönderdim. Bakalım nasıl cevaplar gelecek. Cevaplar hızlıca geldi. Kolay sorduk herhalde.
O3mini Hasan Bey Zerdabi diyerek doğru cevabı verdi. Dipsik de doğru cevabı verdi. Kuen de doğru cevabı verdi.
Ceminey de, Cloud da doğru cevabı verdi. Çok teşekkürler çocuklar. Hepsi doğru cevabı verdiği için puan sıralaması değişmedi. Sonraki soruya geçiyorum. O3 mini deyim sorumu girdim.
Aristoteles'in ruh anlayışıyla ilgili aşağıdaki ifadelerden hangisi yanlıştır? A. Ruh saklı olanan gerçekleşmesidir. B.
Ruh bedenden ayrı ve bağımsızdır. C. Ruh bedenin formudur.
D. Canlı varlıklar ruha sahiptir. E. Ruh amaçtır.
Dediğime gönderdim. Diğerlerine de aynı şekilde soruyu girip gönderiyorum. Cevaplar geldi.
Önce O3 mini deyim yanlış olan ifadenin B. Ruh bedenden ayrı ve bağımsızdır diyerek yani yanlışı bularak doğru cevap verdi. Deepske geliyorum.
O da B diyerek doğru cevabı verdi. Kuyen'e geldim. O da B şıkkı diyerek doğru cevabı vermiş oldu. Cemine'ye geldim. O da B şıkkı diyerek doğru cevabı verdi.
Cloud da doğru cevabı vermiş. Teşekkürler. Bu sefer bir tarih sorusu sorayım.
O 3 mini deyim sorumu girdim. Cem Sultan ve Şehzade Beyazıt'ın şiirlerini çağdaşlarının eserlerinden ayıran en önemli özellik aşağıdakilerden hangisidir? A. Kişisel maceralarını şiirlerine yansıtır. Dediğim ve gönderdim.
Diğerlerine de aynı şekilde giriyorum. Gitsin hepsi Cem Sultan ve Şehzade Beyazıt'ın şiirlerini okusunlar, cevaplasınlar. Bilmedikleri yerden sordum dağıldılar.
Cevaplar geldi. O3 Mini A kişisel maceralarını şiirlerine yansıtmış olmaları dedi ve doğru cevabı verdi. Deepsik de doğru cevabı verdi. Kuen de doğru cevabı vermiş.
Ceminer ve Kulat. Hatta doğru cevabı verdiler. Demek ki dağılmamışlar. Tebrik ediyorum. Puan durumu şöyle oldu.
O3 mini 6, deep seek 6, QN4, Gemini 5, Cloud 6 puanda. Bilgi bölümünü de tamamladılar. Gerçekten çok başarılılar. Bizim de artık sorularda insanlığın son sınavı sorularına geçmemiz lazım.
Bilmedikleri yok çünkü şu anki durumda. Her zaman olduğu gibi son olarak 2 kod sorusu sorarak videoyu tamamlayalım. Geçen hafta sorduğum basit bir futbol oyun talebim vardı. Yapamamışlardı.
Yine aynı soruyu sorayım bakayım yapabilecekler mi? O3 mini deyim promptumu girdim. Tek bir html sayfasında basit bir futbol oyunu oluşturmanızı istiyorum.
Oyun şu özellikleri içermeli. 1. Oyun elemanları. Top, unicode karakterler kullanılabilir.
Kale sayfanın üst kısmında rakip, oyuncular, engeller, unicode karakterler kullanılabilir. 2. Oyun mekanikleri. Oyuncu mouse ile topa tıklayarak vuruş yapabilmeli.
Topun neresine vurursa o yönünde falso almalı. Her vuruşta Top belirli bir fizik kuralıyla hareket etmeli. Topun kaleye doğru gidebilecek enerjisi olmalı.
Topun kaleye girmesi durumunda gol sayılmalı. 11 tane rakip oyuncular engeller. Topa çarptığında topun yönü değişmeli. Engeller arasında topun geçebileceği kadar boşluk olmalı.
4. Oyun kuralları Oyuncu maksimum 3 vuruş hakkına sahip. 3 vuruşta gol atılamazsa oyun biter. Oyun bittiğinde yeniden başlat seçeneği sunulmalı.
4. Ekranda gösterilmesi gerekenler Kalan vuruş hakkı Skor Yeniden başlatma butonu. Lütfen çalışan ve test edilmiş bir çözüm sağlayın dedim ve gönderdim. Diğerlerine de aynı soruyu girip gönderiyorum.
Qn'e geldim. Qn'in Artifact paneli var. Bunu aktif ederek promptunuzu girerseniz cevabında HTML, JavaScript gibi kodlar varsa ön izlemesini gösterebiliyor.
Artifact'i aktif ettim ve gönderdim. Cevaplar geldi. İlk önce Gemini bitirdi genelde her zaman olduğu gibi.
Kopyaladım kodları. Daha önce Vücud Studio kodda boş bir HTML sayfası açmıştım. İçerisine yapıştırıyorum.
Bu arada Visual Studio kodun ne olduğunu, hangi amaçla kullanıldığını detaylı anlattığım bir videom var. Onun da linkini bırakıyorum. Merak edenler, bilmeyenler izleyebilir. Kaydettiğim HTML dosyamın klasörüne geldim ve çift tıklayarak açtım.
Garip olmuş, dizili defans olmuş. Tüm takım ileri çıkmış, kale boş. Golümü atabilirim.
Vurdum topa, top süzerek devam ediyor. Tekrar vuramıyorum topa. İstediğim yere gitmedi. Garip yani. Yeniden başlığa tıkladım.
Güzel çalışıyor. Yine vurdum topa. Olmadı.
İstediğim bu değildi yani. Hemen Cemine'ye çaktım 0 puanı. O3 mini de bitirmiş. Kodları kopyaladım. Geldi mi işte hemen dosyamı yapıştırdım ve kaydettim.
Aynı dosya olduğu için sayfasını gidip yeniliyorum. Bak bu da aynı böyle ya. Böyle takım mı olur?
Sahaya takılır mı? Dağılması lazım oyuncuların. Bunu da ben mi söyleyeyim?
Neyse topa vurayım. Vurdum. Vurduğum noktanın tersine doğru arkaya diyor.
Aslında ne tarafa vurursam o tarafa doğru gidiyor. Topun hızı falan iyi. Topun iyice köşesine vurmayı deneyeyim.
Belki baraja geçebilirim. Baraja bak kebam barajı gibi. Oyuncuların arasında top geçebilsin demiştim ama onu da yapmamış. Artık bunları yapabilmesi lazım ya.
Hani hayalim bu oyunu bitirip App Store'a koyacaktım. Olmadı bekliyoruz. Puan veremiyorum.
DeepSick'e bakalım. O da bitirmiş. Run HTML linkine tık. Tıkladım oyunun ön izlemesi açıldı. Vurdum topa.
Top kayboldu. Nasıl sert bulduysam artık. Out corner hiçbir şey yok.
Kanvasın dışına taşmış. Burada takılıyor. Bir daha vuramıyorum. Arkadaş sanki FC 2025 istedik ya. Ayıp gerçekten ya.
Neyse adamları dağıtmış en azından. Bunlar kafa kafaya verip anca yapabilirler. App Store'da rekorlar kıracak oyunumu mahvettiler. Puan yok.
QN'e bakalım. QN'de görsellik yok. Bakalım oynanabilirlik nasıl. Vurdum topa.
Hmm. Güzel gitti. Çok iyi bir daha vurabiliyorum.
Yeniden başlattım. Oyuncuların yeri değişti. Güzel. Vurdum gitti top. Durdu.
Bir daha vurdum. Gol. İşte bu ya. Demek ki olabiliyormuş.
Şaşırttı beni Cohen. Harbiden yaptı yani. Güzel anlamış. Gerçekten çok sevdim.
Aferin Cohen. Böyle devam puanı kaptın. Son olarak Cloud'a bakalım.
Artifek panelinin mücidi Cloud'da orada çalışmış. Güzel görünüyor. Tıkladım topa.
Düştü top. Askıya asılmış ceket gibi. Olmadı yani. Hiç olmadı. Biz neler hayal ediyoruz?
Bu arkadaşlar neredeler ya? Otur sıfır. Bu bölümde tek puan alan Quen oldu. Diğer konular değil ama kod işinde Quen iyi galiba. Bir soru daha sorayım.
Bu sefer bir yılan oyunu yaptırmak istiyorum ama böyle 3 boyutlu olsun. Ben tuşlardan döndürdükçe ekran dönsün. Bakalım.
O3 Mini'deyim promptumu girdim. HTML, JavaScript ve Tree JavaScript kullanarak 3D bir yılan oyunu oluşturmanı istiyorum. Oyunun özellikleri şunlar olmalı. Kamera özellikleri, 3. şahıs persektifinden yılanı takip eden kamera. Yılanın arkasından ve yukarısından bakış açısı.
harita sınırlarını görebilecek şekilde konumlandırma. Oyun mekanikleri, ızgaralı bir düzlem üzerinde hareket, WASD ve ok tuşları ile kontrol, yiyecek toplama sistemi, yiyecek yendiğinde yılanın büyümesi, kendi kuyruğunu ve duvarları çarpınca oyun bitmesi, görsel özellikler, 3D modeller için basit geometrik şekiller, yılan için bağlantılı küpler, küreler, yiyecekler için farklı renkte geometrik şekiller, ızgara şeklinde zemin. Harita sınırlarını belirten duvarlar, ekstra özellikler, skor sayıcı, oyun bittiğinde yeniden başlatma seçeneği, basit kullanıcı arayüzü. Lütfen bu özellikleri içeren çalışan bir 3D yılan oyunu için gerekli HTML ve JavaScript kodlarını sağlayabilir misiniz?
dediğime gönderdim. Diğerlerine de aynı şekilde prompt'ı girip gönderdim. Cevaplar geldi, O3 mini tamamladı, kodları kopyaladım, geldim Visual Studio koda ve HTML dosyamın içerisine yapıştırdım. Geldim, HTML dosyamın üzerine tıkladım ve açıldı.
İstediğim gibi görünüyor ama klavye tuşları çalışmıyor. Dönmüyor yani yılan. One pass yani bir kere de yapmasını istediğim için maalesef kabul edemiyorum ve puan veremiyorum.
DeepSk'e geldim tamamlamış. Run HTML butonuna tıkladım. Güzel görünüyor. Klavye tuşlarıyla hareket ettirebiliyorum. Yiyemeyeceğimi...
Aa öldüm. Zehirliydi herhalde yiyecek. Tekrar başlattım. Kamera hareketi güzel yiyorum yine öldüm. Ters yapmış ama güzel.
O3 mini'den net iyi ben puan verdim. Kurene geldim ön izleme yapamamış ama şansını kaybettirmeyeyim. Sonuçta O3 mini'de yapamıyor ön izleme.
Kopyaladım kodları geldim Vücudus Hüdo koda yapıştırdım. Açtım HTML dosyamı vay güzel görünüyor. Hemen yandım.
Hızlı olmam lazım. Başlattım yeniden çok iyi değil mi ya? Tam istediğim gibi yapmış. Kamera hareketi çok iyi.
Oynarım ben bu oyunu çok iyi yani. QN genel düzeyde başarılı değildi ama kod işinde diğerlerinin önüne geçti. Hiç tahmin etmiyordum açıkçası. 5 puan bile verebilirim beni doğru anladığı için.
Cemine'ye geldim. Tamamlamış. Bana gıcık olduğu için HTML ve JavaScript olarak 2 ayrı dosya yapmış. Tamamdır. Ayrı dosyalar oluşturuyorum.
Index.html dosyamı açtım. Yaptı. Güzel de çalışıyor. Küçük yapmış ama malzemeden çalmış.
Kendini yetecek kadar yapmış. Yakınlaştırıyorum. Güzel çalışıyor bu da. Kamera hareketleri tam istediğim gibi. Yedikçe de büyüyor yılan.
Güzel. Puanımı veriyorum. Son olarak Cloud kaldı. Ona da bakalım. Kendi panelinde yapmış.
Başlattım. Klavye tuşlarıyla hareket etmeye çalışıyorum. Bir garip olmuş. Zıplıyor gibi yılan. Özetle olmamış.
Puan veremiyorum. Tüm soruların sonunda hepsi eşitlendi gibi. O3 Mini 6, Deepseek 7, QN 6, Gemini 6, Cloud 6 puanda bitirdi.
QN kod bölümünde müthiş bir atak yaptı. Deepseek R1 bir puan önde olarak yarışmayı bitirdi. Sorularda O3 Mini... Deep Sea Caravan'dan geride kalmış gibi görünse de bence çok başarılı bir model olmuş. Deep Sea Caravan zaten güçlü bir model.
Qn'i tam gömecektim ki kod konusunda gerçekten çok şaşırttı beni. Cloud son hamlesini henüz yapmadı. Google Gemini toparladı. Genel olarak iyiyiz yani. Özetle Deep Sea Caravan'ın başarısı, OpenAI'ın O3 mini'si bize gösteriyor ki rekabet kızıştıkça kazanan biz oluyoruz.
Ama bence... Bu tip modellerin asıl değeri, Derya Hoca gibi insanlığa fayda sağlayacak araştırmacılara imkan sağlamaları. Kim bilir, belki de şu an bir araştırmacı, yapay zeka sayesinde hayat kurtaracak tedavi keşfediyor olabilir.
Bir yandan da yapay zekalar, insanlığın son sınavında %26 seviyesindeler. Belki de gerçekten de bu bizim son sınavımız olabilir. Yakın gelecekte onları test etmek için soru hazırlamamıza gerek kalmayabilir. İNTRO