Yapay zeka çalışmaları onlarca yıldır devam eden bir alan olmasına rağmen asıl büyük dönüm noktası, üretken yapay zekanın (generative AI) patlama yapmasıyla gerçekleşti. Bu devrimin temel taşı, 2017 yılında yayımlanan **"Attention Is All You Need"** isimli makaledir.
Bu makale, Ashish Vaswani ve arkadaşları tarafından yazıldı (Google Brain ekibi). O zamana kadar dil modelleri genellikle **RNN** (tekrarlayan sinir ağları) veya **LSTM** gibi yapılar kullanıyordu. Bunlar sırayla (sequential) çalıştığı için çok yavaş eğitiliyordu ve uzun cümlelerde bağlamı iyi yakalayamıyordu.
**Makalenin en önemli yeniliği: Tamamen attention(dikkat) mekanizmasına dayalı yeni bir mimari önerdiler → Transformer.
**Örnekle basitçe açıklayayım**:
- Eski yöntem (RNN): Bir cümleyi kelime kelime okurken önceki kelimeleri hatırlamak zorunda kalır, sanki tek tek hafızaya yazıyormuş gibi yavaş ilerler.
- Transformer (Attention): Cümlenin her kelimesi, aynı anda tüm diğer kelimelere "bakabilir" ve hangisinin önemli olduğunu hesaplar. Bu sayede çok daha hızlı ve etkili öğrenir.
Makale sayesinde:
- Eğitim çok daha **paralel** yapılabiliyor (GPU'larda hız patlaması)
- Uzun mesafeli bağımlılıklar çok daha iyi yakalanıyor
- Makine çevirisinde rekor skorlar kırıldı (WMT 2014 İngilizce-Almanca'da 28.4 BLEU gibi)
**Sonuçları**:
Bu Transformer mimarisi, bugünkü neredeyse tüm büyük modellerin temelini oluşturdu.
**ChatGPT** → GPT serisi (GPT-2, GPT-3, GPT-4) doğrudan Transformer tabanlı
**GitHub Copilot** → Kod yazan modeller de Transformer kullanıyor
**Midjourney** ve **Stable Diffusion** → Metinden resim üreten modeller bile Transformer mimarisinden (özellikle dikkat mekanizmasından) faydalanıyor
Kısaca: 2017'de çıkan bu 11 sayfalık makale, modern üretken yapay zekanın **kurucu belgesi** sayılıyor. Bugün kullandığımız ChatGPT, DALL-E, Midjourney, Llama, Gemini gibi modellerin hepsinin atası Transformer'dır.
