Size daha iyi hizmet sunabilmek için çerezleri kullanıyoruz.
Web sitemizde gezinme deneyiminizi geliştirmek, size kişiselleştirilmiş içerik ve hedefli reklamlar göstermek, web sitesi trafiğimizi analiz etmek ve ziyaretçilerimizin nereden geldiğini anlamak için çerezleri ve diğer izleme teknolojilerini kullanıyoruz.
⚠️
KVKK ve Çerez Politikası Bilgilendirmesi
6698 sayılı Kişisel Verilerin Korunması Kanunu (KVKK) ve Aydınlatma Yükümlülüğü kapsamında; web sitemizin temel fonksiyonlarının çalışabilmesi, veri güvenliğinin sağlanması ve performans analizi yapılabilmesi için zorunlu çerezlerin kullanımı gerekmektedir. Çerez kullanımını reddetmeniz halinde, teknik imkansızlıklar ve veri senkronizasyonu kesintileri nedeniyle web sitemizdeki hizmetlerden yararlanmanız mümkün olmamaktadır. Sitemizdeki içeriklere erişebilmek için çerez kullanımını onaylamanız gerekmektedir.
Modern Dil Modellerinin Nöral Mimarisi ve Token Seviyesinden Akıl Yürütmeye Uzanan Evrimi
Yapay zeka ekosisteminde son on yılda yaşanan en büyük kırılma, verinin sadece işlenmesi değil, dilin geometrik bir uzayda yeniden inşa edilmesiyle gerçekleşti. Modern Büyük Dil Modelleri (LLMs), ham metin yığınlarını alıp onları çok boyutlu vektör uzaylarında anlamlı ilişkilere dönüştüren devasa birer istatistiksel makinedir. Ancak bu makinelerin “düşünüyor” gibi görünmesinin ardında, Transformer mimarisinin sunduğu matematiksel zarafet ve ölçekleme yasalarının getirdiği emergent (ortaya çıkan) kabiliyetler yatar.
Şekil 1: Modern Dil Modellerinin Nöral Mimarisi ve Token Seviyesinden Akıl Yürütmeye Uzanan Evrimi.
1. Vektörel Uzayda Anlam Arayışı: Tokenizasyon ve Embedding Katmanı
Dil modelleri metni doğrudan okuyamaz. İşlem süreci, metnin Tokenization adı verilen bir yöntemle alt birimlere ayrılmasıyla başlar. Günümüzde yaygın olarak kullanılan Byte Pair Encoding (BPE) veya WordPiece gibi algoritmalar, kelimeleri nadirliklerine göre parçalar. Örneğin, “yapay” kelimesi tek bir token olabilirken, “yapay zekalaştıramadıklarımızdan mısınız” gibi kompleks bir yapı birçok alt birime bölünür.
Tokenlar daha sonra Embedding katmanında $d_{model}$ boyutlu (örneğin 4096 veya daha fazla) yoğun vektörlere dönüştürülür. Bu vektörler, kelimenin semantik konumunu belirler. Ancak Transformer mimarisi “sırasız” bir yapı olduğu için, kelimenin cümle içindeki konumunu modele öğretmek amacıyla Positional Encoding eklenir.
Transformer’ın kalbi, Scaled Dot-Product Attention mekanizmasıdır. Modelin “odaklanma” yeteneği, her token için oluşturulan üç temel vektöre dayanır: Query (Q), Key (K) ve Value (V).
Bir token, diğer tokenlarla ne kadar ilişkili olduğunu anlamak için kendi Query vektörünü, diğerlerinin Key vektörleriyle çarpar (dot product). Bu işlem, bir benzerlik skor matrisi oluşturur:
Buradaki $\sqrt{d_k}$ ölçekleme faktörü, gradyanların yok olmasını veya patlamasını engeller. Multi-Head Attention ise bu işlemin paralel olarak farklı “başlıklar” altında yapılmasıdır. Her başlık farklı bir dilbilgisel özelliği (örneğin biri özne-yüklem ilişkisini, diğeri zaman eklerini) öğrenir.
3. Eğitim Stratejileri: Katmanlı Bir Öğrenme Taksonomisi
Modern bir dil modelinin inşası, katmanlı bir kek hazırlamaya benzer. Her katman, modelin bir üst seviyedeki bilişsel yeteneğini destekler.
A. Self-Supervised Pretraining (Denetimsiz Ön Eğitim)
Modelin “dünya bilgisini” kazandığı aşamadır. Trilyonlarca kelime üzerinden model, “Bir sonraki kelime nedir?” sorusuna yanıt arar. Causal Language Modeling (CLM) yaklaşımında model, kendisinden sonra gelen tokenları göremez. Bu, eğitim sırasında bir Masking matrisi ile sağlanır.
B. Supervised Fine-Tuning (SFT - Komut Uyarlama)
Ön eğitimli model bir “otomatik tamamlayıcı” iken, SFT ile bir “asistana” dönüşür. Burada model, kaliteli ve insan tarafından yazılmış (Soru-Cevap) çiftleriyle eğitilir.
C. RLHF (İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme)
Modelin güvenliğini ve insan tercihlerine uyumunu (Alignment) sağlamak için kullanılır. PPO (Proximal Policy Optimization) veya DPO (Direct Preference Optimization) algoritmalarıyla, modelin ürettiği yanıtlar bir ödül modeli (Reward Model) tarafından puanlanır.
4. Teknik Uygulama: Transformer Blok Yapısı ve PyTorch Örneği
Bir Transformer bloğunun temel yapısını kod seviyesinde incelemek, mekanizmanın nasıl işlediğini anlamak için kritiktir. Aşağıdaki Python örneği, basit bir Self-Attention katmanının PyTorch kütüphanesi kullanılarak nasıl inşa edilebileceğini göstermektedir.
5. İleri Akıl Yürütme Teknikleri: CoT ve ToT Yaklaşımları
Modelin parametreleri dondurulduktan sonra bile, onun bilişsel performansını artırmak mümkündür. Buna “Prompt Mühendisliği” dense de aslında yapılan işlem modelin In-Context Learning (Bağlam İçi Öğrenme) yeteneğini tetiklemektir.
Chain of Thought (CoT): Modeli “Adım adım düşün” (Let’s think step by step) komutuyla yönlendirerek, karmaşık bir problemi alt parçalara bölmesini sağlamaktır. Bu, modelin işlem sırasında “ara duraklar” oluşturmasına ve mantık hatalarını azaltmasına olanak tanır.
Tree of Thought (ToT): Tek bir lineer düşünce hattı yerine, modelin farklı olasılıkları bir ağaç yapısı gibi dallandırması ve her bir dalın başarısını değerlendirerek en mantıklı yola sapmasıdır.
Self-Consistency: Model aynı soruya 10 farklı yanıt üretir ve çoğunluk oyu (majority voting) ile en tutarlı olanı seçilir. Bu, özellikle matematiksel işlemlerde hata payını minimize eder.
6. Ölçekleme Yasaları ve Ortaya Çıkan Yetenekler (Emergent Abilities)
OpenAI ve Google gibi devlerin araştırmaları, model performansının üç temel değişkene bağlı olduğunu kanıtlamıştır: Hesaplama gücü (Compute), Veri boyutu ve Parametre sayısı.
Belirli bir eşik aşıldığında (genellikle 7B+ parametre), modeller eğitimlerinde doğrudan hedef alınmayan “mizah anlama”, “kod yazma” veya “çeviri” gibi yetenekleri kendiliğinden sergilemeye başlar. Ancak bu büyüme beraberinde Hallucination (Halüsinasyon) riskini de getirir. Modelin amacı gerçeği söylemek değil, olasılığı en yüksek token’ı seçmektir. Bu nedenle, teknik mimaride RAG (Retrieval-Augmented Generation) gibi dış kaynaklı veri doğrulama sistemleri modern uygulamaların vazgeçilmezi haline gelmiştir.
Sonuç: Nöral Semantiğin Geleceği
Bugün dil modelleri, sadece metin üreten araçlar olmaktan çıkıp, yazılım geliştirme süreçlerinden bilimsel araştırmalara kadar her alanda birer “işlemci” görevi görmektedir. Transformer mimarisinin getirdiği paralelleştirme gücü ve Attention mekanizmasının sunduğu bağlamsal derinlik, makinelerin insan dilini sadece taklit etmesini değil, onun altındaki mantıksal yapıyı matematiksel olarak simüle etmesini sağlamıştır. Gelecekte, daha az enerji tüketen ve daha uzun bağlam pencerelerine (Context Window) sahip modeller, dijital asistan kavramını tamamen otonom ajanlara dönüştürecektir.
Teknik Not: Bellek yönetimi tarafında, KV Cache (Key-Value Caching) mekanizması, çıkarım (inference) hızını artırmak için önceki adımlarda hesaplanan Key ve Value vektörlerini saklar. Bu, özellikle uzun metin üretimlerinde GPU üzerindeki hesaplama yükünü dramatik şekilde düşürür.