Embedding ve BERT, Geo Teknik Derinlik

0 4 2 dakika okuma süresi

İşin “büyü” gibi görünen kısmı aslında Doğal Dil İşleme (NLP – Natural Language Processing) teknolojisine dayanır. Google’ın veya ChatGPT’nin kelimeleri nasıl vektöre çevirdiğini anlamak için şu 3 temel teknik katmanı bilmek gerekir:

İçindekiler

1. Tokenizasyon (Parçalara Bölme)

Bilgisayar “Elma” kelimesini bütün olarak görmez. Onu işlenebilir en küçük parçalara, yani token‘lara böler.

Örneğin: “Yapay zeka” $\rightarrow$ [Yapay, ze, ka] veya [Yapay, zeka] (modele göre değişir).
Her token’a benzersiz bir kimlik numarası (ID) atanır.

2. Embedding (Gömme) Katmanı

İşin matematiği burada başlar. Her token, çok boyutlu bir uzayda bir koordinata dönüştürülür.

Eskiden kelimeler “var/yok” (1/0) olarak kodlanırdı. Şimdi ise her kelime, yüzlerce ondalıklı sayıdan oluşan bir liste ile temsil edilir.

Örneğin “Kral” kelimesinin vektörü şuna benzer (basitleştirilmiş):

$$v_{\text{kral}} = [0.12, -0.45, 0.88, …, 0.03]$$

Bu sayılar rastgele değildir. Model milyarlarca metni okurken kelimeler arasındaki ilişkileri öğrenir ve bu sayıları ona göre ayarlar.

En Meşhur Örnek (Vektör Aritmetiği):

Eğer “Kral” kelimesinin vektöründen “Erkek” kavramını çıkarıp “Kadın” kavramını eklerseniz, matematiksel sonuç şaşırtıcı bir şekilde “Kraliçe” vektörüne denk gelir.

$$\text{Kral} – \text{Erkek} + \text{Kadın} \approx \text{Kraliçe}$$

SEO İçin Anlamı: Google, kelimelerin matematiksel anlamlarını bildiği için, siz “ucuz” yazdığınızda, “ekonomik” veya “bütçe dostu” kelimelerinin matematiksel olarak o konuma çok yakın olduğunu bilir.

3. BERT ve “Dikkat” (Attention) Mekanizması

Eski modeller kelimeleri soldan sağa okurdu. Ancak Google’ın devrim yaratan BERT (Bidirectional Encoder Representations from Transformers) modeli, cümleyi çift yönlü okur.

Neden önemli?

Cümle 1: “Dün çay kenarında oturdum.” (Coğrafi terim)
Cümle 2: “Çay çok sıcaktı.” (İçecek)

Eski modeller “Çay” kelimesine tek bir vektör atardı. BERT ise, kelimenin solundaki ve sağındaki diğer kelimelere (kenar vs. sıcak) “Dikkat” (Attention) ederek o kelimenin vektörünü bağlama göre dinamik olarak değiştirir.

Buna Contextual Embedding (Bağlamsal Gömme) denir.

4. Boyutlar (Dimensions)

Biz dünyayı 3 boyutlu (X, Y, Z) görürüz. Ancak Google’ın kullandığı modellerde bir kelimenin konumu 768 boyutlu (hatta daha yeni modellerde binlerce boyutlu) bir uzayda belirlenir.

Her boyut, kelimenin soyut bir özelliğini temsil eder:

Boyut 1: Canlı mı cansız mı?
Boyut 2: Somut mu soyut mu?
Boyut 3: Resmi mi argo mu?
…
Boyut 768: Duygusal tonu ne?

Siz bir içerik yazdığınızda, Google içeriğinizin bu 768 boyuttaki “parmak izini” çıkarır ve arama yapan kişinin niyetiyle çakıştırır.

Teknik Özet:

Siz bir sayfa yayınladığınızda, Google botları gelir, metni token’lara böler, Transformer modellerinden geçirip bağlamsal anlamı çözer ve sayfanızı devasa bir Vektör Veritabanına (Vector Database) bir sayı dizisi olarak kaydeder. Birisi arama yaptığında, kelimeleri eşleştirmez; sayıları (koordinatları) karşılaştırır.

Buraya kadar her şey net mi?

Şimdi yapbozun son parçası olan Geleceğin Araması (3. Seçenek) ile devam edip, bu teknolojinin Google SGE (AI Overviews) ile arama sonuçlarını nasıl kökten değiştirdiğine bakalım mı?

Çağrı Deniz

0 4 2 dakika okuma süresi