Robots.txt Dosyası Nedir?

Günümüzde, internet kullanıcılarının internette yeni bilgiler bulmak istediklerinde arama motorları başvurulan araçtır. Web sitenizin bir arama motorunda üst sıralarda yer alması, ziyaretçi sayınızı artırmanın en iyi yolu değilse de biridir. Bu arama motorları, sitelerinizi bağlantılar ve içerik için taramak için web tarayıcıları (diğer adıyla web örümcekleri) adı verilen botları kullanır. Bu tarayıcılar daha sonra sitenizin içeriğini dizine ekleyerek sayfalarınızın arama motorlarının SERP (yani Arama Motoru Sonuç Sayfası) sayfalarında görünmesini sağlar.

robots.txt Robots Dışlama Protokolü olarak da bilinen bir dosya, etki alanının köküne yerleştirilen bir metin dosyasıdır. Örümceklere hangi sayfaları taramalarına izin verildiğini ve hangilerini taramamalarını söyler. Başlangıçta robots.txt, özellikle site iyi bir dahili bağlantı sistemine sahip değilse, örümceklerin sitenin tüm sayfalarını bulmasına yardımcı olmak için kullanılıyordu. Ancak piyasaya sürüldüklerinden bu yana, bu botlar bir sitedeki tüm sayfaları bulma ve dizine ekleme konusunda çok başarılı oldular, peki robots.txt dosyası neden şimdi kullanışlı?

İnternetin giderek artan popülaritesi ile web siteleri yalnızca boyut olarak büyüyor ve bunlara her gün yeni web sayfaları ekleniyor. Bir arama örümceği bir web sitesine ulaştığında, kaç sayfa tarayacağına ilişkin önceden belirlenmiş bir “ödeneğe” sahiptir ve buna tarama bütçesi denir. Sitenizin bazı bölümlerini web tarayıcılarından engellemek, en değerli sayfalarınız için tarama bütçesini kullanmanıza olanak tanır. SEO temizliği yapılırken sitenin daha sorunlu veya SEO için optimize edilmemiş sayfalarının tarayıcılardan gizlenmesi de faydalı olabilir.

Tarama bütçesini tüketmemek için örümcekleri engellemenin çok önemli olduğu bir senaryo vardır. Sitenin içeriği filtrelemek ve sıralamak için çok sayıda sorgu dizesi parametresi kullandığı durumlarda, herhangi bir kombinasyonda kullanılabilecek en az 10 farklı parametreye sahip olmak binlerce olası URL oluşturabilir. Tüm sorgu parametrelerinin taranmasını engellemek, örümcekler ana sayfalarınıza ulaşmadan önce tarama bütçenizin azalmasını önlemek için çok önemlidir. Sitenizde bir sorgu dizesi içeren her URL’den tarayıcıları engelleyen bir kod satırı aşağıda verilmiştir:

Disallow: /*?*

Peki, bir robot dosyası nasıl yapılır? Genellikle, her biri User-agent ile başlayan yönerge bloklarından oluşur. Bu, hitap ettiği belirli botun adıdır (ör. Googlebot, Google’ın örümceğidir). Ardından, önceden tanımlanmış botun hangi dizinleri/sayfaları/dosyaları ziyaret etmemesi gerektiğini belirten İzin Verme gelir. Bu satırlardan bir veya daha fazlasına sahip olabilirsiniz ve boş bırakmak, örümceğin sitenizin tüm bölümlerine erişmesini sağlayacaktır. Sözdizimi, bilgisayar tarafından okunabilir olması gerektiğinden çok katıdır.

Aşağıda robots.txt dosyalarına ilişkin bazı örnekler ve ne anlama geldikleri verilmiştir:

User-agent: *

Disallow: /

Bu iki satır, tüm botların sitenizin tamamını taramasını engeller.

User-agent: Googlebot

Disallow: /confidential

Bu, Google’ın örümceğinin /gizli dizini taramasını durduracaktır.

robots.txt dosyasının büyük/küçük harf duyarlı olduğunu ve belirli arama motorlarının başkalarının kabul etmediği bazı yönergelere sahip olabileceğini unutmayın. Örneğin Google, İzin Verme yönergesinin tersini yapan İzin Ver yönergesini kullanır.