Kullanıcı Adım

Şifrem

Üye Ol
Web Robotlari Ve Onlari Kontrol Altinda Tutmak...

Iyi huylu butun web robotlari (aksi belirtilmedice butun yazi iyi huylu
robotlar uzerine yazilmistir), bir web sitesini indekslemek istedikleri
zaman,sistem yoneticisi tarafindan kendileri icin birakilan "robots.txt" isimli
dosyayi ararlar.Bu dosya web sunucusunun,dokumanlar klasorunde(Document Root)
ve ismi ayni yukarida bahsedilen sekilde,(butun harfler kucuk olmali)
"robots.txt" olmalidir.

Bu dosyanin iceriginde,ingilizcesi "user agent" veya "user agent prefixes"
olarak tabir edilen bir liste ve ardindan gelen hangi cesit URL tiplerinin
kabul ve red edilecegine dair bilgiler yer alir.Genel olarak bu robotlarin ele
alinmasinda * ozel karekteri kullanilmaktadir :

User-Agent: *
Disallow: /cgi-bin/
Disallow: /haberler/genel/

Not: Burada kullanilan * kesinlikle bir "wildcard" , genelleme veya kisayol
sembolu degildir.

Robot faaliyetlerine karsi butun siteyi yasaklamak istersek:

User-Agent: *
Disallow: /

seklinde yazmamiz gereklidir.

Belirlediginiz robotlarin siteyi indexlemesini istiyorsaniz o zaman bos bir
"Disallow" satiri kullanilmalidir.Ardindan ise istenilen robotlar girilmelidir.

User-Agent: *
Disallow /

User-Agent: BelirlenenRobot
Disallow:
Disallow: /cgi-bin/
Disallow: /haberler/genel/

Ne "User-Agent" nede "Disallow" alanlari "wildcard" ile genellestirilmis olarak
tanimlanamazlar.(wildcard, *,?,+ vb. isaretlerle oraya gelecek olan karekteri
genellemek icin kullanilan yontemin adidir.)

Bu komutlar ile bir cesit dosya uzantisinin indexlenmesini yasaklamak ta olasi
degildir.Ayni zamanda bir "Allow" komutu da mevcut degildir.Bu su anlama
gelmektedir :

"Bu klasoru indexlemeye kapat fakat su istedigim dosyalari bu yasagin haricinde
tut"

demek olasi degildir.

Bunu yapmak icin mutlaka ilgili HTML taglari kullanilmali (robots etiketleri)
ve ancak bu sekilde bir yonetim saglanmalidir.

Robotlar bir siteyi indexlemek istedikleri zaman, ilgili "robots.txt" dosyasini
da onbellege (robots.txt dosyasi ilgili robotun cache'ine alinir)
almaktadirlar.Bu nedenle bu dosya icin mutlaka bir "gecerli omur suresi"
belirlenmeli ve boylece robotun bir dahaki indexleme isleminde kendi
onbelleginde bu dosyayi okuyup siteyi buna gore indexlemesine izin
verilememelidir.Bunu yapmak icin asagidaki yolu kullanamak mumkundur :

Location /robots.txt
ExpiresDefault "access 3 days"
/Location

Onemli : "robots.txt" tamamen gonullu bir mekanizmadir.Ne sizin bu dosyayi web
sunucunuza koymaniz,nede ilgili web robotunun burada gosterilen yasaklayici
kurallara uymasi zorunlu degildir.

Robotlari HTML etiketleri ile kontrol altinda tutmak

Bazi (hepsi DEGIL) web robotlari web sayfalariniz icinde head .../head
alanlari arasina yazilmis ve indexleme amaciyla kullanilacak olan HTML
etiketlerini ararlar.Bu sekilde web robotlari o sayfa uzerindeki linkleri
izleyip izlemeyeceklerine karar verirler :

META NAME="ROBOTS" CONTENT="NOINCLUDE, NOFOLLOW"

bunlarin yerine (tam tersi olarak) asagidaki seceneklerde bu opsiyonlara kabul
izni de verilebilirdi :

META NAME="ROBOTS" CONTENT="INCLUDE, FOLLOW"

Bu sekilde yazimlarin esi olabilcek iki adet komut bulunmaktadir.Yukarida
yazilan birinci ve ikinci ornege uygun olacak sekilde "NONE" ve "ALL"
komutlarni da kullanabilirdik.

Robotlari, erisim kontrol kurallarina gore kontrol altinda tutmak

Yukarida yazilan kurallara uymayan,veya uymak istemeyen kotu amacli robotlar da
sitenizi indekslemeye calisabilir.Ornegin bir alisveris magazasinin kredi karti
bolumu bu tip girislerden korunmalidir.

Simdi bize sorun yaratabilecek bazi robotlara nasil cevap verecegimizi
gorelim...

Olaya iki sekilde yaklasmak mumkun : "BrowserMatch" ve "SetEnvIf"

simdi de nasil kullanabilcegimizi gorelim,

BrowserMatchNoCase .*crawler.* robot
BrowserMatchNoCase .*robot.* robot
SetEnvIf Remote_Host .*koturobot\.com robot
Location /indeksleme-yapilamaz-alan/
order allow,deny
allow from all
deny from env=robot
/Location

veya mod_rewrite modulunu kullanarak asagida gosterilen sekilde,

RewriteCond %{HTTP_USER_AGENT} .*robot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*crawler.* [NC,OR]
RewriteCond %{REMOTE_HOST} koturobot.com$ [NC]
RewriteCond ^/indeksleme-yapilamaz-alan/ - [F]

Bazi robotlar "User-Agent" basligi kullanmadan islem yaptiklari icin onlari
yakalamanin tek yolu REMOTE_HOST veya IP adreslerinden faydalanmaktir...

Robotlarin Ilgisini cekmek Onlara Sevimli Gorunmek

Robotlar web'te her zaman gezinmektedir.Hic duyrulmamis bir web sitesi bile
komple bir sekilde bu robotlar tarafindan,robotun bagli bulundugu arama
servisine arsivlenebilir veya indexlenebilir...

Cogu zaman sitenin kurucusu tarafindan, bilinen genel arama sitelerine sayfanin
indekslenmesi icin bir istekte bulunulur.

Bu istegi yapabilceginiz en gelisimis sitelerden birisi,

Link dur...

Robotun dogru bilgiyi indekslediginden emin olmak

Bazi web robotlari (Hepsi Degil) hazirlanan elektronik sayfalarda Meta HTML taglarinin olup
olmadigini kontrol eder.Boylece sayfa ile ilgili bazi onbilgiler elde edilebilir.Web kullanicilari
da sizin verdiginiz anahtar kelimlere gore sayfaniza ulasir ve en dogru bilgiyi en kisa zamanda
almis olurlar...

Simdi sayfamiz icin bazi META etiketleri hazirla¤¤¤¤¤,robotlarin bunlara gore sitemizi
indexlemesini saglayalim :

META NAME="Author" CONTENT="Serkan Hadi Ceylani"
META NAME="Description" CONTENT="Sitemize gelin ve teknolojinin son gelismelerini takip
edin..."
META NAME="Keywords" CONTENT="turkce türkçe kaynak dinamik web tasarim forum sohbet
programlama"

Ilk satirda sayfanin yazari,ikinci satirda sayfa icin kisa aciklama,ucuncu satirda ise o sayfaya
ait anahtar kelimleri tanimlamis oldum.

Bir kucuk UYARI : Bazi web robotlari bu anahtar kelimelere gore sitenin amacini tesbit
edebiliyor.Eger guvenligi on plana alip,sitenizin genede belirli anahtar kelimlerle indexlenmesini
istiyorsaniz,kelimeleri buradaki gibi degil de sayfanin body bolumnde arkaplan rengi ile
ayni fontu secerek sayfanin icine yaziniz...

Daha Fazla Bilgi

Iyi robotlar,kotu robotlar,aktif robotlar,gizemli robotlar,bu konudaki e-posta listeleri vb.
hakkinda daha fazla bilgiyi,

Link

adresinde alabilirsiniz.
__________________


Yazının Devamı İçin Tıklayın

Konuyu Yollayan: YALNIZLIK
Okunma Sayısı: 103
Yorum Sayısı: 0
Eklenme Tarihi: 30/01/2008
Kategorisi: Sistem ve İnternet Araçları
Cevap Yaz

Web robotlari ve onlari kontrol altinda tutmak..., Sistem ve İnternet Araçları, Web robotlari ve onlari kontrol altinda tutmak... indir, web-robotlari-ve-onlari-kontrol-altinda-tutmak rapidshare, web-robotlari-ve-onlari-kontrol-altinda-tutmak sınırsız, web-robotlari-ve-onlari-kontrol-altinda-tutmak download, web-robotlari-ve-onlari-kontrol-altinda-tutmak etme, web-robotlari-ve-onlari-kontrol-altinda-tutmak download, web-robotlari-ve-onlari-kontrol-altinda-tutmak inndir, web-robotlari-ve-onlari-kontrol-altinda-tutmak yükle, web-robotlari-ve-onlari-kontrol-altinda-tutmak megaupload, web-robotlari-ve-onlari-kontrol-altinda-tutmak download, web-robotlari-ve-onlari-kontrol-altinda-tutmak program, web-robotlari-ve-onlari-kontrol-altinda-tutmak indir, web-robotlari-ve-onlari-kontrol-altinda-tutmak yükle, web-robotlari-ve-onlari-kontrol-altinda-tutmak yukle, web-robotlari-ve-onlari-kontrol-altinda-tutmak programları, web-robotlari-ve-onlari-kontrol-altinda-tutmak programı