210 likes | 385 Views
Robots.txt. دکتر مريم اخوتی کمیته علم سنجی و وب سنجی - دانشگاه علوم پزشکی کرمان okhovati.maryam@gmail.com. فایل robot.txt. نام های دیگر spider , robot و یا crawler پیمایش خودکار صفحات وب،برداشتن اطلاعات مورد نیاز،ارسال به موتورهای جستجو نحوه ی بازگشت با توجه به میزان به روز رسانی سایت
E N D
Robots.txt دکتر مريم اخوتی کمیته علم سنجی و وب سنجی - دانشگاه علوم پزشکی کرمان okhovati.maryam@gmail.com
فایل robot.txt • نام های دیگر spider , robot و یا crawler • پیمایش خودکار صفحات وب،برداشتن اطلاعات مورد نیاز،ارسال به موتورهای جستجو • نحوه ی بازگشت با توجه به میزان به روز رسانی سایت • کنترل ایندکس شدن صفحات مختلف • فایل robot.txt یک فایل متنی ساده (با همین نام و پسوند txt) است .
فايل/robots.txt در کجا تهيه شود؟ • On Microsoft Windows, use notepad.exe, or wordpad.exe (Save as Text Document), or even Microsoft Word (Save as Plain Text) • On the Macintosh, use TextEdit (Format->Make Plain Text, then Save as Western) • On Linux, vi or emacs
User-agent دستورات در خط اول این فایل معمولا نوع روباتی که قراراست محدودیت ایندکسینگ برای آن اعمال گردد با دستور *:User-agent قرار می گيرد. به شکل زیر : User-agent: * علامت * يعنی همه ی ر,بات های پیمایشگر مثال: فقط روبات های Google User-agent: googlebot
User-agent: googlebot جلوگیری از ایندکس شدن User-agent: * Disallow: / دوخط فوق يعنی عدم ایندکس شدن همه ی صفحات توسط روبات های گوگل Disallow: /private.html Disallow: /files/ Allow: /files/public/
Disallow/Allow با این دستور مسیرهای ممنوع / مجاز مشخص می شوند و به صورت زیر به کار می رود: Disallow: /path/ Allow: /path/ و مثال هایی از آن به صورت زیر می باشد: Disallow: /sales/ Disallow: /shoppingcard/ Allow: /site/search/map.php Allow: /iranforums/user
برای محدود کردن هر روبوت ابتدا آن را مشخص کرده و سپس تمام مسیرهای محدود شده برای آن ذکر می شود: Useragent : Googlebot Disallow : /test/ Disallow : /sales/ در مثال زیر روبوت XGET از دسترسی به فولدر های 1، 2 و 33 منع شده است: Useragent : XGET Disallow : /1/ Disallow : /2/ Disallow : /33/
و با دستور زیر مقدم همه روبوت ها در سایت گرامی داشته می شود : Useragent : * Disallow : کاربرد * به همراه useragent به معنی تمام روبوت ها است. در مثال زیر خیلی ساده به تمام روبوتها گفته می شود راه را اشتباه آمده اید، دور شوید! Useragent : * Disallow : / کاربرد / به همراه disallow به معنی تمام مسیر ها است. برای نوشتن توضیحات در فایل robots.txt از # به صورت زیر استفاده می شود:
برای حذف تصویری مشخص از نتایج گوگل این گونه عمل کنید : Useragent : GoogleotImage Disallow : /images/ax.jpg و برای حذف همه تصاویر از نتایج گوگل این گونه : Useragent : GoogleotImage Disallow : /
Allow در پروتکل robots.txt به طور استاندارد این دستور وجود ندارد اما با این حال گوگل و بینگ آن را پشتیبانی می کنند. کاربرد آن بیشتر در مواردی است که می خواهید همه روبوت ها را از مسیری مشخص دور کنید و تنها به یک یا چند روبوت خاص اجازه دسترسی بدهید. مثال زیر را بررسی نمایید : Useragent : * Disallow : /forums/rules Disallow : /site/search Useragent : Googlebot Allow : / site/search Allow : /forums/user
Useragent : Bingbot Allow : / site/search Allow : /forums/user در این مثال همه روبوت ها به جز دو مورد از دسترسی به مسیرهایی مشخص، منع شده اند. توضیح بیشتری در این جا لازم است. /forums/user به معنی تمام مسیرهایی است که /forums/user در آن موجود است، یعنی مواردی مانند: /forums/user /forums/user/124 /forums/user/messages
در این مثال دسترسی به نوع خاصی از فایل ها برای گوگل محدود شده است : Useragent : Googlebot Disallow : /* . gif Disallow : /* . eps در تمام مثال های بررسی شده بزرگی و کوچکی مسیرها قاعده را تغییر می دهد. این دستور Useragent : * Disallow : /site/map.php تنها برای فایل /site/map.php موثر است و نه برای /site/MAP.php . معمولا بهتر است این پروتکل را برای هر موتور جست و جو در صفحه راهنمای همان موتور جست و جو بررسی کنید. زیرا ممکن است موارد دیگری علاوه بر موارد اشاره شده را نیز پشتیبانی کند. برخی موارد مورد قبول گوگل در ادامه بررسی شده است.
دستور زیر به معنای منع کردن گوگل از خواندن تمام پوشه هایی است که نام آنها با private شروع می شود Useragent : Googlebot Disallow : / private/*
محدود کردن دسترسی به تمام آدرس هایی که به xls ختم می شوند : Useragent : Googlebot Disallow : /*.xls مقابل disallow نمی توان نام روبوت را قرار داد. Useragent : * Disallow : Bingbot کاربرد توضیحات به صورت زیر اشکالی ندارد اما توصیه می شود توضیحات را در خطوط جداگانه قرار دهید : Disallow : /cgibin/ #comments
فایل robots.txt را کجا باید قرار داد؟ این فایل در ریشه سایت قرار می گیرد و نه در جایی دیگر! کاربرد درست و نادرست در دو مثال زیر نشان داده شده است. کاربرد درست: http://www.example.com/robots.txt کاربرد نادرست : http://www.example.com/mysite/robots.txt
Google www.google.com/robots.txt User-agent: * Disallow: /search Disallow: /sdch Disallow: /groups Disallow: /images Disallow: /catalogs Allow: /catalogs/about Allow: /catalogs/p? Disallow: /catalogues Disallow: /news Allow: /news/directory
فهرست روبات ها www.robotstxt.org/db.html ABCdatos Botlink Acme.Spider Ahoy! The Homepage Finder AskJeeves Googlebot