ما هو ملف robots.txt وكيفية استخدامه

ما هو ملف robots.txt وكيفية استخدامه

Robots.txt – معلومات عامة

Robots.txt هو ملف نصي موجود في الدليل الرئيسى للموقع والذي يحدد لبرامج فحص محركات البحث (search engines’ crawlers) ما هى صفحات الويب والملفات التي تريد منها زيارتها والآخرى التى لا ترغب منهم بزيارتها. عادةً ما يريد أصحاب المواقع الإلكترونية من محركات البحث ملاحظة مواقعهم الإلكترونية ولكن هناك حالات آخرى لا تريد فيها إظهار هذه الصفحات: على سبيل المثال ، إذا قمت بتخزين بيانات حساسة أو كنت تريد توفير معدل نقل البيانات (Bandwidth) عن طريق عدم ادراج الصفحات الثقيلة بالصور فى الفهرس.

تطلب محركات البحث ملفًا بإسم “/robots.txt” في المقام الأول عند فحص الموقع الإلكترونى. وإذا تم العثور على هذا الملف ، تقوم البرامج المسئولة عن فحص الموقع الإلكترنى بالتحقق منه للحصول على تعليمات فهرس الموقع.

ملاحظة: يجب أن يكون هناك ملف robots.txt واحد فقط لموقع الويب. ويجب وضع ملف robots.txt للدومين الإضافى فى جذور المستند المقابل له.

موقف جوجل الرسمي لملف robots.txt

Robots.txt وتحسين محركات البحث SEO

إزالة إستبعاد الصور

تم إعداد ملف robots.txt في بعض إصدارات CMS لإستبعاد مجلد الصور فى الأساس. ولكن لا تحدث هذه المشكلة (إستبعاد الصور) في أحدث إصدارات CMS ، ولذلك يجب عليك التحقق من إصدارات CMS الأقدم.

وذلك لأن إستبعاد الصور يعنى أنه لن تتم فهرسة صورك وتضمينها في بحث الصور من Google ولكن لابد من فهرستها لأنها تزيد من ترتيبك على محركات البحث.

إذا كنت تريد تغيير ذلك ، فإفتح ملف robots.txt وأزل السطر الذي به:

Disallow: /images/ 

إضافة مرجع إلى ملف sitemap.xml الخاص بك

إذا كان لديك ملف sitemap.xml (لابد أن يكون لديك ملف sitemap.xml لأنه يزيد من ترتيبك على محركات البحث) ، فسيكون من الجيد تضمين السطر التالي في ملف robots.txt الخاص بك:

  sitemap: http://www.domain.com/sitemap.xml 

(يجب تحديث هذا السطر بإستخدام إسم الدومين وملف sitemap).

ملاحظات متنوعة

  • لا تحظر CSS و Javascript وملفات الموارد الأخرى بشكل إفتراضي. لأن ذلك يمنع Googlebot من عرض الصفحة بشكل صحيح وفهم أن موقعك محسّن للجوّال.
  • يمكنك أيضًا إستخدام ملف robots.txt لمنع فهرسة صفحات معينة ، مثل تسجيل الدخول أو 404 صفحات ، ولكن يتم ذلك بشكل أفضل بإستخدام العلامة الوصفية لبرامج الروبوت robots meta tag.
  • لا يؤدي إضافة عبارات disallow إلى ملف ملف robots.txt إلى إزالة المحتوى. ولكن ببساطة يمنع وصول برامج فحص محركات البحث لها. وإذا كان هناك محتوى تريد إزالته ، فمن الأفضل إستخدام meta noindex.
  • كقاعدة عامة ، يجب عدم إستخدام ملف robots.txt أبدًا للتعامل مع المحتوى المكرر. هناك طرق أفضل مثل Rel=canonical tag وهي جزء من عنوان HTML لصفحة ويب.
  • تذكر دائمًا أن  ملف robots.txt ليس دقيقًا. غالبًا ما تكون هناك أدوات أخرى تحت تصرفك يمكنها القيام بعمل أفضل مثل أدوات التعامل مع المتغيرات parameter handling tools داخل أدوات مشرفي المواقع Webmaster Tools لجوجل وبينج و أيضاً x-robots-tag وعلامة الروبوتات الوصفية meta robots tag.