vendredi 9 août 2013

شرح معنى google bot


 ما هو Googlebot؟

 إن Googlebot هو برنامج تتبع زحف الويب من Google

(ويطلق عليه في بعض الأحيان أيضًا اسم "العنكبوت"). الزحف هو عملية يكتشف Googlebot من خلالها
الصفحات الجديدة أو التي يتم تحديثها ليضيفها إلى فهرس Google.


ونحن نستخدم في ذلك مجموعة ضخمة من أجهزة الكمبيوتر للبحث عن (أو "الزحف
إلى") مليارات الصفحات على الويب وجلبها. ويستخدم Googlebot خوارزمية: حيث
تحدد برامج الكمبيوتر المواقع التي يتم الزحف إليها وعدد مرات عملية الزحف
وعدد الصفحات التي يتم جلبها من كل موقع.


وتبدأ عملية زحف Googlebot من خلال قائمة بعناوين URL لصفحات ويب تم إنشاؤها من عمليات زحف سابقة، ودمجها مع بيانات ملف Sitemap
التي يقدمها مشرفو المواقع. وعندما يزور Googlebot كل موقع من مواقع الويب
هذه، فإنه يكتشف روابط (SRC وHREF) في كل صفحة ويضيفها إلى قائمة الصفحات
التي سيتم الزحف إليها. كما تتم ملاحظة المواقع الجديدة والتغييرات التي
تمت على المواقع الحالية وكذلك الروابط المعطلة واستخدامها في تحديث فهرس
Google.


/لمشرفي المواقع: Googlebot وموقعك/


/كيفية دخول Googlebot إلى موقعك/


بالنسبة إلى معظم المواقع، لن يدخل Googlebot إلى موقعك أكثر من مرة كل
بضع ثوانٍ في المتوسط. ومع ذلك، ونتيجة للتأخيرات بسبب الشبكة، من المحتمل
ظهور المعدل بشكل أعلى قليلاً على مدى فترات قصيرة. وبوجه عام، يعمل
Googlebot على تنزيل نسخة واحدة فقط من كل صفحة في كل مرة. إذا لاحظت تنزيل
Googlebot لصفحة مرات عدة، فربما يرجع ذلك إلى توقف الزاحف وإعادة تشغيله.


تم تصميم Googlebot ليتم توزيعه على أجهزة عديدة لتحسين الأداء وتطويره
مع نمو الويب. ولتقليل استخدام النطاق الترددي أيضًا، نشغّل العديد من
برامج الزحف على الأجهزة بجوار المواقع التي تتم فهرستها في الشبكة. لذلك،
ربما تعرض سجلاتك الزيارات من أجهزة مختلفة ضمن النطاق google.com، وجميعها
باستخدام وكيل المستخدم Googlebot. حيث نهدف إلى الزحف إلى أكبر عدد ممكن
من صفحات موقعك في كل زيارة بدون إرهاق سعة النطاق الترددي لخادمك. طلب تغيير معدل الزحف


/منع Googlebot من محتوى موقعك/


يستحيل تقريبًا الحفاظ على سرية خادم الويب من خلال عدم نشر روابط إليه.
عقب تتبع شخص ما لرابط من خادمك "السري" إلى خادم ويب آخر، قد يظهر عنوان
URL "السري" في علامة الإحالة ويمكن تخزينه ونشره من خلال خادم الويب الأخر
في سجل الإحالة. وبالمثل، يحتوي الويب على العديد من الروابط القديمة
والمعطلة. حينما ينشر شخص ما رابطًا غير صحيح إلى موقعك أو يخفق في تحديث
الروابط لإظهار التغييرات في خادمك، سيحاول Googlebot تنزيل رابط غير صحيح
من موقعك.


إذا كنت تريد منع Googlebot من الزحف إلى محتويات موقعك، فهناك عدد من الخيارات، بما في ذلك استخدام ملف robots.txt لمنع الدخول إلى الملفات والأدلة على الخادم.
بعد إنشاء ملف robots.txt، ربما يكون هناك تأخير قليل قبل اكتشاف
Googlebot للتغييرات. إذا استمر Googlebot في الزحف إلى المحتوى الذي منعته
في ملف robots.txt، فتحقق من وجود ملف robots.txt في المكان الصحيح. يجب
أن يكون في أعلى دليل بالخادم (على سبيل المثال،
www.myhost.com/robots.txt)؛ حيث إن وضع الملف في الدليل الفرعي لا يكون له
أي تأثير.


إذا كنت تريد منع رسائل الخطأ "لم يتم العثور على الملف" في سجل خادم
الويب، فيمكنك إنشاء ملف فارغ باسم robots.txt. إذا كنت تريد منع Googlebot
من تتبع أي روابط في صفحة بموقعك، فيمكنك استخدام علامة nofollow meta. لمنع Googlebot من تتبع رابط معين، أضف السمة rel="nofollow" إلى الرابط نفسه.


إليك بعض النصائح الإضافية:
  • اختبر عمل ملف robots.txt على النحو المتوقع.تتيح لك أداة اختبار ملف robots.txt في أدوات مشرفي المواقع التعرف بشكل دقيق على كيفية تفسير Googlebot لمحتويات ملف robots.txt. تأكد تمامًا أن وكيل مستخدم Google هو Googlebot.
  • تساعدك أداة الجلب مثل Googlebot
    في أدوات مشرفي المواقع في معرفة كيفية ظهور موقعك بالضبط لـ Googlebot.
    يعد ذلك مفيدًا للغاية عند تحرّي المشكلات المتعلقة بمحتوى موقعك أو قابلية
    الاكتشاف في نتائج البحث وإصلاحها.

/التأكد من أن الموقع قابل للزحف/


يكتشف Googlebot المواقع عن طريق تتبع الروابط من صفحة لأخرى. وتسرد صفحة أخطاء الزحف
في أدوات مشرفي المواقع أية مشكلات عثر عليها Googlebot عند الزحف إلى
موقعك. نوصي بمراجعة أخطاء الزحف هذه بانتظام لتحديد أية مشكلات بموقعك.

إذا كنت تشغّل تطبيق AJAX يتضمن محتوى تريد ظهوره في نتائج البحث، فنوصي بمراجعة عرضنا بشأن جعل المحتوى الذي يستند إلى AJAX قابلاً للزحف والفهرسة.

إذا كان ملف robots.txt يعمل بالشكل المتوقع، ولكن مع عدم وجود حركة زيارات بموقعك، فإليك بعض الأسباب المحتملة لعدم أداء المحتوى بشكل جيد خلال البحث.

/مشكلات مع مرسلي الرسائل غير المرغوب فيها ووكلاء المستخدم/


تتغير عناوين IP التي يستخدمها Googlebot بين الحين والآخر. وأفضل طريقة
لتحديد عمليات الدخول من خلال Googlebot هي استخدام وكيل المستخدم
(Googlebot). يمكنك التحقق من أن برنامج التتبع الذي يدخل إلى الخادم هو Googlebot حقًا من خلال استخدام بحث عكسي عن نظام أسماء النطاقات.

يحترم Googlebot وجميع برامج تتبع محركات البحث حسنة السمعة الأوامر
المضمنة في ملف robots.txt، ولكن بعض الأشخاص السيئين ومرسلي الرسائل غير
المرغوب فيها لا يلتزمون بذلك. الإبلاغ عن الرسائل غير المرغوب فيها إلى Google.

تمتلك Google العديد من وكلاء المستخدم الآخرين، بما في ذلك Feedfetcher
‏(user-agent Feedfetcher-Google). نظرًا لأن طلبات Feedfetcher تكون
نتيجة لإجراءات صريحة من مستخدمين بشريين أضافوا هذه الخلاصات إلى صفحة Google الرئيسية أو إلى Google Reader،
وليس من برامج زحف تلقائية، فإن Feedfetcher لا يتبع إرشادات robots.txt.
يمكنك منع Feedfetcher من الزحف إلى موقعك من خلال تهيئة خادمك لعرض 404 أو
410 أو رسالة حالة الخطأ الأخرى إلى user-agent Feedfetcher-Google. مزيد من المعلومات حول Feedfetcher.

0 commentaires:

Enregistrer un commentaire

 Facebook  Facebook  Facebook  Facebook  Facebook  Facebook  Facebook  Facebook  Facebook Youtube