ROBOTS.TXT – הכלי לשליטה על סריקת דפים באתר
מעוניינים לחסום דפים מסוימים באתר שלכם מסריקה של מנועי חיפוש?
כך תעשו זאת בקלות בעזרת robots.txt
גוגל הוא (או היא) אלוהי האינטרנט. הוא מקבל החלטות לפי המידע שהוא מקבל מאתרי האינטרנט הקיימים ברחבי הרשת. המידע הזה מתקבל על ידי מנגנון הנקרא crawler.
למעשה גוגל משתמש בסוג של bot שסורק את כל המידע הקיים ברשת, וגם את המידע הקיים באתר שלכם.
האם ניתן לשלוט בסריקה של מנועי החיפוש את האתר שלנו? התשובה היא כן.
הכירו את robots.txt, קובץ דרכו ניתן להגדיר הגדרות שונות אשר ישפיעו על הסריקה של האתר (לא רק של גוגל, אלא גם של מנועי חיפוש אחרים), ומומלץ מאוד להכירו.
מה זה robots.txt
קובץ robots.txt הוא קובץ המשמש את מנהל האתר לייעץ לסורקים של מנועי חיפוש (לדוגמה googlebot, שהוא הסורק של גוגל ), היכן באתר הם רשאים לסרוק. ה-robots.txt מאוחסן בתיקיית השורש של אתר אינטרנט. לדוגמה, אם הדומיין שלי הוא www.mydomain.co.il, אז הקובץ יהיה בנתיב הבא: www.mydomain.com/robots.txt (אגב זה נכון גם לאתרים הבנויים בקוד סגור כגון WIX).
מתי לא צריך לעשות שימוש בקובץ robots.txt?
יש להשתמש ב-robots.txt כדי לעזור לרובוטים כגון Googlebot לסרוק את האתר שלכם ולהנחות אותם היכן הם לא אמורים לסרוק (אילו דפים, פוסטים וכו'). ישנם בעלי אתרים אשר יש להם דפים באתר שאינם מקושרים לתפריט ולא ניתן להגיע אליהם דרך הדפים האחרים באתר אלא רק בהקלדה ישירה של כתובת הדף. דפים אלו מכילים לעתים מידע שבעל האתר לא רוצה לחשוף מכל סיבה שהיא. במקרים אלו, חסימת הסריקה בעזרת robots.txt היא לא חכמה, מהסיבה הפשוטה שקובץ ה-robots.txt חשוף לכולם כפי שהצגנו וכל אחד יכול להקליד את כתובתו ולראות מה נחסם לסריקה.
איך קובץ robots.txt עובד?
הקלדת פקודות בקובץ ה-robots.txt עצמו, מאפשרות להורות למנועי החיפוש אילו דפים או תיקיות הוא רשאי לסרוק ואילו הוא אינו רשאי.
כדי להבין הכי טוב בואו נסתכל על קצת דוגמאות:
- הכל מותר – דוגמא זו מציינת סיטואציה בה אנו לא חוסמים שום דבר לסריקה. כלומר עבור כל ה-user-agents (כל סוגי מנועי הסריקה), כל התוכן מותר לסריקה.
הסימן * מסמל שאנו בוחרים את כל התוכן באתר, ואילו העובדה שלא רשמנו כלום אחרי ה-disallow, אומר שלא חסמנו כלום לסריקה.
User-agent: *
Disallow:
אפשרות נוספת להגדיר את אותה דרישה היא במקום להורות "לחסום כלום" ע"י Disallow:, אז ננחה "לאפשר הכל" ע"י / :Allow
User-agent: *
Allow: /
- הכל חסום – זו בעצם הדוגמא ההפוכה ל"הכל מותר". כלומר נרצה שכל האתר יחסם לסריקה של מנועי חיפוש.
ה / אחרי ה-disallow מסמן כי בחרנו לחסום את כלל התיקיות באתר.
User-agent: *
Disallow: /
אפשרות נוספת להגדיר דרישה זו היא במקום להורות "לחסום הכל" ע"י / Disallow, אז ננחה "לא לאפשר כלום" ע"י הפקודה:
User-agent: *
Allow:
הוראות ספציפית עבור googlebot(מנגנון הסריקה של גוגל)
נוכל לציין כלל עבור Googlebot בלבד באמצעות המאפיין User-Agent.
- חסימה של הסורק של גוגל מסריקת האתר – תחת מאפיין user-agent הקלדנו את הערך המתאים למנוע החיפוש של גוגל.
User-agent: Googlebot
Disallow: /
- באופן דומה נוכל לחסום סריקה של התמונות באתר ע"י המנוע של גוגל. רק שפה בחרנו את ה-user-agent הספציפי עבור סריקת תמונות.
User-agent: Googlebot-Image
Disallow: /
- חסימה של כתובות עם פרמטרים – לעתים נרצה לחסום כתובות של עמודים או פוסטים המכילים פרמטרים. לדוגמה, יש לנו אתר דו-לשוני כאשר השפה הראשית היא עברית והשפה המשנית היא אנגלית, ומבנה הכתובת באנגלית הוא mydomain.co.il/?lan=en, ונרצה לחסום לסריקה רק את הדפים בשפה האנגלית, אז נוכל לעשות זאת ע"י חסימה של כתובות המכילות את הסימן "?" בצורה הבאה:
User-agent: Googlebot
Disallow: /*?
- חסימת כתובת ספציפית – במידה ונרצה לחסום לסריקה עמוד מסוים (לדוגמה contact-us), נוכל לבצע זאת בצורה הבאה:
User-agent: *
Disallow: /contact-us/
היכן רושמים את הפקודות של robots.txt שהצגנו במאמר?
הדרך הטובה ביותר היא להיכנס ל-google search console. בתפריט הימני להקליק על סריקה>בדוק robots.txt. במסך שיפתח ישנן מספר פעולות שניתן לבצע:
- העלאת קובץ txt פשוט עם הפקודות כפי שהוצגו במאמר ע"י הקלקה על כפתור "שלח".
- צפייה בתוכן הקובץ במסך הראשי לאחר ההעלאה.
- בדיקת חסימה עבור url ספציפי.
חשוב שנבין כי המאמר מדבר על חסימת סריקה ולא חסימת אינדוקס עמודים שזה דבר שונה ונדבר עליו בפוסט הבא.
בהצלחה, דייזי עיצוב גרפי www.daisydesign.co.il