קובץ רובוט נועד לסמן לרובוטים של מנועי החיפוש אילו חלקים באתר הם יכולים לסרוק ואילו לא.
יש לשים לב:
במידה ואסרתם הזחלן של גוגל להיכנס לדף מסויים, אך הוצאתם לו קישור מאתר אחר, הזחלן של גוגל יסרוק את הדף, ויראה אותו, אך ללא כל המידע שלו ( תיאור כותרת ,, )
איך מכינים קובץ רובוט robot.txt
את הקובץ מכינים בעורך טקסט רגיל notepad , והוא בנוי בצורה הבאה.
הקוד מורכב בשני חלקים:
- User – agent : שורה זו מסמנת אל מי מופנות ההוראה שמגיעה לאחר מכן.
- Disallow : באלו דפים, או חלקים באתר אנו לא רוצים שהזחלן של גוגל
דוגמא ראשונה:
User – agent: *
Disallow :/
בדוגמא זו מנענו מכל מנועי החיפוש את הגישה לאתר, כלומר שום מנוע חיפוש לא יסרוק את האתר.
דוגמא שנייה :
User – agent : googlebot
Disallow : /bonbons /
Disallow : bonbons.htm
User – agent : bonboncrawler
Disallow :/
בקובץ זה מסרנו לשני רובוטים שונים, שתי הוראות שונות. רובוט googleboot קיבל הוראה לא להיכנס אל הקובץ bonbons.htm ואל ספריית bonbons . ההוראה השניה מורה לרובוט bonboncrawler לא להיכנס לאתר בכלל.
דוגמא נוספת:
User- agent : googlebot
Disallow:
User – agent :*
Disallow :/
Disallow:
User – agent :*
Disallow :/
שורת disallow ריקה, כלומר Googlebot יכול לסרוק את כל האתר . אך השורה השנייה מונעת משאר מנועי החיפוש לסרוק את האתר , התוספות של סמן ה – * מסמנת שצריך להתייחס להוראה היותר נקודתית.
מיקום הקובץ
את הקובץ ממקמים בתיקיית המקור ( root ) של האתר ועל גבי שרת האיחסון
יש להקפיד לכתוב את הקוד באותיות קטנות.
אתר טוב שמפרט בצורה יותר מפורטת את כל ההביטים של קובץ רובוט