כמה פעמים אתם מבצעים פקודת site: ומה בעצם הנתונים הללו מייצגים?
site: זו פקודה אחת מתוך מספר אופרטורים ועזרי חיפוש נוספים, אשר מסייעת לבצע חיפוש ממוקד באתר מסוים, ומאפשרת באמצעות כך, להחזיר מידע אודות כמות הדפים שגוגל סרק, לכאורה, עבור אותה כתובת. האופרטורים מסייעים לנו לבצע חיפוש מתקדם בתצורות שונות (allinurl ,allintitle) ומאפשרים לבודד נתונים רלוונטים מתוצאות החיפוש. מניסיון אישי ומעקב אחר פקודות site, נראה שהתוצאות המתקבלות אינן תמיד מדויקות ורלוונטיות. לא פעם זה גרם לי לחשוד בנתון שהפקודה מספקת כפחות אמין משחושבים.
לפני כמה ימים (שלישי 24/7/12) גוגל הכריזו על נתון חדש שהם מתכוונים לספק לנו דרך כלי מנהל האתרים (Google Webmaster Tools). כינויו בעברית – 'מצב אינדקס' ובאנגלית – 'Index Status' (בריאות>מצב אינדקסhealth>Index Status). בעזרת הגרף החדש, אפשר לראות נתונים על כמות דפים מאונדקסים, כמות דפים חסומים לסריקה וכמות דפים שגוגל בחר שלא לאנדקס, מסיבות שונות. הגרף עוזר מאוד להבין מה קרה עם כלל דפי האתר והנתונים בגרף מתייחסים לשנה האחרונה:
- דפים שחסומים ע"י קובץ רובוטס (blocked by robots.txt) – למשל מערכת ניהול התוכן.
- לא נבחרו (Not selected) – כתובות (דפים) אשר מבצעים הפנייה לדפים אחרים, או דפים שדומים מאוד לדפים אחרים באתר.
- נסרקו בעבר (Ever crawled) – סך כל הכתובות (URL'S) שנסרקו. (כתובות שגוגל הצליח להגיע אליהם)
- סה"כ מאונדקסים (Total indexed) – כמות הדפים שנוספו אל האינדקס
כך נראה הגרף החדש:
כך לדוגמא נראה גרף של אתר שעלה לאוויר בתחילת השנה:
דו"ח הסריקה החדש משקף את כמות הדפים שנסרקו על-ידי גוגל, אבל בנוסף עוזר לנו להבין יותר לעמוק מה באמת קרה שם: מה ההיסטוריה של סריקת הדפים, מהן המגמות השונות ובאילו חודשים הן התרחשו. חשוב לזכור כי הנתונים מתייחסים לשנה האחרונה (רטרו-אקטיבית).
מתי בפעם האחרונה עדכנתם קובץ robots.txt?
חייב להודות שבאופן אישי, די מלחיץ אותי להתעסק עם הקובץ הזה, במיוחד באתרים גדולים ומורכבים. בסופו של דבר, תמיד אני מוצא את עצמי מבלה מול החלון של הניסויים שמציע כלי מנהלי האתרים (edit to test changes), על מנת לוודא שוב ושוב שאני לא חוסם את מה שלא התכוונתי.
אחד היתרונות שנוכל להסיק מהגרף החדש הוא ניתור באגים/תקלות באתר. למשל, במידה ונקבל תמונה של ירידה בכמות הדפים המאונדקסים ועליה בכמות הדפים החסומים, נוכל לגשת אל הבעיה בצורה יותר מסודרת. כך לדוגמא, נוכל לבדוק באיזה חודש התופעה התחילה ולנסות להקביל לפעולות שביצענו באתר (אם יש לנו תיעוד), לשלול את האפשרות של חסימה לא מכוונת בקובץ robots .txt, בנוסף לבדוק גורמים רלוונטיים כמו שימוש בתג "meta="noindex שאולי גרם לבעיה וכדומה. נכון, זה יהיה אמנם בדיעבד, אך זה עדיף מלעולם לא.
דוגמא נוספת היא במקרים בהם מבנה הכתובות של האתר (URLs) משתנה (לדוגמא: בעת מעבר לאתר חדש). במידה ולא נשתמש בתג "rel="canonical כנראה שנראה עליה בכמות הדפים "Not selected".
אחד החסרונות הגדולים שלנו כמקדמי אתרים, הוא שאנו לא יכולים לקבל מידע אמיתי על כמות הדפים שנמצאים בקטגוריה "not selected". כלומר דפים שנסרקו אך לא נבחרו לאינדקס. הייתי מאוד שמח אילו היה לי מידע נוסף על הדפים הללו. אך גם ללא מידע מדויק על הדפים בקטגוריה הזו, אפשר להבין טוב יותר האם השינוי האחרון שביצענו עזר לנו או רק גרם לגידול בכמות הדפים בקטגוריה (not selected).
הנתונים "החדשים" הללו הרבה יותר רלוונטיים לאתרים גדולים וענקיים, בהם כמויות הדפים הסרוקים מגיעות למאות אלפים ואפילו מיליונים. באתרים כאלו, למעשה אין לנו אפשרות לעקוב ידנית אחר נפח דפי האתר. באתרים קטנים אפשר לעקוב אחרי כל הדפים בצורה ידנית ואפילו לתעד שינויים באקסל, למעקב מסודר יותר.
לסיכום: הדו"ח/גרף החדש מספק לנו מידע חשוב על מצב הדפים של האתר שלנו, עדיף ומומלץ יותר מאשר פקודות site: אשר לא מחזירה תמיד תוצאות מדוייקות. חשוב לדעת לנתח את הנתונים על מנת להבין האם השינוי שעשינו אכן תרם לכמות הדפים המאונדקסים לגדול או לקטון.