אחד הגורמים שבתחילת דרכו של גוגל היה משמעותי מאד בקביעת מיקומו של דף בתוצאות החיפוש של מנוע החיפוש היה כמות הקישורים שהפנו אל דף ספציפי ועוצמתם. מדד זה היה מוכר בשם PageRank אותו קבע אחד ממייסדי גוגל, לארי פייג', במסגרת מאמר אקדמי, ומאוחר יותר פטנט שהוגש לרישום, שהביאו בעקבותיהם להקמת המנוע. מדד זה היה אמנם רק אחד ממאות גורמים בהם גוגל השתמש בקביעת מיקומי האתר, אך הוא היה בין החשובים שבהם.
חשוב לומר כי כיום רמת החשיבות של מדד PageRank ירדה בצורה דראסטית, ולא ברור אם בכלל נעשה בו שימוש לצורך קביעת מיקומי האתר בגוגל. עם זאת, יתכן כי הוא עדיין משמש למטרות אחרות, כגון קביעת תדירות הסריקה של דפים על ידי גוגל וכדומה.
למרות רמת חשיבותו הנמוכה (אם בכלל) של מדד זה כיום, חשוב לדעתי להכיר אותו כדי להבין את צורת החשיבה של גוגל בתחילת הדרך, ומתוך כך גם להבין את התפתחות האלגוריתמים שלו לאורך השנים.
מהו אלגוריתם PageRank?
Pagerank הוא מדד מספרי בו השתמש מנוע החיפוש גוגל כדי למדוד את מידת החשיבות של דף מסוים באינטרנט. הדרך בה קבע גוגל את מידת חשיבותו של הדף היה באמצעות בדיקת מספר ואיכות הקישורים המפנים אל אותו דף. כל הפניה שהגיעה אל דף היוותה מעין "הצבעת אמון" עבור דף זה, וככל שמספר ואיכות ההצבעות היה גבוה יותר, כך הדף הוגדר כחשוב יותר.
מספר דברים שכדאי לדעת על Pagerank:
- הוא ניתן לכל דף בנפרד, ולא לאתר כולו.
- הוא לא היה תלוי במילת חיפוש מסוימת, אלא הגדיר את מידת החשיבות הכללית של הדף.
- בעבר הוא היה מרכזי מאד בקביעת התוצאות של גוגל, אך חשיבותו כיום כנראה כמעט אפסית.
בהמשך אתייחס לעיתים למונח Pagerank לפי הקיצור שלו – PR.
בדיקת רמת חשיבותו של דף
בעבר ניתן היה לבדוק את ה-PR של דף מסוים באמצעות סרגל הכלים של גוגל (Google Toolbar). סרגל הכלים הוא כלי המתווסף לדפדפן אקספלורר, שהציג בעבר את רמת ה-PR של כל דף בו ביקרתם.
קביעת PageRank
תהליך קביעת מדד ה-pagerank התחיל באיסוף כל הקישורים המצביעים על דף (מאתרים אחרים או מתוך האתר עצמו). לאחר איסוף הקישורים התבצעה הערכה של איכות כל קישור. במדידת איכות הקישור הכוונה היא למספר גורמים:
- ה-pagerank של הדף המקשר – ככל שחשיבות הדף המצביע הייתה גבוהה יותר, כך הפכה חשיבות ההצבעה לגבוהה. אין דין הצבעה שנעשתה על-ידי אתר גדול ומבוסס כדין הצבעה של אתר קטן. זו הסיבה שלעיתים קרובות עדיף היה קישור אחד מדף בעל חשיבות גבוהה על פני עשרה קישורים מדפים בעלי חשיבות נמוכה.
- מספר הקישורים בדף המקשר – כוח ההצבעה של דף מסוים התחלק על פני כל הקישורים היוצאים ממנו. אם בדף מסוים היה רק קישור אחד, אז כל כוח ההצבעה שלו עבר דרך הקישור הבודד. אם היו בדף מאה קישורים לדפים שונים, אז כוח ההצבעה התחלק בין כל אותם דפים מקושרים.
- קישור פנימי מול קישור חיצוני – זוהי נקודה שנויה במחלוקת. אמנם באופן רשמי לא היה הבדל בין קישור המגיע מאתר אחר מול קישור שהגיע מתוך האתר, אך לי נראה כי לקישורים שהגיעו מבחוץ היה משקל רב יותר.
הנתונים על "ההצבעות" אותן קיבל דף תורגמו לציון מספרי, שהוא היה ה-Pagerank של הדף. ציון זה לא היה הציון אותו ניתן היה לראות בסרגל הכלים של גוגל.
ציון PageRank שהוצג לגולש
לאחר מתן הציון הסופי, חילק גוגל את הדפים באינטרנט לעשר קבוצות (PR1-PR10). גודל כל הקבוצות לא היה שווה. גודל הקבוצה הלך וקטן בצורה אקספוננטיאלית. כלומר, באינטרנט יהיו הרבה יותר דפים ב-PR3 מאשר PR4, ויותר דפים ב-PR4 מאשר PR5. המעבר מ-PR ל-PR הלך והפך לקשה יותר ככל שהדף היה עולה במעלה ה-PR.
עדכון PageRank
גוגל חישב את ה-pagerank של הדפים במאגר שלו בצורה שוטפת. עם זאת, רק אחת לכמה חודשים (בדרך כלל אחת לשלושה עד ארבעה חודשים) התעדכנו הנתונים המוצגים בסרגל הכלים של גוגל ובמדריך האתרים שהיה בעבר בגוגל. אגב, הנתונים של מדריך האתרים התעדכנו בנפרד מן הנתונים שהוצגו בסרגל הכלים. המשמעות של עובדה זו הייתה שה-pagerank אותו ניתן היה לראות בסרגל הכלים של גוגל היה בעצם תמונה בנקודה מסוימת בזמן ולא יותר מזה.