סטיב בייקר, מהנדס בגוגל, פרסם לפני כמה ימים שגוגל השקיעו יותר מחמש שנות מחקר בחקר החיפוש הסמנטי והשימוש במילים נרדפות. תחום מחקר זה נובע מהנחת היסוד שהבנת מורכבות השפה, על גווניה השונים, עשויה לעזור לגוגל ליצור תוצאות חיפוש רלוונטיות יותר לשאילתות המשתמשים.
מהנדסי גוגל חושבים במידה רבה כמו חוקרי לשון ותרבות ומנסים למפות תבניות שפה ייחודיות, המסוגלות להבין ולנתח היבטים שונים בשפה: תחביר, סמנטיקה, צירופי מילים וסלנג מקומי. תבניות לשון אלה מהוות תשתית לכמה מערכות קיימות, המוכרות לנו מתוצאות החיפוש האורגניות: כלי בדיקת האיות והצגת ביטויים רלוונטיים נוספים.
היום, כשאלגוריתם ניתוח תבניות הלשון מזהה ביטוי או מילה נרדפת בתוצאות החיפוש, אשר נתפסת כרלוונטית לשאילתת החיפוש שהקליד הגולש, הביטוי יודגש בעמוד התוצאות, גם אם מאוית בצורה שונה לחלוטין מהביטוי המקורי שחופש. דבר זה אפשרי תודות להתפתחויות האחרונות באלגוריתם ניתוח המילים הנרדפות של גוגל.
טכניקות לחקר השפה האנושית
הטכניקות לחילוץ והבנת מורכבות המילים ויחסי הגומלין שביניהן, מבוססות בחלקן על מידע חיוני שחולץ מנתונים היסטוריים ברשת. הקושי המרכזי טמון בניסיון להבין את מורכבות המשמעויות השונות של אותן מילים נרדפות בהקשרים שונים (לא תמיד ההקשר קל להבנה מבחינה טכנולוגית). שאילתות החיפוש לא מנותקות הקשר, באמצעות ניתוח רצף חיפושים מתחילתו ועד סופו, כולל תיקונים ושיפורים שהגולש ביצע בשאילתות החיפוש (על-ידי השימוש ב-Cookies) ושימוש בשיטות Latent Semantic Indexing, גוגל מנסים להבין עוד יותר את השפה האנושית המורכבת.
החיפוש הסמנטי בגוגל נמצא סביבנו בצורה זו או אחרת כבר לא מעט זמן, אך נראה כי שינוי זה עדיין לא הוטמע בצורה מלאה בחיפוש בעברית. למרות זאת, עדיין ניתן למצוא כמה דוגמאות לכך. בדוגמא שלמעלה, ניתן לראות כי בתוצאות החיפוש של הביטוי "אינסטלציה", גם הביטויים "אינסטלטור" ו-"אינסטלטורים" מודגשים (אגב, השימוש בגרשיים מסביב לשאילתת החיפוש, או הוספת הסימן פלוס [+] לפני הביטוי, תבטל את מנגנון המילים הנרדפות).
שינוי זה מזכיר לי שוב שאנו עובדים מול ועבור אנשים ולא מנועי חיפוש. אני מציע להתייחס פחות להיבטים הטכניים כמו צפיפות מילות מפתח בטקסט ויותר להתמקד בשילוב טבעי והגיוני של ביטויים רלוונטיים, סלנגים דומיננטיים ומילים נרדפות שקהל הלקוחות הפוטנציאלי עשוי לחפש.