זמן קריאה: 2 דקות

אם אתם שואלים את עצמכם מה זה בדיוק Latent Semantic Indexing, אז הגיע הזמן שתכירו את המונח המעניין הזה.

Latent Semantic Indexing או כפי שהיא נקראת בקיצור LSI היא שיטה המאפשרת למנוע החיפוש לזהות את הנושא של דף אינטרנט מבלי להתייחס אל חיפוש זה או אחר אותו ביצע משתמש. אם ניקח דוגמא מעשית יותר, אתר העוסק בנושא הריון יכלול בתוכו באופן טבעי מילים כמו תינוק, לידה, בית חולים וכדומה.

שיטת LSI רואה בדף משהו מעבר לאוסף מילות מפתח סתמי. היא רואה בדף מכלול של מילים, שאם נאתר דפים אחרים ברשת בהם מופיעות מילים דומות, אז נמצא אתרים הדומים לדף הנבדק מבחינה נושאית. ככל ששני דפים מכילים יותר מילים משותפות, כך הדפים יהיו קרובים יותר מבחינה נושאית – ומכאן שדפים בהם אין מילים משותפות הם רחוקים מבחינה נושאית.

בשיטה החדשה, המערכת לא צריכה להבין את המילים עצמן, אלא רק את חוקיות הופעתן בשני טקסטים אותם היא משווה.

בצורה זו יכול מנוע החיפוש להוריד את ערכם של דפים בהם מופיעות מילות חיפוש מסויימות, שאינם כוללים תמיכה של מילים נוספות קשורות. או בדוגמא פרקטית יותר, דף הכולל את המילה לידה, מבלי לכלול מילים כמו הריון, צירים, תינוק, בית חולים, חדר לידה, וכדומה, כנראה שאינו עוסק באמת בנושא לידה של תינוק – אולי הוא עוסק בלידה של שיר או רעיון…

שיטה זו גם מאפשרת ניתוח של קישורים אל אתר. אם כל הקישורים אל אתר מסויים כוללים רק מונח חיפוש אחד, ולא כוללים מונחים קשורים, אז האתר יופיע נמוך יותר בתוצאות החיפוש. לכן, שימוש בקישורים מגוונים יכול להועיל מאד לאתר – לדוגמא: קידום אתרים, קידום אתר, שיווק באינטרנט, קידום בגוגל, וכדומה.

למעשה יש כאן שינוי משמעותי בדרך בה אנו מקדמים אתרים. אם עד היום היה נהוג להשתמש במונחי חיפוש נוקשים החוזרים על עצמם, הרי שכאן דווקא לשימוש במונחים קרובים (מילים נרדפות ונושאים קרובים) ישנה חשיבות רבה.

השאלה האחרונה שצריכה ליהשאל בנושא זה היא – האם השיטה כבר עובדת בעברית? הערכתי היא שעדיין לא כל-כך, אך אין זה אומר שהמצב ישאר כך. אולי עדכון ג'אגר יביא להגדלת המשקל אותו נותן גוגל לנושא זה גם בעברית.