גוגל ו-HP משחררים מנוע זיהוי כתב כקוד חופשי

אורן שץ
ספטמבר 5, 2006
שיווק דיגיטלי
עודכן לפני 5 שנים

זמן קריאה: < 1 דקות

גוגל פירסמו היום כי הם שיחררו לפני מספר חודשים בשקט מנוע זיהוי כתב כקוד חופשי. מדובר במנוע בשם Tesseract שפותח במקור על ידי מעבדות HP בין השנים 1985 ו-1995, ואף נכנס אל השלישיה הראשונה בתחרות ocr שאורגנה בשנת 1995. בשנת 1995 החליטה HP לזנוח את תחום ה-ocr, והמנוע ישב מאז בשקט והמתין, עד שאנשי HP הגיעו למסקנה כי יתכן וכדאי להחיות את המנוע ולשחרר אותו כקוד חופשי. גם מהנדסי גוגל נרתמו למשימת תיקון מספר באגים שהתגלו במנוע, ועתה הוא מוכן לשיחרור כקוד חופשי.

בשלב זה המערכת תומכת באנגלית בלבד, ואינה תומכת בניתוח מבנה הדף, כך שהיא תעבוד בצורה לא טובה על דפים מרובי עמודות. כמו-כן, המערכת אינה עובדת טוב עם דפים שאינם שחור לבן אלא כוללים גווני אפור או צבעים אחרים. כיום קיימות מערכות מסחריות טובות יותר בשוק זה, אך היא אמורה להיות המדוייקת ביותר מבין מערכות הקוד החופשי.

מדוע גוגל מתעניינים ב-ocr? לדעתי מדובר בשתי סיבות עיקריות:

בעולם קיים עדיין מידע רב שאינו מאוחסן בצורה דיגיטלית. מנוע ocr טוב חיוני לגוגל בכדי לסרוק מידע זה בעתיד.
נושא זיהוי כתב בתוך תמונות הוא לדעתי נושא שחייב לקבל מענה מגוגל, בכדי לאפשר לבעלי אתרים להשתמש בטקסטים הכתובים בתוך קובץ גרפי, אך עדיין נקראים על ידי מנועי החיפוש.

אורן שץ

אורן שץ הוא המייסד והמנכ"ל של חברת אס.אי.או ישראל, שהוקמה בשנת 2003. אורן הוא מומחה קידום אתרים מן המובילים בארץ, עם מעל 25 שנות ניסיון בנושאי שיווק באינטרנט, קידום אתרים, אנליזה, קידום ממומן ופיתוח בארץ ובחו"ל. אורן מרצה בכנסים וסמינרים בנושא קידום אתרים ושיווק באינטרנט.

כתבנו עוד על שיווק דיגיטלי, אולי יעניין אותך

דליפת מסמכים גדולה של גוגל מציגה איך אלגוריתם החיפוש פועל

זה קרה! Google Mobile-First Indexing הסתיים

16 כלים חינמיים של גוגל לחשיפת האתר ללקוחות פוטנציאליים

ההשפעה של AI בכלל ו-Chat GTP בפרט על עולם ה-SEO

גוגל ו-HP משחררים מנוע זיהוי כתב כקוד חופשי

תוכן עניינים

כתיבת תגובה לבטל

נשארים בלופ