זמן קריאה: < 1 דקות

גוגל פירסמו היום כי הם שיחררו לפני מספר חודשים בשקט מנוע זיהוי כתב כקוד חופשי. מדובר במנוע בשם Tesseract שפותח במקור על ידי מעבדות HP בין השנים 1985 ו-1995, ואף נכנס אל השלישיה הראשונה בתחרות ocr שאורגנה בשנת 1995. בשנת 1995 החליטה HP לזנוח את תחום ה-ocr, והמנוע ישב מאז בשקט והמתין, עד שאנשי HP הגיעו למסקנה כי יתכן וכדאי להחיות את המנוע ולשחרר אותו כקוד חופשי. גם מהנדסי גוגל נרתמו למשימת תיקון מספר באגים שהתגלו במנוע, ועתה הוא מוכן לשיחרור כקוד חופשי.

בשלב זה המערכת תומכת באנגלית בלבד, ואינה תומכת בניתוח מבנה הדף, כך שהיא תעבוד בצורה לא טובה על דפים מרובי עמודות. כמו-כן, המערכת אינה עובדת טוב עם דפים שאינם שחור לבן אלא כוללים גווני אפור או צבעים אחרים. כיום קיימות מערכות מסחריות טובות יותר בשוק זה, אך היא אמורה להיות המדוייקת ביותר מבין מערכות הקוד החופשי.

מדוע גוגל מתעניינים ב-ocr? לדעתי מדובר בשתי סיבות עיקריות:

  • בעולם קיים עדיין מידע רב שאינו מאוחסן בצורה דיגיטלית. מנוע ocr טוב חיוני לגוגל בכדי לסרוק מידע זה בעתיד.
  • נושא זיהוי כתב בתוך תמונות הוא לדעתי נושא שחייב לקבל מענה מגוגל, בכדי לאפשר לבעלי אתרים להשתמש בטקסטים הכתובים בתוך קובץ גרפי, אך עדיין נקראים על ידי מנועי החיפוש.