תיוק אוטומאטי-משמעות ואיכות


מאמר זה ייגע באחד היישומים המרכזיים של תוכנות ניהול מסמכים וארכיונים דיגיטליים - התיוק האוטומטי.

 

התיוק האוטומטי מאפשר למשתמש בתוכנת ניהול המסמכים לתייק עשרות מסמכים בלחיצת כפתור אחת.

למעשה ישנן תוכנות המאפשרות תיוק אוטומטי כך שאפילו לחיצת הכפתור אינה נדרשת וברגע שהמערכת מזהה קבצים ממתינים היא מתחילה לתייק אותם על פי הגדרות קבועות מראש .

תיוק דיגיטלי דומה באופן כללי לתיוק ניירת בארכיב פיסי, הוא אמור לאפשר אחסון נוח ויותר מכך מציאה ושליפה מהירה של החומר הנדרש.

חיפוש ושליפת מסמכים בארכיון דיגיטלי מתבצע בדרך כלל על פי אוסף נתונים שהמערכת שומרת לכל קובץ שתויק (metadata).

 

בתיוק ידני המשתמש צריך להקליד את המידע לכל קובץ שהוא מתייק,  בתיוק האוטומאטי תוכנת ניהול המסמכים  מבצעת זיהוי של מידע גרפי בקובץ התמונה הסרוק מעבדת את המידע וממירה אותו לנתון טקסטואלי בר חיפוש.

שני סוגי הזיהוי הנפוצים ביותר במערכות ניהול מסמכים הם : זיהוי ברקודים וזיהוי תווים אופטי (OCR).

 

זיהוי ברקודים: משמש בד"כ לזיהוי ותיוק מהיר של מסמכים פנים ארגוניים. לקליטת המסמכים הפנים ארגוניים יכול הארגון להפיק ברקודים המכילים מידע על סוגי מסמכים שונים אותם הם מעוניינים לתייק, תוכנת הארכיב הדיגיטאלי תזהה את הברקוד על גבי המסמך הסרוק ותתייק אותו לפי המידע שמכיל הברקוד (או מספר ברקודים).

שימוש נפוץ נעשה במנוע זיהוי ברקודים במסמכים מסוג תעודות משלוח, חשבוניות, הזמנות, הצעות מחיר ועוד.

יתרונות בולטים בשימוש בשיטה זו טמונים במהירות ובמהימנות הזיהוי לעומת שיטות אחרות.

יתרון נוסף שחשוב לציין הוא ביכולת לבצע "בקרת שגויים". ביכולתן של מערכות ניהול מסמכים רבות להשתמש במספר מנגנוני זיהוי במקביל ולבצע ולידציה של הנתונים הנקראים בברקוד לפי הגדרות קבועות כך שמסמך בעל ברקוד לא תקין/לא תואם יועבר לתיקייה ייעודית לקבצים לא מזוהים, המסמך לא יתויק אוטומטית אלא ימתין לבחינה ותיוק ידני של המשתמש.

החיסרון העיקרי בשיטת זיהוי זו נוגעת לטיפול במסמכים חוץ ארגוניים שאינם מבורקדים,ולכן ייאלצו לעבור תהליכי זיהוי שונים או שיתבצע תיוק ידני. כמו כן תבנית המידע שיישמר אינה דינמית ותלויה בהגדרות הברקוד, לעומת זיהוי תווים אופטי לדוגמה אשר יכול לשמור מידע מתוך תוכן המסמך עצמו.

 

זיהוי תווים אופטי (OCR): מאפשר זיהוי והמרה של אימג'ים לקבצי טקסט ברי חיפוש. בהקשר של תיוק אוטומטי השימוש במנגנון OCR בא לידי ביטוי בשני אופנים מרכזיים, האחד שמירת מידע על קובץ לפי תבנית מוגדרת ותיוקו לפי זיהוי שהתבצע על גבי המסמך. השני הוא המרת קובץ התמונה לקובץ טקסט או קובץ PDF בר חיפוש (Searchable PDF) כך שהמערכת או המשתמש יוכלו לבצע חיפוש ולשלוף מידע מתוכן המסמך עצמו.

שיטה זו פחות יעילה ומומלצת כשצריך לקלוט נתונים חד ערכיים לזיהוי (כגון מס' חשבונית, מס' חברה וכדומה), מאחר ואחוז הדיוק שלה רגיש יותר לאיכות הקובץ הסרוק מאשר מנוע זיהוי הברקודים, ובקרת השגויים שלה פחות איכותית. כמו כן חשוב לציין שיכולת זיהוי כתב יד עדיין אינו ברמה מספקת, עם זאת ההתקדמות בתחום ה ICR (זיהוי תווים אינטליגנטי) מהירה והפיתוחים כיום מאפשרים זיהוי טוב יחסית בטפסים מובנים .

ניתן להשתמש בשתי שיטות הזיהוי הנ"ל במקביל, כך שהמסמכים הסרוקים יומרו לקבצי PDF ברי חיפוש ולאחר מכן יעברו תהליך של זיהוי הברקוד והתיוק.

 

התיוק האוטומטי הוא אחד ההיבטים המשפיעים ביותר במעבר של חברות וארגונים לעבודה עם מערכות ניהול מסמכים וארכיונים דיגיטאליים מאחר והחיסכון בשעות עבודה ובכוח אדם הוא אדיר ובקרת השגויים שמאפשרות תוכנות הארכיב מספקות את הביטחון שהמידע יישמר במקום הנכון עם הנתונים הנכונים.

 

מאמרים נוספים