יום שבת, 19 בספטמבר 2015

עברית קשה שפה גם ב-PDF

ניסיתם פעם להעתיק טקסט, פסקאות שלמות ממסמך בפורמט PDF?
אם ניסיתם סביר שלא הייתם מרוצים מהתוצאה התעצבנתם או עבדתם קשה על התיקון.

ניסיון להעביר את המסמך מ-PDF ל- WORD באמצעות תוכנת OCR נידון לכישלון ניסיתי במהלך השנים תוכנות שונות וכולן לא הצליחו להתמודד עם עברית. הטקסט מופיע הפוך, שילוב של אנגלית ועברית משגע אותן, גרפיקה גם מבלבלת אותן יישנן אותיות שמזוהות כאותיות אחרות.

המצב די דומה למה שמתרחש שמנסים להפוך טקסט בתמונה הנה דוגמה באמצעות אתר i2ocr


'יּי ' ןזיזהבּוּו הארץ
אי: כן ”ני י  הןיןייּ

טליה לביא קיןןתה שםרטה הראשון' ידבר אל הקהל הישראלי, אבל ﬠוד
לפני שיצא בארץ, זכה "אפס בירןסי אנוש" לפרסים בפסטיבל טרייבקה
היוקרתי ןברכש להפצה בינלאומית | שירןה ﬠם הבמאית ﬠל אבטלה סמויה,
דייט אלים והומןר שהןר

יְם ן
הגץבביקיןת המשןﬠממןת שכבש] את לב הצופים
האמריקאים

אהבתי יּ הגב יּ יפןחףהּשחפײ 2030 ה 9 >א19

הנה דוגמה להמרת טקסט
ןתכרעהל םיכרדו ןתרטמ ,הדימל תוירואית
הנבה ,הדימל לע םיעיפשמש םינתשמו םינונגנמ לש הכורא המישר ונרקס סרוקב וז הדוקנל דע קלחב .דמלל יאדכ ךיא – הארוה לע הלא םינתשמל שיש תוישעמה תוכלשהל ונסחייתהו ,ןורכיזו ,לשמל( הלאה תועפשהה תא םיריבסמש םייטרואית םילדומ םג םימייק םירקמהמ לודג
.)האלה ןכו ,דוביעה קמוע לדומ ,המכסה תיירואית המ לע ףיסוהל תולוכי ןה המ ?הדימל תוירואית – תופסונ תוירואיתב ךרוצ שי ,ןכ םא ,עודמ ?הכ דע ונדמלש

לאחר הפיכת הטקסט
תיאוריות למידה, מטרתן ודרכים להערכתן
גדול מהמקרים קיימים גם מודלים תיאורטיים שמסבירים את ההשפעות האלה (למשל, וזיכרון, והתייחסנו להשלכות המעשיות שיש למשתנים אלה על הוראה – איך כדאי ללמד. בחלק עד לנקודה זו בקורס סקרנו רשימה ארוכה של מנגנונים ומשתנים שמשפיעים על למידה, הבנה
שלמדנו עד כה? מדוע, אם כן, יש צורך בתיאוריות נוספות – תיאוריות למידה? מה הן יכולות להוסיף על מה תיאוריית הסכמה, מודל עומק העיבוד, וכן הלאה).

השוואה לטקסט שהועתק באמצעות העתק +הדבק

תיאוריות למידה, מטרתן ודרכים להערכתן
עד לנקודה זו בקורס סקרנו רשימה ארוכה של מנגנונים ומשתנים שמשפיעים על למידה, הבנה
וזיכרון, והתייחסנו להשלכות המעשיות שיש למשתנים אלה על הוראה – איך כדאי ללמד. בחלק
גדול מהמקרים קיימים גם מודלים תיאורטיים שמסבירים את ההשפעות האלה )למשל,
תיאוריית הסכמה, מודל עומק העיבוד, וכן הלאה(.
מדוע, אם כן, יש צורך בתיאוריות נוספות – תיאוריות למידה? מה הן יכולות להוסיף על מה
שלמדנו עד כה?

תוצאה זו די זהה למסמך PDF שנשמר כקובץ txt, יש להתחשב בכך שהמסמך נוצר ממסמך Word שנשמר כ- PDF ולכן ייתכן שאין בו בעיות רבות (למרות שכל הקטע המסומן בקו לא הומר בכלל). מסמך שנוצר מתוכנות הוצאה לאור דוגמת אינדזיין לא יעבור באופן פשוט כל כך ולא רק הסוגריים יוצגו לא נכון גם הפיסוק ייצמד למילה שבא לאחר סימן הפיסוק.

כך זה נראה בהעתקה ישירות מ- PDF לכאן:

לפני התחלת נסיעה, קרא את הוראות הפעלה
אלה. הדבר יעזור לך להפיק את מלוא ההנאה
מרכבך ולמנע לסכן את עצמך ואחרים.
מכיוון שאבזור הרכב מבוסס על הזמנת רכישת
הרכב, הציוד ברכבך עשוי להיות שונה בתיאורים
ואיורים מסוימים. גם פריטים של ציוד אופציונלי
מתוארים בהוראות הפעלה אלה, במידה ותרצה
תיאור של הדרך בה הם פועלים.

אך כך זה ייראה בהעתקה למסמך Word כאשר הפיסוק לא נמצא המקום הנכון גם לאחר ניקוי עיצוב:

הפתרון הוא להעביר אותו דרך תוכנית חסרת כל עיצוב פנקס רשימות (Notepad) ומשם להעתיק אותו ל- Word ואז הוא יועתק כמו שהועתק לכאן.