התרגום של גוגל מערבית לעברית עובר דרך האנגלית

שימו לב לתרגום האוטומטי של גוגל למשפט שהופיע באחת הכותרות באתר מפלגת חד"ש:

"سهيل دياب: أم الفحم ستعرف كيف ترد على مارزل وعصابته".

התרגום של גוגל מערבית ישירות לעברית: "Suhail דיאב: פחם, או יודע איך להגיב מרזל וחבריו כנופיה"
(התרגום הנכון הוא: "סוהיל דיאב: אום אל פחם תדע איך להגיב למרזל וכנופיתו").

החשד שלי היה שהתרגום מערבית לעברית עובר דווקא דרך האנגלית. אז מה קרה בדרך?

התרגום מערבית לאנגלית באמצעות גוגל: "Suhail Diab: coal, or know how to respond to Marzel and his gang".

תרגום המשפט הזה מאנגלית לעברית באמצעות גוגל: "Suhail דיאב: פחם, או יודע איך להגיב מרזל וחבריו כנופיה".


תיכף נעבור להסברים, אבל לפני כן- דוגמאות נוספות. שוב מאתר חד"ש, מתוך כותרות התמונות הופיעו מימין:

המקור (ירידת השורה משפיעה על התרגום):
"الأرض فـي ذاكـرتـنـا
ولـــن نـنـسـاهــا أبـــدا"

התרגום הנכון:
"האדמה בזכרוננו
ולא נשכח אותה לעולם"

גוגל ערבית- עברית:
"אדמות הזיכרונות שלנו
לעולם לא אשכח"

גוגל ערבית- אנגלית:
"Land in our memories
Will never forget"

גוגל אנגלית- עברית:
"אדמות הזיכרונות שלנו
לעולם לא אשכח"


דוגמה נוספת:
המקור:
"حنين.. نعم لحق العودة"

התרגום הנכון:
"חנין.. כן לזכות השיבה"

גוגל ערבית- עברית:
"געגועים.. כן, את זכות השיבה"

גוגל ערבית- אנגלית:
"Nostalgia .. Yes, the right of return"

גוגל אנגלית- עברית:
"געגועים .. כן, את זכות השיבה"


אז איך לעזאזל הוא הגיע מ"חנין" ל"נוסטלגיה"?

אל לנו לשכוח ש"חנין" זה לא רק שם של ח"כ.. זה דומה לדוגמה הראשונה שבה את "אום אל פחם" גוגל תרגם ל- "coal, or" ("פחם, או"). أم שעומד בפני עצמו, ועוד בלי ניקוד, הוא רב משמעי. כך גם حنين.

הלקסיקון של גוגל תרגום דווקא כן כולל, גם את "אום אל פחם" וגם את "דב חנין"- בשלושת השפות (בדקתי), אבל המנגנון שאחראי לבחור בין אופציות תרגום השונות עדיין לא עושה תמיד את הבחירה הנכונה (לא בדקתי את זה לעומק, אבל די ברור שהוא עובד על מציאת הפירושים השונים של כל מילה בנפרד ואז בחירת המשפט שמקבל את הדירוג הגבוה ביותר להתאמה בין המילים השונות שבו).
במקרה של דב חנין למשל, אם היו כותבים دوف حنين ולא רק حنين, הוא היה עושה את הבחירה הנכונה מתוך ההקשר (בדקתי).

דווקא טעויות התרגום של המילים בנפרד הן יחסית מתקבלות על הדעת וסביר להניח שישתפרו עם הזמן, אבל עוד לא דיברנו על מבנה המשפט השונה בכל שפה, שזאת הבעיה העיקרית של גוגל לפי דעתי. מהבחינה הזאת, מעבר ישירות מערבית לעברית היה משפר בהרבה את התרגום.
המעבר מערבית לאנגלית משאיר אמנם את המשפט קריא, פחות או יותר, עם עיוות מסויים של המשמעות. אבל המעבר השני, מאנגלית לעברית, בדר"כ לא עושה את "הדרך חזרה" בצורה "הופכית" למעבר הראשון, מה שגורם לעיוות נוסף של המשמעות המקורית ולחילוע טוטאלי של המשפט. בכלל, נראה לי שבמעבר מאנגלית לעברית גוגל עדיין לא מנסים להכניס את המילים למשפט במבנה עברי, אלא עושים תרגום "brute force". יכול להיות שהם עדיין לא כתבו מודל למבנה המשפט העברי? (אולי הם טרם הספיקו? ואולי הם מסתמכים על הדעה הרווחת שגורסת שמבנה המשפט בעברית הישראלית מספיק דומה למבנה האנגלי כדי שאפשר יהיה לבצע תרגום ישיר?)

כאן צריך להוסיף שהמעבר מאנגלית לעברית גורם גם להשארת "עקבות" בצורת מילים ב"אנגלית", כמו Suhail מהדוגמה הראשונה למשל. בתרגום מערבית או שגוגל מבין שזה השם "סוהיל" או שהוא עושה תעתיק אוטומטי, אבל בתרגום מאנגלית לעברית או שהוא לא מבין שזה שם, או שהוא לא יודע לעשות תעתיק באופן אוטומטי בין שתי השפות (מן הסתם אפשר לחשוב על מבחנים לבדיקה של זה- אם באמת רוצים לפענח לגמרי מה הוא עושה). דרך אגב, זה מה שהעלה את החשד שלי מלכתחילה שהתרגום ערבית- עברית עובר דרך האנגלית.

קישורים חיצוניים:
google translate
גוגל תרגם (בטא..)
الجبهة الديمقراطية للسلام والمساواة (אתר חד"ש בערבית)
- גרסה מתורגמת של אתר חד"ש, תרגום אוטומטי של גוגל לאתר חד"ש