אנו נלבן שאלות אלו בסדרת מפגשים שתערך לאורך השנה כולה. במפגשים אלו נתמקד בקריאה קרובה של סיפורים נבחרים ושל ספרות עיונית ותיאורטית רלוונטית, כמו גם בניסויים חישוביים ראשוניים - בקריאה רחוקה - בטקסטים שבקורפוס. מטרתנו בשנה זו לא תהא להתמקד בחיבור מסוים או בתופעה קונקרטית אחת, כי אם לפתח כיוונים קונספטואליים חדשים לדיון בנושא בכללותו, ולהעמידם למבחן ראשוני.

מחקר זה נתמך בחלקו במענק פתיחה שניתן לד"ר מרינברג-מיליקובסקי במסגרת מלגת אלון.

מעשה לסתור

מעשה לסתור: לקראת פואטיקה היסטורית של הסיפור התלמודי. בשנים הקרובות נבקש לבחון ולשרטט מחדש קווים לדמות הפואטיקה ההיסטורית של הסיפור התלמודי. נבדוק כיצד התפתחה הרב-מערכת הז'אנרית של ספרות חז"ל לחיבוריה השונים, וכיצד השתנתה אמנות הסיפור שלה, על שלל אמצעיה, מדור לדור - תחום שנותר עד כה בצל, בנופו הכללי של המחקר הפואטי של הספרות התלמודית. פרוייקט זה מחייב מיפוי וניתוח שיטתיים ויסודיים של אלמנטים נראטיביים מגוונים, מורכבים, רבים מספור, בקורפוס עצום בהיקפו, ואנו עמלים כעת על השגת המשאבים הדרושים לכך.

את השנה הראשונה (2019-2020) נקדיש אפוא בעיקר לדיון מושגי מקדים בהיבטים התיאורטיים של הפרוייקט, ובתנאים הנדרשים לאופרציונליזציה חישובית שלהם: אילו תופעות ספרותיות, תמאטיות וצורניות גם יחד, תוכלנה לשמש מדד (כמותי) להתפתחות פואטית בספרות זו? כיצד - והיכן - נוכל לאתר אותן? מה תהיינה שיטות הסיווג והניתוח הפוריות ביותר?

פרוייקטים נוספים

רומן מפתח: קריאה רחוקה ברומן העברי - סיכויים וסיכונים | ד"ר יעל דקל

פרוייקט זה מבקש להניח תשתית ראשונית ליצירת אינדקס חכם של הרומן העברי, ככלי למחקר חישובי בספרות העברית. כאשר פרנקו מורטי תיאר לראשונה 'קריאה רחוקה', הוא כלל לא דיבר על מחשבים, כי אם על קריאה מכלי שני: קריאת הרומן העולמי דרך עיניהם של חוקרים (רבים) אחרים. קריאה כזו, תוך שימוש בכלי ממוחשב, היא מה שגם אנחנו מעוניינים להציע בהקשר העברי. מטרת הפרוייקט היא לבחון את האפשרות לתייג בעבודה אנושית שיתופית, שיטתית וממושכת את כלל הרומנים שפורסמו בעברית מאז 'אהבת ציון' (אברהם מאפו, 1853) ועד ימינו בהתאם לקטגוריות מגוונות: החל מפרטים ביוגרפיים וביבליוגרפיים, דרך אבחנות המתייחסות לדמות המספר ולמאפייני המבנה והעלילה, ועד לסקירת היבטים תימטיים מרכזיים. התיוג נעשה באמצעות שאלון מפורט המופץ ברבים באמצעות אתר זה; המידע הנאסף באמצעותו מעובד ומנותח על ידינו. אנו משערים שבחינה של הרומנים על פי תיוגים אלה לבדם, או בראי נקודות ההשקה, ההצטלבות ואף ההתנגשות ביניהם, תסייע להאיר מחדש קשרים בין טקסטים, תקופות ורעיונות שונים, מגמות מרכזיות, כמו גם זרמים סמויים-מעין. יחד עם זאת, בצד נסיון למצות עד תום את תרומתו האפשרית של המהלך, נבקש גם להעמיד את המתודולוגיה החדשה במבחן הביקורת: מהם היתרונות של תיוגים מסויימים על פני תיוגים אחרים? באיזה אופן שיטת התיוג מכתיבה את ניתוח החומר ומצרה את אופקיו? האם טמונה בה 'סכנה' לגישות מסורתיות יותר? ובסופו של דבר: כיצד מצטייר הרומן העברי כשמתבוננים בו מרחוק? לדף הפרוייקט ולקישור לשאלון לחצו כאן.

מילים מיותרות? Stopwords והספרות הרבנית | אליהו רוזנפלד

בפרוייקט זה נבקש להתבונן בספרות חז"ל מפרספקטיבה בלתי שגרתית, שנקודת המוצא שלה היא ניתוח מילות העצירה (stopwords) האופייניות לחיבוריה השונים של ספרות זו ולז'אנרים המרכיבים אותם. מילות עצירה, מילים המתאפיינות לרוב בפונקציה תחבירית דומיננטית ובמשקל סמנטי נמוך (את, על, כי וכו'), המצויות בשכיחות גבוהה למדי בדיבור ובכתיבה, עומדות לעתים כמחסום בפני מחקר הספרות החישובי: הן 'מטות' את התוצאות בהוסיפן 'רעש' המקשה על איתור ממצאים בעלי רלוונטיות ומשמעות לשאלת המחקר. ואולם, הנסיון מלמד כי מה שנראה כ'רעש' מזווית מבט אחת, עשוי להתגלות כמכרה-זהב מזווית מבט אחרת; מילים שתכליתן הפורמלית והפונקציונלית היא לתמוך במילים אחרות ולאפשר את הצבתן במבנה תחבירי או רטורי מוגדר, עשויות לחשוף תופעות ספרותיות עקרוניות הנוגעות לדרכי השיח החז"לי, וליחסים המתכוננים על ידו בין צורה ומשמעות. 

רכישת הלקסיקון העברי בקרב תלמידי תיכון בנגב: בחינה אמפירית | איהאב אבו רביעה

[בהנחיית פרופ' רוני הנקין-רויטפרב וד"ר רועי גפטר, המחלקה ללשון עברית]

המחקר בודק התקדמות לקסיקלית ברכישת העברית כשפה שנייה של תלמידי תיכון בדואים בנגב באמצעות חמישה מדדים של עושר לקסיקלי: גיוון לקסיקלי, דחיסות לקסיקלית, רמת מופשטות, תחכום לקסיקלי וייחוד לקסיקלי. כמו כן, הוא בודק אם התבססות העושר הלקסיקלי של התלמידים על המילים הדומות בין שתי השפות בעיקר בשלבים מוקדמים של רכישת שפה יורדת עם העלייה בזמן הרכישה. מטרה עיקרית נוספת למחקר זה היא הצעת דרכים ליישום מדדים בין-לשונים, שפותחו ונבדקו בעיקר בשפות הנכתבות באותיות לטיניות, בשפה העברית, השונה באופן משמעותי משפות אלה. המחקר נעזר בשיטות חישוביות של ניתוח קורפוס באמצעות תיוג שיטתי.

ללא מילים: ויזואליזציה של פיסוק ומקצב | בן מלכה

כיצד אפשר לקרוא טקסט ללא מילים? אף על פי שהמעבדה מתמחה בהתמודדות עם הטקסט העברי, פרוייקט זה מבקש לחתור אל יסוד אוניברסלי המייתר את המילים עצמן ומתמד דווקא במה שביניהן - בסימני הפיסוק. סימני הפיסוק קובעים לא פעם את המוזיקה של הטקסט, ומעניקים לו 'מקצב'. טקסט מרובה סימני פיסוק צפופים ייקרא שונה לגמרי מטקסט שבו הם מופיעים בתדירות נמוכה יותר; משפטים ארוכים ומורכבים, גדושים בפסיקים ובמקפים, ייקראו שונה לגמרי ממשפטים קצרים, נעדרי חלוקה פנימית; ושימוש דחוס בנקודה-פסיק (;) מעצב טקסט שונה לגמרי מטקסט שבו סימן משוכלל זה מופיע אך מעט. כשמציבים תופעות אלה בהקשר ספרותי-אמנותי מתעוררות שאלות חדשות, הנוגעות למשל ליחס בין מערך הפיסוק וארגונו בטקסט למבנהו העלילתי של ספר נתון, לגיבושו של ז'אנר, או להתפתחותם של יוצרים מסוימים. מטרת פרוייקט זה היא לפתח כלי אוניברסלי, א-לשוני, לניתוח, מיפוי וויזואליזציה של פיסוק כאמצעי אמנותי.

מילים מרובות: למטיזציה נגישה של טקסטים בעברית | ויאם הנוש

[בהנחיית ד"ר יעל נצר, המחלקה למדעי המחשב]

אחד הקשיים הבולטים בניתוח חישובי של טקסטים בעברית נובע מן המבנה המורכב שלה כשפה שמית המבוססת על שורשים והטיותיהם. הואיל והכלים האוטומטיים המקובלים לניתוח הטקסט אינם מזהים את שורש המילה, הם מפרידים בין מילים שהקשר ביניהן ברור לדוברים ילידיים של השפה. כך למשל בטקסט דמיוני נתון המילים 'אכל', 'אכלו', 'נאכל' מנותחות כל אחת בנפרד, אף על פי שעבור החוקר השאלה החשובה עשויה להיות 'כמה פעמים מופיע השורש 'א.כ.ל' בטקסט, והיכן, ומבלי להפרידו להטיותיו. אמנם, יישומי בלשנות חישובית ועיבוד שפה טבעית (NLP) בעברית כבר יודעים להתמודד חלקית עם בעיה זו, אך השימוש בהם דורש רמה כלשהי של ידיעת תכנות, ועושה אותם לפיכך בלתי-נגישים למשתמשי-הקצה. מטרת פרוייקט זה היא להפוך את אחד הכלים המובילים בתחום לנגיש וידידותי למשתמש, תוך הרחבת אפשרויות ההבנה והניתוח הלשוני.

עוז, אפלפלד והמכונה: AmosOz2vec - Hebrew Literature meets Machine Learning

ד"ר דני וילנצ'יק (בית הספר להנדסת מחשבים וחשמל) וד"ר איתי מרינברג-מיליקובסקי

 

האם אפשר לתרגם תיאוריות ספרותיות מורכבות לנוסחאות מתמטיות? ואם כן, האם תוכלנה נוסחאות אלו ללמדנו דבר-מה חדש על אודות הספרות העברית? התפתחותו של מחקר הספרות החישובי בשנים האחרונות העצימה את חשיבותם של מודלים סטטיסטיים כגון Word2Vec - מודל המאפשר לברר את היחסים הסמנטיים בין מילים שונות בטקסט או בקורפוס באמצעות ייצוג (שיכון) מתמטי-מרחבי של המילים כוקטורים במרחב. מודלים מסוג זה מבוססים על שיטות ניתוח שרמת המורכבות המתמטית והתכנותית שלהן עולה בהרבה על זו המאפיינת מניפולציות בסיסיות יותר של ספירה וכימות, ולכן, לפי שעה, הן מיושמות בידי חוקרים מעטים בלבד; ואם נכונה הערה זו בתחומן של ספרויות כגון הספרות האנגלית והגרמנית, הרי היא נכונה שבעתיים בתחום הספרות העברית, שרק לאחרונה החלה לגלות את המחקר החישובי. מלבד זאת, המעבר מניתוח בלשני של טקסט 'נייטראלי' - שכבר הוצע במחקרים אחרים - לניתוח פואטי של טקסט ספרותי עשיר ורב-מימדים, טומן בחובו אתגרים חדשים. אתגרים אלה עומדים במרכזו של פרוייקט זה, המבקש לבחון את תרומתה הפוטנציאלית של למידת המכונה להבנת יצירתם הענפה והממושכת של שניים מגדולי הספרות העברית בדור האחרון - עמוס עוז ואהרן אפלפלד - מתוך דיאלוג מעמיק עם תובנותיהם של חוקרים שדנו ביצירתם בכלים מסורתיים יותר. מחקר נסיוני זה נתמך בחלקו על ידי מענק מיוחד מאת סגן נשיא האוניברסיטה והדיקן למחקר ופיתוח.

בימים אלו אנו מגבשים את תוכנית המחקר לשנים הקרובות

רוצה לעבוד איתנו? שלח/י הצעת מחקר ונחשוב יחד כיצד לשתף פעולה!