ביחידה זו נצלול לעומקן של בעיות יסוד בלמידת מכונה: התאמת יתר ותת-התאמה. נבין מדוע מודלים נכשלים לעיתים קרובות בהכללה לנתונים חדשים, וכיצד טכניקות רגולריזציה והפסקת אימון מוקדמת מסייעות לנו לבנות מודלים חזקים ואמינים יותר. נתמקד בהבנה תיאורטית ומעשית כאחד, כפי שמקובל בבחינות הקורס.
הבנת בעיות התאמה במודלים
המטרה העיקרית של כל מודל למידת מכונה היא ללמוד תבניות מנתוני האימון ולהכליל אותן בהצלחה לנתונים חדשים ולא נראים. כאשר מודל אינו מצליח להשיג מטרה זו, אנו נתקלים בבעיות התאמה, אשר מתבטאות לרוב בשתי צורות עיקריות.
מושגי יסוד: התאמת יתר, תת-התאמה ומאזן הטיה-שונות
תת-התאמה
מאפיינים: ביצועים ירודים על נתוני אימון ובדיקה. המודל פשוט מדי.
גורמים: מודל פשוט מדי, מעט מדי פיצ'רים, אימון קצר מדי.
פתרונות: הגדלת מורכבות המודל, הוספת פיצ'רים, אימון ארוך יותר.
התאמת יתר
מאפיינים: ביצועים מצוינים על נתוני אימון, ירודים על נתוני בדיקה. המודל מורכב מדי.
גורמים: מודל מורכב מדי, מעט מדי נתוני אימון, רעש בנתונים.
פתרונות: רגולריזציה, הפסקת אימון מוקדמת, הגדלת נתונים, הפחתת פיצ'רים.
טכניקות למניעת התאמת יתר: רגולריזציה והפסקת אימון מוקדמת
כדי למנוע התאמת יתר ולשפר את יכולת ההכללה של המודל, אנו משתמשים בטכניקות שונות המגבילות את מורכבותו או את משך האימון שלו.
רגולריזציה (Regularization)
רגולריזציה היא משפחה של טכניקות המוסיפות "קנס" (penalty) לפונקציית העלות של המודל, בהתבסס על גודל מקדמי המודל. קנס זה מעודד את המודל לבחור מקדמים קטנים יותר, ובכך מפחית את מורכבותו ומונע התאמת יתר.
רגולריזציה L1 (Lasso)
קנס: סכום הערכים המוחלטים של המקדמים (||w||₁).
השפעה: מאפסת מקדמים של פיצ'רים פחות חשובים, מבצעת בחירת פיצ'רים.
מתי להשתמש: כאשר יש הרבה פיצ'רים ורוצים לבחור תת-קבוצה רלוונטית.
יתרון: מודל פשוט יותר וקל יותר לפירוש.
רגולריזציה L2 (Ridge)
קנס: סכום ריבועי המקדמים (||w||₂²).
השפעה: מקטינה את המקדמים אך לא מאפסת אותם, מפחיתה את השפעתם.
מתי להשתמש: כאשר כל הפיצ'רים רלוונטיים ורוצים למנוע מקדמים גדולים מדי.
יתרון: יציבה יותר כאשר יש פיצ'רים קורלטיביים.
הפסקת אימון מוקדמת (Early Stopping)
טכניקה זו מבוססת על ההנחה שבמהלך האימון, שגיאת האימון יורדת באופן עקבי, אך שגיאת הולידציה תרד בתחילה ולאחר מכן תתחיל לעלות כאשר המודל מתחיל להתאים יתר על המידה לנתוני האימון. עצירה בנקודה האופטימלית של שגיאת הולידציה מונעת התאמת יתר ומבטיחה מודל עם יכולת הכללה טובה.
שיקולים מעשיים ובחירת טכניקות
בחירת טכניקת הרגולריזציה או השימוש בהפסקת אימון מוקדמת תלויה במודל הספציפי, במאפייני הנתונים ובמטרת הבעיה. לעיתים קרובות, שילוב של טכניקות שונות מניב את התוצאות הטובות ביותר. פרמטר הרגולריזציה (לרוב מסומן כ-λ או α) הוא היפר-פרמטר קריטי שיש לכוונן בקפידה, לרוב באמצעות קרוס-ולידציה (Cross-Validation), כדי למצוא את האיזון הנכון בין הטיה לשונות.
שאלות לדיון
- השוו והנגידו בין התאמת יתר לתת-התאמה. ציינו גורמים אפשריים ופתרונות לכל אחת מהבעיות.
- הסבירו את תפקידו של פרמטר הרגולריזציה (λ או α) ברגולריזציה L1 ו-L2. כיצד שינוי ערכו משפיע על מורכבות המודל?
- באילו תרחישים תעדיפו להשתמש ברגולריזציה L1 על פני L2, ומתי ההפך? נמקו.
- כיצד הפסקת אימון מוקדמת (Early Stopping) מסייעת במניעת התאמת יתר? תארו את המנגנון העומד בבסיסה.
נקודות לתשובת מודל
- השוואת התאמת יתר ותת-התאמה:
- תת-התאמה: מודל פשוט מדי, ביצועים ירודים על נתוני אימון ובדיקה, הטיה גבוהה. גורמים: מודל פשוט, מעט פיצ'רים. פתרונות: הגדלת מורכבות המודל, הוספת פיצ'רים.
- התאמת יתר: מודל מורכב מדי, ביצועים טובים על נתוני אימון, ירודים על נתוני בדיקה, שונות גבוהה. גורמים: מודל מורכב, רעש, מעט נתונים. פתרונות: רגולריזציה, Early Stopping, הגדלת נתונים.
- תפקיד פרמטר הרגולריזציה (λ/α):
- שולט בעוצמת הקנס המוטל על מקדמי המודל.
- ערך גבוה יותר של λ/α מגביר את הקנס, מכווץ יותר את המקדמים, מפחית את מורכבות המודל ומפחית התאמת יתר (אך עלול להגביר תת-התאמה).
- ערך נמוך יותר מפחית את הקנס, מאפשר למקדמים להיות גדולים יותר, מגביר את מורכבות המודל (ועלול להוביל להתאמת יתר).
- בחירה בין L1 ל-L2:
- L1 (Lasso): עדיפה כאשר רוצים לבצע בחירת פיצ'רים אוטומטית (Feature Selection) ולאפס מקדמים של פיצ'רים לא רלוונטיים. שימושית במודלים עם מספר רב של פיצ'רים, כאשר יש צורך במודל פרשני יותר.
- L2 (Ridge): עדיפה כאשר כל הפיצ'רים נחשבים רלוונטיים ורוצים רק להקטין את השפעתם ולמנוע מקדמים גדולים מדי. טובה למניעת רגישות יתר לנתונים, במיוחד כאשר יש פיצ'רים קורלטיביים.
- מנגנון הפסקת אימון מוקדמת:
- עוקבת אחר ביצועי המודל (לרוב שגיאה) על קבוצת ולידציה נפרדת במהלך האימון.
- מפסיקה את האימון כאשר שגיאת הולידציה מפסיקה לרדת ומתחילה לעלות, מה שמעיד על התחלת התאמת יתר (המודל מתחיל ללמוד את הרעש בנתוני האימון).
- המנגנון מונע מהמודל ללמוד את הרעש הספציפי של נתוני האימון, ובכך משפר את יכולת ההכללה שלו מבלי להוסיף קנס לפונקציית העלות.