מבוא ללמידת מכונה

ביחידה זו נצלול לעומקן של בעיות יסוד בלמידת מכונה: התאמת יתר ותת-התאמה. נבין מדוע מודלים נכשלים לעיתים קרובות בהכללה לנתונים חדשים, וכיצד טכניקות רגולריזציה והפסקת אימון מוקדמת מסייעות לנו לבנות מודלים חזקים ואמינים יותר. נתמקד בהבנה תיאורטית ומעשית כאחד, כפי שמקובל בבחינות הקורס.

הבנת בעיות התאמה במודלים

המטרה העיקרית של כל מודל למידת מכונה היא ללמוד תבניות מנתוני האימון ולהכליל אותן בהצלחה לנתונים חדשים ולא נראים. כאשר מודל אינו מצליח להשיג מטרה זו, אנו נתקלים בבעיות התאמה, אשר מתבטאות לרוב בשתי צורות עיקריות.

מושגי יסוד: התאמת יתר, תת-התאמה ומאזן הטיה-שונות

תת-התאמה (Underfitting): מתרחשת כאשר מודל פשוט מדי מכדי ללכוד את התבניות הבסיסיות בנתוני האימון. הוא מציג ביצועים ירודים הן על נתוני האימון והן על נתוני הבדיקה, ומאופיין בהטיה (Bias) גבוהה.

התאמת יתר (Overfitting): מתרחשת כאשר מודל מורכב מדי ולומד "רעש" או פרטים ספציפיים מדי מנתוני האימון, במקום את התבניות הכלליות. הוא מציג ביצועים מצוינים על נתוני האימון אך ירודים על נתוני הבדיקה, ומאופיין בשונות (Variance) גבוהה.

תת-התאמה

מאפיינים: ביצועים ירודים על נתוני אימון ובדיקה. המודל פשוט מדי.
גורמים: מודל פשוט מדי, מעט מדי פיצ'רים, אימון קצר מדי.
פתרונות: הגדלת מורכבות המודל, הוספת פיצ'רים, אימון ארוך יותר.

התאמת יתר

מאפיינים: ביצועים מצוינים על נתוני אימון, ירודים על נתוני בדיקה. המודל מורכב מדי.
גורמים: מודל מורכב מדי, מעט מדי נתוני אימון, רעש בנתונים.
פתרונות: רגולריזציה, הפסקת אימון מוקדמת, הגדלת נתונים, הפחתת פיצ'רים.

מאזן הטיה-שונות (Bias-Variance Trade-off): מושג יסוד המבטא את המתח בין הטיה (שגיאה הנובעת מהנחות מפשטות של המודל) לשונות (רגישות המודל לתנודות קטנות בנתוני האימון). מודל אופטימלי משיג איזון בין השניים, ממזער את שגיאת ההכללה הכוללת.

מאזן הטיה-שונות: מושג זה הוא אבן יסוד בהבנת התנהגות מודלים ומהווה נושא מרכזי בבחינות. הבנה עמוקה של הקשר בין מורכבות המודל, הטיה ושונות חיונית לבחירת מודל נכון וטכניקות אופטימיזציה מתאימות, שכן הוא מסביר את הדינמיקה שבין תת-התאמה והתאמת יתר.

טכניקות למניעת התאמת יתר: רגולריזציה והפסקת אימון מוקדמת

כדי למנוע התאמת יתר ולשפר את יכולת ההכללה של המודל, אנו משתמשים בטכניקות שונות המגבילות את מורכבותו או את משך האימון שלו.

רגולריזציה (Regularization)

רגולריזציה היא משפחה של טכניקות המוסיפות "קנס" (penalty) לפונקציית העלות של המודל, בהתבסס על גודל מקדמי המודל. קנס זה מעודד את המודל לבחור מקדמים קטנים יותר, ובכך מפחית את מורכבותו ומונע התאמת יתר.

רגולריזציה L1 (Lasso Regularization): מוסיפה לפונקציית העלות את סכום הערכים המוחלטים של מקדמי המודל (norm L1). היא ידועה ביכולתה לאפס מקדמים של פיצ'רים לא רלוונטיים, ובכך מבצעת בחירת פיצ'רים אוטומטית.

רגולריזציה L2 (Ridge Regularization): מוסיפה לפונקציית העלות את סכום ריבועי מקדמי המודל (norm L2). היא מקטינה את המקדמים אך בדרך כלל אינה מאפסת אותם לחלוטין, ומפחיתה את הרגישות של המודל לשינויים קטנים בנתונים.

רגולריזציה L1 (Lasso)

קנס: סכום הערכים המוחלטים של המקדמים (||w||₁).
השפעה: מאפסת מקדמים של פיצ'רים פחות חשובים, מבצעת בחירת פיצ'רים.
מתי להשתמש: כאשר יש הרבה פיצ'רים ורוצים לבחור תת-קבוצה רלוונטית.
יתרון: מודל פשוט יותר וקל יותר לפירוש.

רגולריזציה L2 (Ridge)

קנס: סכום ריבועי המקדמים (||w||₂²).
השפעה: מקטינה את המקדמים אך לא מאפסת אותם, מפחיתה את השפעתם.
מתי להשתמש: כאשר כל הפיצ'רים רלוונטיים ורוצים למנוע מקדמים גדולים מדי.
יתרון: יציבה יותר כאשר יש פיצ'רים קורלטיביים.

הפסקת אימון מוקדמת (Early Stopping)

הפסקת אימון מוקדמת (Early Stopping): טכניקה שבה אנו עוצרים את תהליך האימון של המודל ברגע שביצועיו על קבוצת ולידציה (validation set) מתחילים להידרדר, גם אם ביצועיו על נתוני האימון עדיין משתפרים.

טכניקה זו מבוססת על ההנחה שבמהלך האימון, שגיאת האימון יורדת באופן עקבי, אך שגיאת הולידציה תרד בתחילה ולאחר מכן תתחיל לעלות כאשר המודל מתחיל להתאים יתר על המידה לנתוני האימון. עצירה בנקודה האופטימלית של שגיאת הולידציה מונעת התאמת יתר ומבטיחה מודל עם יכולת הכללה טובה.

שיקולים מעשיים ובחירת טכניקות

בחירת טכניקת הרגולריזציה או השימוש בהפסקת אימון מוקדמת תלויה במודל הספציפי, במאפייני הנתונים ובמטרת הבעיה. לעיתים קרובות, שילוב של טכניקות שונות מניב את התוצאות הטובות ביותר. פרמטר הרגולריזציה (לרוב מסומן כ-λ או α) הוא היפר-פרמטר קריטי שיש לכוונן בקפידה, לרוב באמצעות קרוס-ולידציה (Cross-Validation), כדי למצוא את האיזון הנכון בין הטיה לשונות.

שאלות לדיון

השוו והנגידו בין התאמת יתר לתת-התאמה. ציינו גורמים אפשריים ופתרונות לכל אחת מהבעיות.
הסבירו את תפקידו של פרמטר הרגולריזציה (λ או α) ברגולריזציה L1 ו-L2. כיצד שינוי ערכו משפיע על מורכבות המודל?
באילו תרחישים תעדיפו להשתמש ברגולריזציה L1 על פני L2, ומתי ההפך? נמקו.
כיצד הפסקת אימון מוקדמת (Early Stopping) מסייעת במניעת התאמת יתר? תארו את המנגנון העומד בבסיסה.

נקודות לתשובת מודל

השוואת התאמת יתר ותת-התאמה:
- תת-התאמה: מודל פשוט מדי, ביצועים ירודים על נתוני אימון ובדיקה, הטיה גבוהה. גורמים: מודל פשוט, מעט פיצ'רים. פתרונות: הגדלת מורכבות המודל, הוספת פיצ'רים.
- התאמת יתר: מודל מורכב מדי, ביצועים טובים על נתוני אימון, ירודים על נתוני בדיקה, שונות גבוהה. גורמים: מודל מורכב, רעש, מעט נתונים. פתרונות: רגולריזציה, Early Stopping, הגדלת נתונים.
תפקיד פרמטר הרגולריזציה (λ/α):
- שולט בעוצמת הקנס המוטל על מקדמי המודל.
- ערך גבוה יותר של λ/α מגביר את הקנס, מכווץ יותר את המקדמים, מפחית את מורכבות המודל ומפחית התאמת יתר (אך עלול להגביר תת-התאמה).
- ערך נמוך יותר מפחית את הקנס, מאפשר למקדמים להיות גדולים יותר, מגביר את מורכבות המודל (ועלול להוביל להתאמת יתר).
בחירה בין L1 ל-L2:
- L1 (Lasso): עדיפה כאשר רוצים לבצע בחירת פיצ'רים אוטומטית (Feature Selection) ולאפס מקדמים של פיצ'רים לא רלוונטיים. שימושית במודלים עם מספר רב של פיצ'רים, כאשר יש צורך במודל פרשני יותר.
- L2 (Ridge): עדיפה כאשר כל הפיצ'רים נחשבים רלוונטיים ורוצים רק להקטין את השפעתם ולמנוע מקדמים גדולים מדי. טובה למניעת רגישות יתר לנתונים, במיוחד כאשר יש פיצ'רים קורלטיביים.
מנגנון הפסקת אימון מוקדמת:
- עוקבת אחר ביצועי המודל (לרוב שגיאה) על קבוצת ולידציה נפרדת במהלך האימון.
- מפסיקה את האימון כאשר שגיאת הולידציה מפסיקה לרדת ומתחילה לעלות, מה שמעיד על התחלת התאמת יתר (המודל מתחיל ללמוד את הרעש בנתוני האימון).
- המנגנון מונע מהמודל ללמוד את הרעש הספציפי של נתוני האימון, ובכך משפר את יכולת ההכללה שלו מבלי להוסיף קנס לפונקציית העלות.

Spotted an error or something missing?