מבוא ללמידת מכונה

ברוכים הבאים ליחידת הלימוד בנושא מודלים מבוססי עצים. יחידה זו תתמקד בעצי החלטה, יערות אקראיים ובהקדמה להגברת גרדיאנט – מודלים חזקים ופופולריים בלמידת מכונה, המשמשים הן לסיווג והן לרגרסיה. נבין את עקרונות הפעולה שלהם, את היתרונות והחסרונות, ואת האופן שבו הם מתמודדים עם אתגרים נפוצים. שימו לב לנקודות ההשוואה וההבדלים בין המודלים השונים, שכן אלו נושאים מרכזיים בבחינות.

עצי החלטה (Decision Trees): הבסיס למודלים מבוססי עצים

עצי החלטה הם מודלים אינטואיטיביים המדמים תהליך קבלת החלטות אנושי. הם מחלקים את מרחב התכונות באופן רקורסיבי לתת-מרחבים, כאשר כל חלוקה מבוססת על תכונה מסוימת וסף מסוים, עד שמגיעים לעלה (leaf) המכיל את התחזית הסופית.

עץ החלטה (Decision Tree): מודל למידת מכונה המשתמש במבנה עץ כדי לקבל החלטות על ידי חלוקה רקורסיבית של מרחב התכונות, במטרה להגיע לעלים "טהורים" ככל האפשר.

תהליך בניית עץ החלטה

בחירת תכונה לפיצול: בכל צומת, העץ בוחר את התכונה והסף הטובים ביותר לפיצול הנתונים, במטרה למקסם את טוהר תתי-הקבוצות שנוצרות (או למזער את אי-הטהור).
עצירת הפיצול: התהליך נעצר כאשר צומת הופך ל"טהור" מספיק (כלומר, רוב הדוגמאות בו שייכות לאותה מחלקה), או כאשר מגיעים לעומק מרבי שהוגדר מראש, או כאשר מספר הדוגמאות בצומת קטן מדי.
נטייה להתאמת יתר (Overfitting): עצי החלטה בודדים נוטים להתאים יתר על המידה לנתוני האימון, מה שפוגע בביצועיהם על נתונים חדשים. גיזום (pruning) או הגבלת עומק העץ הם דרכים להתמודד עם בעיה זו.

מדדי אי-טהור (Impurity Measures): קריטריונים לפיצול אופטימלי

כדי לבנות עץ החלטה יעיל, אנו זקוקים למדד שיקבע עד כמה קבוצת נתונים מסוימת "טהורה" (כלומר, כמה דוגמאות בה שייכות לאותה מחלקה). מדדי אי-טהור עוזרים לנו לבחור את הפיצול הטוב ביותר בכל צומת, על ידי מזעור אי-הטהור בתתי-הקבוצות שנוצרות.

מדד אי-טהור (Impurity Measure): פונקציה המודדת את מידת ההטרוגניות של קבוצת נתונים, כלומר עד כמה הדוגמאות בקבוצה שייכות למחלקות שונות. המטרה בפיצול היא להפחית מדד זה.

מדדי גיני ואנטרופיה

מדד גיני (Gini Impurity)

מדד גיני מודד את ההסתברות שדוגמה שנבחרה באקראי מקבוצה מסוימת תסווג באופן שגוי אם תסווג לפי התפלגות המחלקות באותה קבוצה. ערך 0 מציין טוהר מוחלט (כל הדוגמאות באותה מחלקה), וערך גבוה יותר מציין אי-טהור רב יותר.

מדד גיני: \(G = 1 - \sum_{i=1}^{C} p_i^2\), כאשר \(p_i\) היא ההסתברות לדוגמה ממחלקה \(i\) מתוך \(C\) מחלקות.

אנטרופיה (Entropy)

אנטרופיה, שמקורה בתורת האינפורמציה, מודדת את אי-הוודאות או אי-הסדר בקבוצת נתונים. ערך 0 מציין טוהר מוחלט, וערך גבוה יותר מציין אי-ודאות רבה יותר. המטרה היא למקסם את רווח האינפורמציה (Information Gain) בכל פיצול.

אנטרופיה: \(H = -\sum_{i=1}^{C} p_i \log_2(p_i)\), כאשר \(p_i\) היא ההסתברות לדוגמה ממחלקה \(i\) מתוך \(C\) מחלקות.

שני המדדים דומים בתוצאותיהם, אך אנטרופיה נוטה להעדיף פיצולים מאוזנים יותר, בעוד גיני מהיר יותר לחישוב.

יערות אקראיים (Random Forests): שילוב עצים לביצועים משופרים

יערות אקראיים הם מודלים מבוססי אנסמבל המשלבים מספר רב של עצי החלטה בודדים כדי ליצור מודל חזק ויציב יותר. הם מתמודדים ביעילות עם בעיית התאמת היתר של עץ החלטה בודד.

יער אקראי (Random Forest): מודל אנסמבל המורכב ממספר רב של עצי החלטה, כאשר כל עץ מאומן על תת-קבוצה אקראית של נתונים ותת-קבוצה אקראית של תכונות.

עקרונות הפעולה של יערות אקראיים

Bagging (Bootstrap Aggregating): כל עץ ביער מאומן על מדגם בוטסטראפ (מדגם עם החזרה) מתוך נתוני האימון המקוריים. זה יוצר מגוון של עצים המאומנים על קבוצות נתונים שונות במקצת.

Bagging: טכניקת אנסמבל שבה מספר מודלים מאומנים באופן בלתי תלוי על מדגמי בוטסטראפ שונים של נתוני האימון, והתחזיות שלהם משולבות (לרוב על ידי הצבעה או ממוצע).

אקראיות בתכונות: בנוסף לדגימת הנתונים, בכל פיצול בצומת, עץ החלטה ביער אקראי בוחר רק מתוך תת-קבוצה אקראית של התכונות הזמינות. זה מפחית את המתאם בין העצים ומגביר את מגוון היער.
שילוב תחזיות: עבור סיווג, התחזית הסופית נקבעת על ידי הצבעת רוב בין העצים. עבור רגרסיה, התחזית היא ממוצע התחזיות של העצים.

יערות אקראיים – מדוע הם כה חשובים לבחינה: יערות אקראיים הם אחד האלגוריתמים הנפוצים והחזקים ביותר בלמידת מכונה. הבנה מעמיקה של אופן פעולתם, כיצד הם מפחיתים שונות (variance) ומתמודדים עם התאמת יתר של עצי החלטה בודדים באמצעות Bagging ואקראיות תכונות, היא קריטית. שאלות בבחינה יתמקדו לרוב בהשוואה לעצי החלטה בודדים ובהסבר מנגנוני האנסמבל שלהם, וכיצד הם משפרים את יציבות המודל.

הגברת גרדיאנט (Gradient Boosting): בנייה סדרתית לשיפור מתמיד

הגברת גרדיאנט היא גישת אנסמבל נוספת, אך שונה מהותית מ-Bagging. במקום לבנות עצים באופן מקביל ובלתי תלוי, הגברת גרדיאנט בונה עצים באופן סדרתי, כאשר כל עץ חדש מנסה לתקן את השגיאות שנעשו על ידי העצים הקודמים.

הגברת גרדיאנט (Gradient Boosting): טכניקת אנסמבל שבה מודלים חלשים (לרוב עצי החלטה רדודים) נבנים באופן סדרתי, כאשר כל מודל חדש מתמקד בתיקון השגיאות של המודלים הקודמים, תוך שימוש בגרדיאנט של פונקציית ההפסד.

Boosting: טכניקת אנסמבל שבה מודלים חלשים נבנים באופן סדרתי, כאשר כל מודל מתמקד בדוגמאות שסווגו או נחזו באופן שגוי על ידי המודלים הקודמים, ובכך משפר את ביצועי המודל הכולל.

עקרונות מפתח

למידה סדרתית: כל עץ חדש מאומן על "שאריות" (residuals) או על "פסאודו-שאריות" (pseudo-residuals) של המודל המצטבר הקודם, כלומר על ההפרש בין התחזית האמיתית לתחזית הנוכחית.
מודלים חלשים: לרוב משתמשים בעצי החלטה רדודים (stumps או עצים בעלי עומק קטן) כמודלים בסיסיים, כדי למנוע התאמת יתר של כל עץ בודד.
הפחתת שגיאה: התהליך ממשיך עד שמגיעים לרמת שגיאה מספקת או למספר עצים מוגדר מראש.

בעוד יערות אקראיים מפחיתים שונות (variance) על ידי ממוצע עצים בלתי תלויים, הגברת גרדיאנט מפחיתה הטיה (bias) על ידי תיקון שיטתי של שגיאות, ולכן נוטה להיות מדויק יותר אך גם רגיש יותר להתאמת יתר.

שאלות לדיון

הסבר את ההבדל העיקרי בין עץ החלטה בודד ליער אקראי, והדגם כיצד יער אקראי מתמודד עם בעיית התאמת היתר של עץ בודד.
השווה והצג את ההבדלים בין מדד גיני לאנטרופיה כקריטריונים לפיצול בעצי החלטה. באילו מצבים תעדיף כל אחד מהם, ומדוע?
תאר את עקרון הפעולה של הגברת גרדיאנט (Gradient Boosting) והסבר כיצד הוא שונה מ-Bagging ביערות אקראיים. התייחס להשפעה על הטיה ושונות.
כיצד היית בוחר בין עץ החלטה, יער אקראי ומודל הגברת גרדיאנט עבור בעיית סיווג נתונה? ציין שיקולים מרכזיים.

נקודות לתשובת מודל

עץ החלטה מול יער אקראי: עץ בודד נוטה ל-overfitting (שונות גבוהה) עקב למידה עמוקה מדי של רעש בנתונים. יער אקראי מפחית שונות באמצעות Bagging (דגימת נתונים עם החזרה) ואקראיות בתכונות (בחירת תת-קבוצת תכונות בכל פיצול), מה שיוצר עצים מגוונים ופחות מתואמים, וכך הממוצע שלהם יציב יותר.
מדדי אי-טהור: שניהם מודדים אי-הומוגניות של קבוצת נתונים. גיני מהיר יותר לחישוב ופשוט יותר. אנטרופיה מבוססת על תורת האינפורמציה ונוטה להעדיף פיצולים מאוזנים יותר, מה שיכול להיות יתרון במקרים מסוימים. בפועל, לרוב התוצאות דומות.
הגברת גרדיאנט מול Bagging: הגברת גרדיאנט היא סדרתית (sequential), בונה עצים חדשים כדי לתקן שגיאות של קודמיהם (מפחית הטיה - bias). Bagging (ביערות אקראיים) הוא מקבילי (parallel), בונה עצים בלתי תלויים וממזג אותם (מפחית שונות - variance).
בחירת מודל: עץ החלטה פשוט וקל לפירוש אך נוטה ל-overfit. יער אקראי חזק, יציב ופחות נוטה ל-overfit, טוב כנקודת התחלה כללית. הגברת גרדיאנט חזק מאוד ומדויק יותר, אך רגיש יותר ל-overfitting ודורש כוונון קפדני של היפר-פרמטרים. שיקולים נוספים: גודל הנתונים, דרישות לפרשנות, זמן אימון, ומשאבי מחשוב.

Spotted an error or something missing?