כריית מידע — מרחב למידה אישי

ברוכים הבאים ליחידת הלימוד "הערכת מודלים" בקורס כריית מידע (20595). יחידה זו היא אבן יסוד בהבנת איכותם ויעילותם של מודלים שנלמדו. לאחר שבנינו מודלים שונים, כגון עצי החלטה או מודלים בייסיאניים, השלב הקריטי הבא הוא להעריך עד כמה הם טובים בחיזוי נתונים חדשים ולא נראים. הבנה מעמיקה של עקרונות ההערכה, המדדים השונים וטכניקות האימות תאפשר לכם לבחור את המודל המתאים ביותר לבעיה נתונה ולהימנע מטעויות נפוצות כמו התאמת יתר.

מבוא להערכת מודלים: למה זה חשוב?

בכריית מידע, מטרתנו היא לבנות מודלים המסוגלים ללמוד תבניות מנתונים קיימים וליישם ידע זה לחיזוי או סיווג של נתונים עתידיים. הערכת מודלים היא התהליך שבו אנו בוחנים את ביצועי המודל ומודדים את יכולתו להכליל (generalize) לנתונים חדשים. ללא הערכה נכונה, קיים סיכון גבוה לבחור מודל שנראה טוב על נתוני האימון אך כושל לחלוטין בעולם האמיתי.

מודל למידה: ייצוג מתמטי או אלגוריתמי של תבניות וקשרים שנלמדו מנתוני אימון, המשמש לחיזוי או סיווג נתונים חדשים.

התאמת יתר והתאמת חסר

שתי בעיות מרכזיות שאנו מנסים להימנע מהן בהערכת מודלים הן התאמת יתר והתאמת חסר:

התאמת יתר (Overfitting): מצב שבו מודל לומד את נתוני האימון "טוב מדי", כולל רעשים וסטיות אקראיות, וכתוצאה מכך ביצועיו על נתונים חדשים ולא נראים ירודים משמעותית.

התאמת חסר (Underfitting): מצב שבו מודל פשוט מדי מכדי ללכוד את התבניות הבסיסיות בנתוני האימון, וכתוצאה מכך ביצועיו ירודים הן על נתוני האימון והן על נתונים חדשים.

מדדי הערכה למודלי סיווג

מודלי סיווג הם נפוצים בכריית מידע, ומטרתם לחזות את הקטגוריה או המחלקה אליה משתייך פריט נתון. הערכת מודלי סיווג מתבצעת באמצעות מגוון מדדים, כאשר מטריצת הבלבול היא הבסיס לרובם.

מטריצת בלבול (Confusion Matrix)

מטריצת בלבול: טבלה המסכמת את ביצועי מודל סיווג על קבוצת נתונים, ומפרטת את מספר המקרים שסווגו נכון ושלא נכון עבור כל מחלקה.

מטריצת בלבול עבור בעיה בינארית (שתי מחלקות, חיובי ושלילי) כוללת ארבעה ערכים:

True Positive (TP): המודל חזה חיובי, והוא אכן חיובי.
True Negative (TN): המודל חזה שלילי, והוא אכן שלילי.
False Positive (FP): המודל חזה חיובי, אך הוא למעשה שלילי (שגיאה מסוג I).
False Negative (FN): המודל חזה שלילי, אך הוא למעשה חיובי (שגיאה מסוג II).

מטריצת בלבול ומדדים נגזרים: הבנה מעמיקה של מטריצת הבלבול וכיצד נגזרים ממנה מדדים כמו דיוק, רגישות וספציפיות היא קריטית לבחינה. שאלות רבות יכללו תרחישים שבהם עלות שגיאה מסוג אחד גבוהה יותר מהאחר (לדוגמה, אבחון מחלה), ויידרש מכם לבחור ולהסביר את המדד המתאים ביותר. תרגול חישובים ממטריצת בלבול נתונה הוא חובה.

מדדים נפוצים

ממטריצת הבלבול ניתן לגזור מדדים רבים:

דיוק (Accuracy): שיעור הסיווגים הנכונים מכלל הסיווגים. (TP + TN) / (TP + TN + FP + FN)
רגישות / היזכרות (Recall / Sensitivity): שיעור המקרים החיוביים שאותרו נכונה מכלל המקרים החיוביים האמיתיים. TP / (TP + FN)
ספציפיות (Specificity): שיעור המקרים השליליים שאותרו נכונה מכלל המקרים השליליים האמיתיים. TN / (TN + FP)
דיוק (Precision): שיעור המקרים החיוביים האמיתיים מכלל המקרים שהמודל חזה כחיוביים. TP / (TP + FP)
מדד F1 (F1-Score): ממוצע הרמוני של Precision ו-Recall, שימושי כאשר יש חוסר איזון בין המחלקות. 2 * (Precision * Recall) / (Precision + Recall)

דיוק (Precision)

מתמקד בשאלת "מתוך כל מה שחזיתי כחיובי, כמה באמת היו חיוביים?". חשוב כאשר עלות חיובי שגוי (FP) גבוהה (לדוגמה, זיהוי ספאם).

רגישות (Recall)

מתמקד בשאלת "מתוך כל החיוביים האמיתיים, כמה הצלחתי לזהות?". חשוב כאשר עלות שלילי שגוי (FN) גבוהה (לדוגמה, איתור מחלות).

מדד F1

מדד מאוזן המשלב את Precision ו-Recall. שימושי כאשר יש צורך בביצועים טובים בשני המדדים, במיוחד במערכי נתונים לא מאוזנים.

טכניקות אימות וחלוקת נתונים

כדי להבטיח הערכה אובייקטיבית של המודל, יש לחלק את הנתונים באופן שימנע זליגת מידע מנתוני האימון לנתוני הבדיקה.

חלוקת נתונים בסיסית

קבוצת אימון (Training Set): הנתונים המשמשים לבניית המודל וללמידה.
קבוצת אימות (Validation Set): נתונים המשמשים לכוונון פרמטרים של המודל (hyperparameters) ובחירת המודל הטוב ביותר מבין מספר מועמדים, מבלי להשתמש בנתוני הבדיקה הסופיים.
קבוצת בדיקה (Test Set): נתונים חדשים ולא נראים, המשמשים להערכה סופית ואובייקטיבית של ביצועי המודל הנבחר.

אימות צולב (Cross-Validation)

אימות צולב: טכניקה סטטיסטית להערכת ביצועי מודל למידה, המפצלת את הנתונים למספר תתי-קבוצות (folds) ומאמנת ובודקת את המודל מספר פעמים, כאשר בכל פעם קבוצה אחרת משמשת לבדיקה.

השיטה הנפוצה ביותר היא K-Fold Cross-Validation:

הנתונים מחולקים ל-K חלקים שווים (folds).
התהליך חוזר K פעמים: בכל איטרציה, fold אחד משמש כקבוצת בדיקה, ו-K-1 ה-folds הנותרים משמשים כקבוצת אימון.
ביצועי המודל מחושבים עבור כל איטרציה, והתוצאה הסופית היא ממוצע הביצועים על פני כל ה-K איטרציות.

אימות צולב מסייע להפחית את השונות בהערכת המודל ומספק אומדן אמין יותר ליכולת ההכללה שלו.

החלפת הטיה-שונות (Bias-Variance Trade-off)

זהו מושג יסוד בהבנת ביצועי מודלים של למידת מכונה. הוא מתאר את הקונפליקט בין יכולתו של מודל לפשט את הנתונים (הטיה) לבין רגישותו לשינויים קטנים בנתוני האימון (שונות).

הטיה (Bias): שגיאה הנובעת מהנחות שגויות במודל הלמידה, הגורמות לו לפשט יתר על המידה את הקשר בין התכונות למטרה. מודל עם הטיה גבוהה נוטה להתאמת חסר.

שונות (Variance): שגיאה הנובעת מרגישות יתר של המודל לשינויים קטנים בנתוני האימון. מודל עם שונות גבוהה נוטה להתאמת יתר.

המטרה היא למצוא איזון אופטימלי בין הטיה לשונות. מודל פשוט מדי (לדוגמה, רגרסיה לינארית לנתונים לא לינאריים) יהיה בעל הטיה גבוהה ושונות נמוכה (התאמת חסר). מודל מורכב מדי (לדוגמה, עץ החלטה עמוק מאוד) יהיה בעל הטיה נמוכה ושונות גבוהה (התאמת יתר). המודל האידיאלי הוא זה שממזער את סך השגיאה, הנובעת משילוב של הטיה, שונות ורעש בלתי ניתן להפחתה.

שאלות לדיון

הסבירו מדוע חלוקת נתונים לקבוצות אימון, אימות ובדיקה היא קריטית להערכה אובייקטיבית של מודל למידת מכונה.
נתונה מטריצת בלבול עבור מודל המזהה הונאות בכרטיסי אשראי. הסבירו אילו מדדים (Precision, Recall, F1-Score) יהיו חשובים יותר במקרה זה ומדוע.
כיצד אימות צולב (K-Fold Cross-Validation) מסייע להתמודד עם בעיית התאמת יתר (Overfitting) בהערכת מודלים?
הסבירו את הקשר בין החלפת הטיה-שונות (Bias-Variance Trade-off) לבין התאמת יתר והתאמת חסר של מודל. תנו דוגמה למודל שנוטה להטיה גבוהה ולמודל שנוטה לשונות גבוהה.

נקודות לתשובת מודל

חלוקת נתונים: קבוצת אימון לבנייה, אימות לכוונון, בדיקה להערכה סופית על נתונים לא נראים. מונעת זליגת מידע והטיה בהערכה.
מדדים להונאות: במקרה של הונאות, זיהוי כל ההונאות (מניעת FN) הוא קריטי, ולכן Recall חשוב מאוד. יחד עם זאת, גם Precision חשוב כדי לא להטריד לקוחות עם התרעות שווא (FP). מדד F1 יכול לתת תמונה מאוזנת.
אימות צולב והתאמת יתר: מאפשר למודל להתאמן ולהיבדק על תתי-קבוצות שונות של הנתונים, ובכך מספק אומדן יציב יותר ליכולת ההכללה ומפחית את הסיכון שהערכה תהיה מוטה בגלל חלוקה ספציפית של הנתונים. ממוצע הביצועים על פני ה-K איטרציות משקף
מצאתם טעות או שחסר משהו?