מבוא ללמידת מכונה

ברוכים הבאים לשיעור בנושא רגרסיה לוגיסטית וסיווג, יחידה קריטית בקורס "מבוא ללמידת מכונה". יחידה זו מתמקדת בהבנת אופן השימוש במודלים לינאריים לפתרון בעיות סיווג, בניגוד לבעיות רגרסיה. נלמד כיצד רגרסיה לוגיסטית, למרות שמה, היא למעשה אלגוריתם סיווג רב עוצמה, ונדון במושגי המפתח החיוניים להבנתה, יישומה והערכת ביצועיה. הבנה מעמיקה של נושאים אלו חיונית לא רק ליישומים מעשיים אלא גם להצלחה במבחן.

רגרסיה לוגיסטית: מעבר מרגרסיה לסיווג

בעוד שרגרסיה לינארית מצוינת לחיזוי ערכים רציפים, היא אינה מתאימה לבעיות סיווג, בהן אנו רוצים לחזות קטגוריה בדידה (לדוגמה: כן/לא, חתול/כלב). רגרסיה לוגיסטית פותרת בעיה זו על ידי שימוש בפונקציה מיוחדת הממירה את הפלט הלינארי להסתברות, ומאפשרת לנו לסווג דוגמאות לקטגוריות שונות.

מדוע רגרסיה לינארית אינה מתאימה לסיווג?

פלט רציף: רגרסיה לינארית מחזירה ערכים רציפים, בעוד שסיווג דורש פלט בדיד (למשל, 0 או 1).
רגישות לערכים חריגים: ערכים חריגים יכולים להשפיע באופן דרמטי על קו הרגרסיה, ולשבש את יכולת הסיווג.
פרשנות: קשה לפרש פלט רציף כהסתברות לקטגוריה מסוימת באופן עקבי.

פונקציית הסיגמואיד וגבול ההחלטה

הליבה של רגרסיה לוגיסטית טמונה בפונקציית הסיגמואיד, המאפשרת להמיר כל ערך ממשי לטווח שבין 0 ל-1, ובכך לפרש אותו כהסתברות.

פונקציית סיגמואיד (Sigmoid Function): פונקציה מתמטית המעבירה כל קלט ממשי לטווח שבין 0 ל-1. היא מוגדרת כ- \( \sigma(z) = \frac{1}{1 + e^{-z}} \). ברגרסיה לוגיסטית, \(z\) הוא הפלט הלינארי של המודל (\(w^T x + b\)), ו- \( \sigma(z) \) מייצג את ההסתברות שהדוגמה שייכת למחלקה החיובית (למשל, 1).

לאחר שקיבלנו הסתברות, אנו זקוקים לכלל שיקבע לאיזו מחלקה לשייך את הדוגמה. כאן נכנס לתמונה גבול ההחלטה.

גבול החלטה (Decision Boundary): קו, מישור או היפר-מישור במרחב התכונות המפריד בין המחלקות השונות. ברגרסיה לוגיסטית, גבול ההחלטה נקבע בדרך כלל כאשר ההסתברות החזויה שווה ל-0.5. כלומר, אם \( \sigma(z) \geq 0.5 \), הדוגמה מסווגת למחלקה 1, ואם \( \sigma(z) < 0.5 \), היא מסווגת למחלקה 0.

פונקציית העלות (Cross-Entropy) ואופטימיזציה

כדי לאמן מודל רגרסיה לוגיסטית, אנו זקוקים לפונקציית עלות שתמדוד עד כמה המודל שלנו "טועה" בחיזויים שלו. עבור בעיות סיווג, פונקציית עלות ה-Cross-Entropy היא הבחירה המועדפת.

פונקציית עלות (Cross-Entropy Cost Function): פונקציית עלות המשמשת במודלי סיווג למדידת ההבדל בין התפלגות ההסתברות החזויה להתפלגות האמיתית. עבור סיווג בינארי, היא מוגדרת כ- \( J(w,b) = -\frac{1}{m} \sum_{i=1}^{m} [y^{(i)} \log(h_w(x^{(i)})) + (1-y^{(i)}) \log(1-h_w(x^{(i)}))] \), כאשר \(h_w(x)\) היא ההסתברות החזויה ו- \(y\) היא התווית האמיתית.

מדוע Cross-Entropy עדיפה על Mean Squared Error (MSE) לסיווג?

קמירות: פונקציית ה-Cross-Entropy קמורה עבור רגרסיה לוגיסטית, מה שמבטיח שאלגוריתם אופטימיזציה כמו Gradient Descent ימצא את המינימום הגלובלי. MSE אינה קמורה במקרה זה, ועלולה להיתקע במינימום מקומי.
ענישה: Cross-Entropy מענישה בחומרה רבה יותר חיזויים שגויים בביטחון גבוה (למשל, חיזוי 0 כאשר התווית האמיתית היא 1 עם הסתברות גבוהה), מה שמוביל ללמידה יעילה יותר.

לאחר הגדרת פונקציית העלות, אנו משתמשים באלגוריתמי אופטימיזציה (כמו Gradient Descent) כדי למצוא את הפרמטרים (משקולות \(w\) והטיה \(b\)) הממזערים את פונקציית העלות.

הערכת מודלי סיווג: מטריצת בלבול ומדדים

הערכת מודלי סיווג דורשת יותר מסתם בדיקת דיוק (Accuracy). ישנם מדדים רבים המספקים תובנות שונות לגבי ביצועי המודל, והם נגזרים כולם ממטריצת הבלבול.

מטריצת בלבול (Confusion Matrix): טבלה המסכמת את ביצועי מודל סיווג על קבוצת נתונים. היא מציגה את מספר הדוגמאות שסווגו נכון ושגוי לכל מחלקה.

מטריצת בלבול ומדדי סיווג: זהו נושא קריטי ומועדף לבחינות. הבנה מעמיקה של מטריצת הבלבול ויכולת לחשב ולפרש את המדדים הנגזרים ממנה (דיוק, רגישות, ספציפיות, F1-Score) חיונית. לעיתים קרובות, שאלות יציגו תרחיש עסקי וידרשו לבחור את המדד המתאים ביותר ולהסביר מדוע. לדוגמה, במקרה של זיהוי מחלה נדירה, רגישות (Recall) חשובה יותר מדיוק כללי.

True Positive (TP)

המקרים החיוביים שסווגו נכון כחיוביים.

True Negative (TN)

המקרים השליליים שסווגו נכון כשליליים.

False Positive (FP)

המקרים השליליים שסווגו בטעות כחיוביים (שגיאה מסוג I).

False Negative (FN)

המקרים החיוביים שסווגו בטעות כשליליים (שגיאה מסוג II).

מדדי סיווג (Classification Metrics): מדדים כמותיים המשמשים להערכת ביצועי מודל סיווג. הנפוצים שבהם כוללים:

דיוק (Accuracy): \(\frac{TP + TN}{TP + TN + FP + FN}\) - שיעור הדוגמאות שסווגו נכון מכלל הדוגמאות.
רגישות / היזכרות (Recall / Sensitivity): \(\frac{TP}{TP + FN}\) - שיעור המקרים החיוביים האמיתיים שזוהו נכון. חשוב כאשר עלות ה-FN גבוהה.
דיוק / חיוביות מנבאת (Precision): \(\frac{TP}{TP + FP}\) - שיעור המקרים שסווגו כחיוביים ואכן היו חיוביים. חשוב כאשר עלות ה-FP גבוהה.
ציון F1 (F1-Score): \(2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}\) - ממוצע הרמוני של Precision ו-Recall, שימושי כאשר יש חוסר איזון בין המחלקות.

שאלות לדיון

הסבר מדוע רגרסיה לינארית אינה מתאימה לבעיות סיווג בינאריות, וכיצד רגרסיה לוגיסטית מתגברת על מגבלה זו.
תיאור את תפקידה של פונקציית הסיגמואיד ברגרסיה לוגיסטית ואת הקשר שלה לגבול ההחלטה.
השווה בין פונקציית עלות Cross-Entropy ל-Mean Squared Error (MSE) בהקשר של סיווג בינארי. מתי נעדיף כל אחת מהן ומדוע?
נתונה מטריצת בלבול מסוימת. חשב את מדדי הדיוק (Accuracy), רגישות (Recall), דיוק (Precision) וציון F1 (F1-Score). הסבר מה כל מדד מייצג ומתי הוא עשוי להיות חשוב במיוחד.

נקודות לתשובת מודל

רגרסיה לינארית מול לוגיסטית: רגרסיה לינארית מחזירה ערכים רציפים שקשה לפרש כהסתברויות למחלקות בדידות. רגרסיה לוגיסטית משתמשת בפונקציית סיגמואיד כדי לדחוס את הפלט הלינארי לטווח [0,1], המייצג הסתברות למחלקה החיובית.
סיגמואיד וגבול החלטה: פונקציית הסיגמואיד ממפה את הפלט הלינארי להסתברות. גבול ההחלטה הוא ערך סף (בדרך כלל 0.5) שמעליו המודל מסווג למחלקה אחת ומתחתיו למחלקה אחרת. הוא מוגדר על ידי המקום שבו הפלט הלינארי הוא 0.
Cross-Entropy מול MSE: Cross-Entropy עדיפה לסיווג מכיוון שהיא קמורה עבור רגרסיה לוגיסטית ומענישה בחומרה רבה יותר חיזויים שגויים בביטחון גבוה, מה שמוביל לאופטימיזציה יציבה ויעילה יותר. MSE אינה קמורה במקרה זה ועלולה להיתקע במינימום מקומי.
חישוב ופרשנות מדדים: יש להציג את הנוסחאות ולבצע את החישובים.
- Accuracy: מדד כללי לביצועים, אך מטעה במקרה של חוסר איזון במחלקות.
- Recall: חשוב כאשר חשוב לא לפספס מקרים חיוביים (לדוגמה, אבחון מחלות).
- Precision: חשוב כאשר עלות של False Positive גבוהה (לדוגמה, סימון מייל כספאם).
- F1-Score: מאזן בין Precision ל-Recall, שימושי במיוחד במערכי נתונים לא מאוזנים.

Spotted an error or something missing?