מבוא ללמידת מכונה

ברוכים הבאים ליחידת הלימוד על מודלים לינאריים: רגרסיה. יחידה זו מהווה אבן יסוד בהבנת עולם למידת המכונה, ומספקת את הכלים הבסיסיים לחיזוי ערכים רציפים באמצעות מציאת קשרים לינאריים בין משתנים. נצלול לעומק הרגרסיה הלינארית, נבין כיצד אנו מודדים את "טוב" המודל שלנו באמצעות פונקציית עלות, וכיצד אנו מוצאים את הפרמטרים האופטימליים באמצעות אלגוריתם ירידת הגרדיאנט. לבסוף, נבחן את ההנחות הקריטיות העומדות בבסיס המודל הלינארי, שהבנתן חיונית ליישום נכון ופרשנות אמינה של המודלים.

רגרסיה לינארית: הבסיס לחיזוי

רגרסיה לינארית היא אחת מטכניקות למידת המכונה הפשוטות והנפוצות ביותר, המשמשת לחיזוי משתנה יעד רציף (תלוי) על בסיס משתנה בלתי תלוי אחד או יותר (מנבאים). המטרה היא למצוא את הקשר הלינארי הטוב ביותר בין המשתנים, המיוצג על ידי קו ישר (במקרה הפשוט) או מישור/היפר-מישור (במקרה המרובה).

רגרסיה לינארית: מודל למידת מכונה המשמש לחיזוי ערכים רציפים (משתנה תלוי) באמצעות מציאת קשר לינארי בין משתנה היעד לבין משתנה בלתי תלוי אחד או יותר.

המודל המתמטי

רגרסיה לינארית פשוטה: כאשר ישנו מנבא יחיד, המודל מתואר על ידי משוואת קו ישר: $y = \theta_0 + \theta_1 x_1 + \epsilon$.
- $y$: המשתנה התלוי (ערך החיזוי).
- $x_1$: המשתנה הבלתי תלוי (המנבא).
- $\theta_0$: חיתוך עם ציר ה-Y (האינטרספט).
- $\theta_1$: שיפוע הקו (מקדם המנבא).
- $\epsilon$: רכיב השגיאה (רעש בלתי ניתן להסבר).
רגרסיה לינארית מרובה: כאשר ישנם מספר מנבאים, המודל מתרחב: $y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n + \epsilon$.
- $\theta_i$: מקדמי הרגרסיה עבור כל מנבא $x_i$.

פונקציית עלות (MSE) וירידת גרדיאנט

כדי למצוא את הקו ה"טוב ביותר", אנו זקוקים לדרך למדוד כמה "רע" המודל שלנו. לשם כך אנו משתמשים בפונקציית עלות.

פונקציית עלות (Cost Function): פונקציה המודדת את מידת השגיאה של מודל חיזוי ביחס לנתונים האמיתיים. מטרתנו היא למזער אותה.

פונקציית עלות MSE (Mean Squared Error)

ברגרסיה לינארית, פונקציית העלות הנפוצה ביותר היא MSE. היא מחשבת את ממוצע ריבועי ההפרשים בין הערכים המנובאים לערכים האמיתיים. ריבוע ההפרשים מבטיח שגיאות חיוביות ומעניש יותר שגיאות גדולות.

MSE (Mean Squared Error): פונקציית עלות נפוצה ברגרסיה, המחשבת את ממוצע ריבועי ההפרשים בין הערכים המנובאים לערכים האמיתיים: $J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2$.

ירידת גרדיאנט (Gradient Descent)

ירידת גרדיאנט הוא אלגוריתם אופטימיזציה איטרטיבי המשמש למציאת ערכי הפרמטרים ($\theta_0, \theta_1, \dots, \theta_n$) הממזערים את פונקציית העלות. האלגוריתם פועל על ידי התחלה מנקודה אקראית וביצוע צעדים קטנים בכיוון הנגדי לגרדיאנט (הנגזרת) של פונקציית העלות, עד שמגיעים למינימום מקומי (או גלובלי במקרה של MSE ברגרסיה לינארית).

ירידת גרדיאנט (Gradient Descent): אלגוריתם אופטימיזציה איטרטיבי למציאת ערכי הפרמטרים (מקדמים) הממזערים פונקציית עלות, על ידי ביצוע צעדים פרופורציונליים לגרדיאנט השלילי של הפונקציה.

קצב הלמידה ($\alpha$) הוא פרמטר קריטי בירידת גרדיאנט, הקובע את גודל הצעד בכל איטרציה. קצב למידה גבוה מדי עלול לגרום לאלגוריתם "לדלג" מעל המינימום, בעוד שקצב נמוך מדי יאט משמעותית את תהליך ההתכנסות.

רגרסיה לינארית פשוטה מול מרובה

הבחירה בין רגרסיה פשוטה למרובה תלויה במספר המשתנים הבלתי תלויים הזמינים וברצון ללכוד קשרים מורכבים יותר.

רגרסיה לינארית פשוטה

מודל עם משתנה בלתי תלוי (מנבא) אחד בלבד. קל להבנה ויזואלית (קו ישר בדו-ממד). משמש כאשר יש קשר ברור ולינארי בין שני משתנים בלבד. לדוגמה: חיזוי מחיר דירה לפי גודלה.

רגרסיה לינארית מרובה

מודל עם שני משתנים בלתי תלויים (מנבאים) או יותר. מאפשר ללכוד קשרים מורכבים יותר ולהסביר שונות רבה יותר במשתנה התלוי. דורש הבנה טובה יותר של אינטראקציות בין משתנים. לדוגמה: חיזוי מחיר דירה לפי גודלה, מספר חדרים, מיקום וגיל.

הנחות המודל הלינארי

כדי שהמסקנות הסטטיסטיות מרגרסיה לינארית יהיו תקפות ואמינות, יש לעמוד במספר הנחות יסוד. הפרת הנחות אלו עלולה להוביל למקדמים מוטים, טעויות סטנדרטיות שגויות, ולמסקנות שגויות לגבי מובהקות הקשרים.

הנחות המודל הלינארי: הבנה מעמיקה של הנחות אלו חיונית לא רק לבניית מודל נכון, אלא גם להערכת תקפותו ולפרשנות נכונה של תוצאותיו. הפרתן עלולה להוביל למסקנות שגויות ולמודל לא אמין.

הנחות מרכזיות:

לינאריות (Linearity): הקשר בין המשתנים הבלתי תלויים למשתנה התלוי הוא לינארי. ניתן לבדוק זאת באמצעות גרפים של פיזור.
אי-תלות (Independence of Errors): שאריות המודל (ההפרשים בין הערכים האמיתיים למנובאים) בלתי תלויות זו בזו. הפרה נפוצה היא קורלציה עצמית בסדרות זמן.
הומוסקדסטיות (Homoscedasticity): שונות השגיאות קבועה לאורך כל טווח הערכים של המשתנים הבלתי תלויים. כלומר, פיזור השאריות אחיד. הטרוסקדסטיות (שונות לא קבועה) היא הפרה נפוצה.
נורמליות השאריות (Normality of Residuals): השאריות מתפלגות באופן נורמלי. הנחה זו חשובה במיוחד עבור בדיקות מובהקות סטטיסטיות ורווחי סמך.
אין מולטיקולינאריות גבוהה (No High Multicollinearity): אין קשר לינארי חזק מדי בין המשתנים הבלתי תלויים לבין עצמם. מולטיקולינאריות גבוהה מקשה על הערכת התרומה הייחודית של כל מנבא.

שאלות לדיון

כיצד פונקציית העלות MSE מסייעת לנו למצוא את המודל הלינארי ה"טוב ביותר"? הסבירו את הקשר בינה לבין ירידת הגרדיאנט.
הסבירו את תפקידו של קצב הלמידה (learning rate) באלגוריתם ירידת הגרדיאנט. מהן ההשלכות של בחירת קצב למידה גבוה מדי או נמוך מדי?
מדוע חשוב לבדוק את הנחות המודל הלינארי לפני פרשנות התוצאות? תנו דוגמה להשלכה של הפרת אחת ההנחות.
מהם ההבדלים העיקריים ביישום ובפרשנות בין רגרסיה לינארית פשוטה לרגרסיה לינארית מרובה?

נקודות לתשובת מודל

MSE וירידת גרדיאנט: MSE מכמתת את השגיאה של המודל. ירידת גרדיאנט היא אלגוריתם אופטימיזציה שמשנה באופן איטרטיבי את פרמטרי המודל (המקדמים) בכיוון שממזער את ה-MSE, עד להתכנסות לסט פרמטרים אופטימלי.
קצב למידה: קצב הלמידה קובע את גודל הצעד בכל איטרציה. קצב גבוה מדי עלול לגרום לאלגוריתם לדלג מעל המינימום או להתבדר; קצב נמוך מדי יוביל להתכנסות איטית מאוד.
חשיבות הנחות המודל: ההנחות מבטיחות את התקפות הסטטיסטית של המודל, אמינות אומדני המקדמים ונכונות הסקות סטטיסטיות (כגון מובהקות). לדוגמה, הפרת הומוסקדסטיות עלולה לגרום לטעויות תקן שגויות ולבדיקות מובהקות לא אמינות.
רגרסיה פשוטה מול מרובה: פשוטה כוללת מנבא יחיד, קלה לייצוג חזותי (קו בדו-ממד), ומשוואתה $y = \theta_0 + \theta_1 x_1$. מרובה כוללת מספר מנבאים, מאפשרת ללכוד קשרים מורכבים יותר, ומשוואתה $y = \theta_0 + \sum \theta_i x_i$. מרובה דורשת לעיתים קרובות סקאלינג למשתנים ושיקולים נוספים כמו מולטיקולינאריות.

Spotted an error or something missing?