מבוא ללמידת מכונה

ברוכים הבאים ליחידת הלימוד הראשונה בקורס "מבוא ללמידת מכונה"! יחידה זו נועדה להכיר לכם את עולם למידת המכונה, את סוגיה השונים ואת מונחי היסוד החיוניים להבנת התחום. נצלול אל הרעיונות המרכזיים המניעים את המהפכה הטכנולוגית הזו, נבחין בין פרדיגמות הלמידה השונות ונבין כיצד הן משמשות לפתרון בעיות מגוונות בעולם האמיתי. הבנה יסודית של מושגים אלו היא קריטית להצלחה בקורס ובהמשך דרככם בתחום.

מהי למידת מכונה?

למידת מכונה (Machine Learning - ML) היא תת-תחום של בינה מלאכותית העוסק בפיתוח אלגוריתמים המאפשרים למחשבים "ללמוד" מנתונים, ללא תכנות מפורש עבור כל משימה. במקום לתת למחשב סט כללים קשיח לביצוע משימה, אנו מספקים לו כמות גדולה של נתונים, והוא לומד לזהות דפוסים, לקבל החלטות או לבצע תחזיות באופן עצמאי. המטרה העיקרית היא לאפשר למערכות לשפר את ביצועיהן לאורך זמן ככל שהן נחשפות ליותר נתונים.

מונחי יסוד בעולם למידת המכונה

הבנת המונחים הבאים היא אבן יסוד לכל מי שמתחיל את דרכו בלמידת מכונה:

תכונה (Feature): מאפיין או משתנה בודד של אובייקט או אירוע במערך הנתונים. לדוגמה, עבור בית, תכונות יכולות להיות גודל, מספר חדרים, מיקום.

תווית (Label): התוצאה או הערך שאותו אנו מנסים לחזות. לדוגמה, עבור בית, התווית יכולה להיות מחירו. בלמידה מונחית, התווית ידועה עבור נתוני האימון.

מודל (Model): הייצוג המתמטי או האלגוריתמי של הקשר בין התכונות לתווית. המודל הוא התוצר של תהליך האימון, והוא משמש לביצוע חיזויים על נתונים חדשים.

מערך נתונים (Dataset): אוסף הנתונים הכולל את התכונות והתוויות (אם קיימות) המשמשות לאימון ובדיקת המודל.

אימון (Training): תהליך שבו אלגוריתם למידת מכונה מעבד את מערך הנתונים כדי ללמוד את הדפוסים וליצור מודל.

חיזוי (Prediction): התוצאה שהמודל מפיק עבור קלט נתונים חדש, לאחר שתהליך האימון הושלם.

פרדיגמות למידה עיקריות וסוגי בעיות

למידת מכונה מתחלקת לשלוש פרדיגמות עיקריות, כל אחת מתאימה לסוגים שונים של בעיות ונתונים:

למידה מונחית (Supervised Learning)

בפרדיגמה זו, האלגוריתם לומד ממערך נתונים "מתויג" (labeled data), כלומר, נתונים שבהם גם התכונות וגם התוויות (התשובות הנכונות) ידועות. המטרה היא ללמוד מיפוי מהתכונות לתווית, כך שניתן יהיה לחזות את התווית עבור נתונים חדשים ולא מתויגים. דוגמאות: זיהוי ספאם, חיזוי מחירי דירות.

למידה בלתי מונחית (Unsupervised Learning)

כאן, האלגוריתם מקבל מערך נתונים "לא מתויג" (unlabeled data), כלומר, רק התכונות ידועות ואין תוויות. המטרה היא לגלות דפוסים נסתרים, מבנים או קבוצות בתוך הנתונים. דוגמאות: פילוח לקוחות, זיהוי אנומליות, דחיסת נתונים.

למידת חיזוק (Reinforcement Learning)

בפרדיגמה זו, סוכן (agent) לומד כיצד לפעול בסביבה דינמית כדי למקסם תגמול (reward) לאורך זמן. הסוכן מבצע פעולות, מקבל משוב מהסביבה בצורת תגמול חיובי או שלילי, ומשפר את אסטרטגיית הפעולה שלו. אין מערך נתונים קבוע, אלא למידה מתרחשת באמצעות ניסוי וטעייה. דוגמאות: משחקי מחשב (שחמט, גו), רובוטיקה, נהיגה אוטונומית.

סוגי בעיות בלמידה מונחית

במסגרת למידה מונחית, אנו מבחינים בין שני סוגי בעיות עיקריים:

סיווג (Classification): המטרה היא לחזות תווית בדידה (קטגורית) מתוך קבוצה סופית של אפשרויות. לדוגמה: האם תמונה מכילה חתול או כלב? האם מייל הוא ספאם או לא ספאם?

רגרסיה (Regression): המטרה היא לחזות תווית רציפה (מספרית). לדוגמה: מה יהיה מחיר הבית? מה תהיה הטמפרטורה מחר?

סוגי בעיות בלמידה בלתי מונחית

הבעיה הנפוצה ביותר בלמידה בלתי מונחית היא:

אשכול (Clustering): המטרה היא לקבץ נקודות נתונים דומות יחד לאשכולות (clusters), כאשר נקודות באותו אשכול דומות זו לזו יותר מאשר לנקודות באשכולות אחרים. לדוגמה: פילוח לקוחות לקבוצות בעלות העדפות דומות, זיהוי קהילות ברשתות חברתיות.

נקודה למבחן: הבחנה בין סוגי הלמידה וסוגי הבעיות: הבנה מעמיקה של ההבדלים בין למידה מונחית, בלתי מונחית ולמידת חיזוק, וכן היכולת לזהות האם בעיה נתונה היא בעיית סיווג, רגרסיה או אשכול, היא קריטית. שאלות מבחן רבות מציגות תרחיש ומבקשות מכם לזהות את סוג הלמידה וסוג הבעיה המתאימים, ולהסביר מדוע. שימו לב במיוחד להבדל בין תוויות בדידות (סיווג) לתוויות רציפות (רגרסיה), ולקיום/היעדר תוויות בנתוני האימון.

שאלות לדיון

תארו מצב יומיומי שבו אתם נתקלים ביישום של למידת מכונה. האם מדובר בלמידה מונחית, בלתי מונחית או למידת חיזוק? נמקו.
מה ההבדל העיקרי בין בעיית סיווג לבעיית רגרסיה? תנו דוגמה לכל אחת מהן שאינה מוזכרת בשיעור.
מדוע לא ניתן להשתמש באלגוריתם של למידה מונחית כדי לפתור בעיית אשכול? מה חסר לנו במקרה זה?

נקודות לתשובת מודל

לגבי יישום יומיומי: יש לזהות את סוג התוצאה (קטגורית/מספרית/פעולה), האם קיימות תוויות בנתוני האימון, ומהי מטרת המערכת. לדוגמה, המלצות בנטפליקס הן לרוב למידה מונחית (חיזוי דירוג סרט), אך יכולות לכלול גם אשכול (קיבוץ משתמשים דומים).
לגבי סיווג מול רגרסיה: סיווג חוזה ערך בדיד (למשל, "כן/לא", "חתול/כלב"), בעוד רגרסיה חוזה ערך רציף (למשל, "טמפרטורה", "מחיר"). דוגמאות: סיווג - זיהוי האם תמונה מכילה פנים; רגרסיה - חיזוי צריכת חשמל של בניין.
לגבי אשכול ולמידה מונחית: למידה מונחית דורשת תוויות בנתוני האימון כדי ללמוד את המיפוי בין תכונות לתווית. בבעיית אשכול, אין לנו תוויות כאלה; המטרה היא דווקא לגלות את המבנה הנסתר בנתונים וליצור את הקבוצות (האשכולות) בעצמנו. לכן, אלגוריתם מונחה לא ידע מה "ללמוד" לחזות.

Spotted an error or something missing?