ברוכים הבאים ליחידת הלימוד הראשונה בקורס "מבוא ללמידת מכונה"! יחידה זו נועדה להכיר לכם את עולם למידת המכונה, את סוגיה השונים ואת מונחי היסוד החיוניים להבנת התחום. נצלול אל הרעיונות המרכזיים המניעים את המהפכה הטכנולוגית הזו, נבחין בין פרדיגמות הלמידה השונות ונבין כיצד הן משמשות לפתרון בעיות מגוונות בעולם האמיתי. הבנה יסודית של מושגים אלו היא קריטית להצלחה בקורס ובהמשך דרככם בתחום.
מהי למידת מכונה?
למידת מכונה (Machine Learning - ML) היא תת-תחום של בינה מלאכותית העוסק בפיתוח אלגוריתמים המאפשרים למחשבים "ללמוד" מנתונים, ללא תכנות מפורש עבור כל משימה. במקום לתת למחשב סט כללים קשיח לביצוע משימה, אנו מספקים לו כמות גדולה של נתונים, והוא לומד לזהות דפוסים, לקבל החלטות או לבצע תחזיות באופן עצמאי. המטרה העיקרית היא לאפשר למערכות לשפר את ביצועיהן לאורך זמן ככל שהן נחשפות ליותר נתונים.
מונחי יסוד בעולם למידת המכונה
הבנת המונחים הבאים היא אבן יסוד לכל מי שמתחיל את דרכו בלמידת מכונה:
פרדיגמות למידה עיקריות וסוגי בעיות
למידת מכונה מתחלקת לשלוש פרדיגמות עיקריות, כל אחת מתאימה לסוגים שונים של בעיות ונתונים:
למידה מונחית (Supervised Learning)
בפרדיגמה זו, האלגוריתם לומד ממערך נתונים "מתויג" (labeled data), כלומר, נתונים שבהם גם התכונות וגם התוויות (התשובות הנכונות) ידועות. המטרה היא ללמוד מיפוי מהתכונות לתווית, כך שניתן יהיה לחזות את התווית עבור נתונים חדשים ולא מתויגים. דוגמאות: זיהוי ספאם, חיזוי מחירי דירות.
למידה בלתי מונחית (Unsupervised Learning)
כאן, האלגוריתם מקבל מערך נתונים "לא מתויג" (unlabeled data), כלומר, רק התכונות ידועות ואין תוויות. המטרה היא לגלות דפוסים נסתרים, מבנים או קבוצות בתוך הנתונים. דוגמאות: פילוח לקוחות, זיהוי אנומליות, דחיסת נתונים.
למידת חיזוק (Reinforcement Learning)
בפרדיגמה זו, סוכן (agent) לומד כיצד לפעול בסביבה דינמית כדי למקסם תגמול (reward) לאורך זמן. הסוכן מבצע פעולות, מקבל משוב מהסביבה בצורת תגמול חיובי או שלילי, ומשפר את אסטרטגיית הפעולה שלו. אין מערך נתונים קבוע, אלא למידה מתרחשת באמצעות ניסוי וטעייה. דוגמאות: משחקי מחשב (שחמט, גו), רובוטיקה, נהיגה אוטונומית.
סוגי בעיות בלמידה מונחית
במסגרת למידה מונחית, אנו מבחינים בין שני סוגי בעיות עיקריים:
סוגי בעיות בלמידה בלתי מונחית
הבעיה הנפוצה ביותר בלמידה בלתי מונחית היא:
שאלות לדיון
- תארו מצב יומיומי שבו אתם נתקלים ביישום של למידת מכונה. האם מדובר בלמידה מונחית, בלתי מונחית או למידת חיזוק? נמקו.
- מה ההבדל העיקרי בין בעיית סיווג לבעיית רגרסיה? תנו דוגמה לכל אחת מהן שאינה מוזכרת בשיעור.
- מדוע לא ניתן להשתמש באלגוריתם של למידה מונחית כדי לפתור בעיית אשכול? מה חסר לנו במקרה זה?
נקודות לתשובת מודל
- לגבי יישום יומיומי: יש לזהות את סוג התוצאה (קטגורית/מספרית/פעולה), האם קיימות תוויות בנתוני האימון, ומהי מטרת המערכת. לדוגמה, המלצות בנטפליקס הן לרוב למידה מונחית (חיזוי דירוג סרט), אך יכולות לכלול גם אשכול (קיבוץ משתמשים דומים).
- לגבי סיווג מול רגרסיה: סיווג חוזה ערך בדיד (למשל, "כן/לא", "חתול/כלב"), בעוד רגרסיה חוזה ערך רציף (למשל, "טמפרטורה", "מחיר"). דוגמאות: סיווג - זיהוי האם תמונה מכילה פנים; רגרסיה - חיזוי צריכת חשמל של בניין.
- לגבי אשכול ולמידה מונחית: למידה מונחית דורשת תוויות בנתוני האימון כדי ללמוד את המיפוי בין תכונות לתווית. בבעיית אשכול, אין לנו תוויות כאלה; המטרה היא דווקא לגלות את המבנה הנסתר בנתונים וליצור את הקבוצות (האשכולות) בעצמנו. לכן, אלגוריתם מונחה לא ידע מה "ללמוד" לחזות.