מבוא ללמידת מכונה

ברוכים הבאים ליחידת הלימוד על "למידה בלתי מונחית: אשכולות" בקורס "מבוא ללמידת מכונה". ביחידה זו נצלול לעולם מרתק שבו אנו מנסים לגלות מבנים וקבוצות בנתונים ללא תוויות מוגדרות מראש. נלמד על אלגוריתמים מרכזיים כמו K-Means ואשכולות היררכיים, נבין כיצד להעריך את איכות האשכולות שנוצרו, ונדון בשיטות לבחירת מספר האשכולות האופטימלי, נושא קריטי להצלחה מעשית.

מבוא ללמידה בלתי מונחית ואשכולות

למידה בלתי מונחית היא ענף בלמידת מכונה העוסק בניתוח נתונים ללא תוויות מוגדרות מראש. מטרתה העיקרית היא לגלות דפוסים, מבנים או קבוצות חבויות בנתונים. בניגוד ללמידה מונחית, שבה המודל לומד מנתונים מתויגים כדי לבצע חיזוי, בלמידה בלתי מונחית אנו מאפשרים לאלגוריתם לזהות את המבנה הפנימי של הנתונים בעצמו.

למידה בלתי מונחית (Unsupervised Learning): גישה בלמידת מכונה שבה האלגוריתם מקבל נתונים ללא תוויות מוגדרות מראש ומטרתו לגלות מבנים או דפוסים חבויים בנתונים.

אשכולות (Clustering) היא אחת המשימות הנפוצות והחשובות ביותר בלמידה בלתי מונחית. מטרתה היא לקבץ נקודות נתונים דומות לקבוצות, הנקראות אשכולות, כך שנקודות באותו אשכול דומות זו לזו יותר מאשר לנקודות באשכולות אחרים.

אשכולות (Clustering): משימה בלמידה בלתי מונחית של קיבוץ נקודות נתונים דומות לקבוצות (אשכולות) כך שנקודות באותו אשכול דומות זו לזו יותר מאשר לנקודות באשכולות אחרים.

יישומים נפוצים של אשכולות כוללים סגמנטציה של לקוחות, זיהוי אנומליות, דחיסת נתונים, וניתוח תמונות.

אלגוריתמים מרכזיים לאשכולות

אלגוריתם K-Means

אלגוריתם K-Means הוא אחד מאלגוריתמי האשכולות הפופולריים והפשוטים ביותר. הוא פועל בגישה איטרטיבית כדי למצוא K אשכולות, כאשר K הוא פרמטר שחייב להינתן מראש.

פעולה:
1. בוחרים K נקודות התחלתיות אקראיות כמרכזי אשכולות (Centroids).
2. כל נקודת נתונים משויכת לאשכול שמרכזו הקרוב ביותר אליה (לרוב לפי מרחק אוקלידי).
3. מרכזי האשכולות מחושבים מחדש כממוצע של כל הנקודות המשויכות לאותו אשכול.
4. שלבים 2 ו-3 חוזרים על עצמם עד שהמרכזים מתייצבים (אין שינוי משמעותי במיקומם) או עד שמגיעים למספר איטרציות מקסימלי.
יתרונות: מהיר, פשוט ליישום, יעיל לנתונים גדולים.
חסרונות: דורש הגדרה מראש של K, רגיש לבחירת המרכזים ההתחלתיים (יכול להיתקע במינימום לוקאלי), מניח אשכולות כדוריים בגודל דומה.

מרכז אשכול (Centroid): נקודת המרכז של אשכול, לרוב מחושבת כממוצע של כל נקודות הנתונים באותו אשכול.

אשכולות היררכיים (Hierarchical Clustering)

אלגוריתמים היררכיים יוצרים מבנה עץ של אשכולות (דנדרוגרמה) במקום לחלק את הנתונים לקבוצות שטוחות. ישנם שני סוגים עיקריים:

Agglomerative (מלמטה למעלה): מתחילים כשכל נקודת נתונים היא אשכול בפני עצמה, ובכל שלב ממזגים את שני האשכולות הקרובים ביותר עד שכל הנתונים נמצאים באשכול אחד.
Divisive (מלמעלה למטה): מתחילים כשכל הנתונים באשכול אחד, ובכל שלב מפצלים את האשכולות הגדולים ביותר עד שכל נקודה היא אשכול נפרד.
קריטריוני קישור (Linkage Criteria): מגדירים כיצד מחושב המרחק בין אשכולות (לדוגמה: Single Linkage, Complete Linkage, Average Linkage, Ward's Method).
יתרונות: לא דורש הגדרה מראש של K, מספק הבנה ויזואלית של מבנה הנתונים באמצעות דנדרוגרמה, יכול לזהות מבנים מקוננים.
חסרונות: יקר חישובית לנתונים גדולים (מורכבות של O(n^3) או O(n^2)), רגיש לרעש, קשה להתמודד עם טעויות מיזוג או פיצול מוקדמות.

דנדרוגרמה (Dendrogram): תרשים עץ המציג את סדר המיזוגים או הפיצולים של האשכולות בתהליך האשכולות ההיררכי.

K-Means

אלגוריתם מבוסס מרכזים, מהיר ויעיל לנתונים גדולים. דורש הגדרה מראש של K (מספר האשכולות) ורגיש לבחירת המרכזים ההתחלתיים. מתאים לאשכולות כדוריים וברורים.

אשכולות היררכיים

יוצר היררכיה של אשכולות, לא דורש הגדרה מראש של K. מאפשר הבנה ויזואלית טובה יותר של מבנה הנתונים (דנדרוגרמה). יקר חישובית לנתונים גדולים ורגיש לרעש.

הערכה ובחירה של מספר האשכולות

מדדי הערכה לאשכולות

מכיוון שבלמידה בלתי מונחית אין לנו תוויות אמת, הערכת איכות האשכולות היא משימה מאתגרת. אנו משתמשים במדדים פנימיים (Internal Metrics) המבוססים על מבנה הנתונים עצמו.

מדד Silhouette: מודד עד כמה אובייקט דומה לאשכול שלו (לכידות) בהשוואה לאשכולות שכנים (הפרדה).
- ערך קרוב ל-1: האובייקט מתאים היטב לאשכול שלו ומרוחק מאשכולות אחרים.
- ערך קרוב ל-0: האובייקט קרוב לגבול בין שני אשכולות.
- ערך שלילי: האובייקט כנראה שויך לאשכול שגוי.
- ציון Silhouette ממוצע גבוה מצביע על אשכולות טובים יותר.
מדד Davies-Bouldin: מודד את היחס בין פיזור הנקודות בתוך אשכול לפיזור בין אשכולות.
- ערכים נמוכים יותר מצביעים על אשכולות טובים יותר (אשכולות צפופים ומופרדים היטב).

מדד Silhouette: מדד פנימי להערכת איכות אשכולות המודד עד כמה אובייקט דומה לאשכול שלו (לכידות) בהשוואה לאשכולות שכנים (הפרדה). ערכים גבוהים יותר מצביעים על אשכולות טובים יותר.

מדד Davies-Bouldin: מדד פנימי נוסף להערכת איכות אשכולות, המודד את היחס בין פיזור הנקודות בתוך אשכול לפיזור בין אשכולות. ערכים נמוכים יותר מצביעים על אשכולות טובים יותר.

בחירת מספר האשכולות (K)

בחירת מספר האשכולות האופטימלי היא אחת ההחלטות הקריטיות ביותר באשכולות, ואין לה תשובה חד-משמעית. קיימות מספר שיטות היוריסטיות:

שיטת המרפק (Elbow Method):
- מחשבים את סכום ריבועי המרחקים של כל נקודה למרכז האשכול שלה (Inertia או SSE - Sum of Squared Errors) עבור טווח של ערכי K.
- משרטטים גרף של SSE כפונקציה של K.
- מחפשים את הנקודה בגרף שבה הירידה ב-SSE מתחילה להיות פחות חדה, המזכירה "מרפק". נקודה זו נחשבת ל-K האופטימלי.
שימוש במדד Silhouette:
- מחשבים את ציון Silhouette הממוצע עבור טווח של ערכי K.
- בוחרים את ערך K שמניב את הציון הגבוה ביותר.
ידע מתחום הבעיה (Domain Knowledge): לעיתים קרובות, ידע מוקדם על הנתונים או על הבעיה יכול להכתיב או להציע טווח סביר למספר האשכולות.

בחירת מספר האשכולות האופטימלי: זוהי אחת המשימות הקריטיות והמאתגרות ביותר באשכולות בלתי מונחים. בחירה שגויה של K יכולה להוביל למודל חסר משמעות או להחמצת מבנים חשובים בנתונים. הבנה מעמיקה של שיטות כמו Elbow Method ומדד Silhouette, יחד עם שיקולים מתחום הבעיה, חיונית להצלחה.

שיטת המרפק (Elbow Method)

מבוססת על חישוב סכום ריבועי המרחקים בתוך האשכולות (Inertia/SSE) עבור ערכי K שונים. מחפשים את הנקודה שבה הירידה ב-SSE מתחילה להיות פחות חדה, המזכירה "מרפק".

שימוש במדד Silhouette

מחשבים את מדד Silhouette הממוצע עבור ערכי K שונים. בוחרים את ערך K שמניב את הציון הגבוה ביותר, המצביע על אשכולות מוגדרים היטב ומופרדים היטב.

שאלות לדיון

1. מהם היתרונות והחסרונות העיקריים של אלגוריתם K-Means בהשוואה לאשכולות היררכיים? מתי תעדיף להשתמש בכל אחד מהם?
2. הסבר כיצד מדד Silhouette מסייע בהערכת איכות אשכולות. אילו ערכים של המדד מצביעים על אשכולות טובים יותר ומדוע?
3. תאר את שיטת המרפק (Elbow Method) לבחירת מספר האשכולות (K) באלגוריתם K-Means. אילו מגבלות יש לשיטה זו?
4. באיזה אופן ידע מתחום הבעיה (Domain Knowledge) יכול לסייע בבחירת מספר האשכולות ובפרשנות תוצאות האשכולות?

נקודות לתשובת מודל

1. K-Means: יתרונות: מהיר, פשוט, יעיל לנתונים גדולים. חסרונות: דורש K מראש, רגיש למרכזים התחלתיים, מניח אשכולות כדוריים. אשכולות היררכיים: יתרונות: לא דורש K מראש, דנדרוגרמה ויזואלית, לא מניח צורת אשכולות. חסרונות: יקר חישובית, רגיש לרעש. בחירה: K-Means לנתונים גדולים ואשכולות כדוריים; היררכיים כשרוצים לחקור מבנה היררכי או כשאין ידע מוקדם על K.
2. מדד Silhouette: מודד לכידות (עד כמה נקודה קרובה לנקודות באשכול שלה) והפרדה (עד כמה היא רחוקה מנקודות באשכולות אחרים). ערכים: קרוב ל-1: אשכולות מוגדרים היטב. קרוב ל-0: נקודה קרובה לגבול בין אשכולות. שלילי: נקודה שויכה לאשכול שגוי. ערכים גבוהים יותר מצביעים על אשכולות טובים יותר כי הם מראים לכידות גבוהה בתוך האשכולות והפרדה טובה ביניהם.
3. שיטת המרפק: מבוססת על חישוב SSE (סכום ריבועי המרחקים) עבור K שונים. משרטטים גרף SSE מול K ומחפשים את K שבו הירידה ב-SSE מתחילה להיות פחות דרמטית ("המרפק"). מגבלות: לא תמיד יש "מרפק" ברור, הבחירה סובייקטיבית, לא מתאים לכל סוגי הנתונים (למשל, אשכולות לא כדוריים).
4. ידע מתחום הבעיה: יכול להציע טווח סביר ל-K (למשל, מספר סגמנטים צפויים בלקוחות). מסייע לפרש את האשכולות שהתקבלו (למשל, "אשכול 1 מייצג לקוחות צעירים וטכנולוגיים"). יכול לסייע בבחירת מדדי הערכה מתאימים או בבחירת אלגוריתם שמתאים יותר למבנה הנתונים הצפוי.

Spotted an error or something missing?