מבוא ללמידת מכונה

ברוכים הבאים ליחידת הלימוד בנושא הפחתת מימד, חלק בלתי נפרד מתחום הלמידה הבלתי מונחית. בעידן הנתונים הגדולים, אנו נתקלים לעיתים קרובות במערכי נתונים עם מספר עצום של מאפיינים (פיצ'רים). יחידה זו תחקור מדוע הפחתת מימד חיונית, כיצד היא מאפשרת לנו להתמודד עם אתגרי הנתונים הללו, ותתמקד בשתי טכניקות מרכזיות: ניתוח רכיבים עיקריים (PCA) ו-t-SNE. הבנת עקרונות אלו ויישומיהם קריטית להצלחה בקורס ובפרקטיקה.

מטרות הפחתת מימד

הפחתת מימד היא תהליך של צמצום מספר המאפיינים (משתנים) במערך נתונים, תוך שמירה על כמה שיותר מידע חיוני. היא משרתת מספר מטרות קריטיות בלמידת מכונה:

התמודדות עם קללת המימד: כאשר מספר המאפיינים גדל, נפח מרחב הנתונים גדל אקספוננציאלית, מה שהופך את הנתונים לדלילים מאוד ומקשה על אלגוריתמים למצוא דפוסים משמעותיים.
שיפור ביצועי מודל: פחות מאפיינים יכולים להוביל למודלים פשוטים יותר, מהירים יותר לאימון, ופחות נוטים להתאמת יתר (Overfitting), במיוחד כאשר יש רעש או קורלציה גבוהה בין מאפיינים.
הפחתת רעש: מאפיינים רבים יכולים להכיל רעש שאינו תורם למידע החיוני, והפחתת מימד יכולה לסייע בהסרתו.
ויזואליזציה: קשה לדמיין נתונים ביותר משלושה מימדים. הפחתת מימד לשניים או שלושה מימדים מאפשרת הדמיה וזיהוי דפוסים, אשכולות או חריגים.
חיסכון במשאבי חישוב ואחסון: פחות נתונים דורשים פחות זיכרון וזמן עיבוד.

קללת המימד (Curse of Dimensionality): תופעה שבה ביצועי אלגוריתמים של למידת מכונה נפגעים באופן דרמטי ככל שמספר המאפיינים (מימדים) במערך הנתונים גדל, עקב דלילות הנתונים במרחב העצום.

ניתוח רכיבים עיקריים (PCA)

PCA הוא האלגוריתם הנפוץ והבסיסי ביותר להפחתת מימד לינארית. מטרתו היא למצוא סט חדש של מאפיינים (רכיבים עיקריים) שהם צירופים לינאריים של המאפיינים המקוריים, כך שהם לוכדים את השונות המקסימלית בנתונים.

כיצד PCA עובד (במושגים):

מציאת כיווני השונות המקסימלית: PCA מזהה את הכיוונים (וקטורים) במרחב הנתונים שבהם קיימת השונות הגדולה ביותר. הכיוון הראשון הוא הרכיב העיקרי הראשון (PC1), השני הוא הרכיב העיקרי השני (PC2) וכן הלאה, כאשר כל רכיב אורתוגונלי (ניצב) לקודמיו.
הטלה (Projection): הנתונים המקוריים מוטלים על הרכיבים העיקריים שנבחרו. אם נבחר k רכיבים עיקריים, הנתונים מופחתים מ-d מימדים ל-k מימדים.
שונות מוסברת: כל רכיב עיקרי "מכסה" אחוז מסוים מהשונות הכוללת בנתונים. אנו בוחרים את מספר הרכיבים העיקריים הדרוש כדי להסביר אחוז גבוה מספיק מהשונות (למשל, 95%).

רכיבים עיקריים (Principal Components): כיוונים אורתוגונליים במרחב הנתונים המייצגים את כיווני השונות המקסימלית, ומשמשים כבסיס חדש להטלת הנתונים המקוריים.

שונות מוסברת (Explained Variance): מדד לאחוז השונות הכוללת בנתונים המקוריים ש"נלכדת" על ידי קבוצה נתונה של רכיבים עיקריים.

חשיבות בחירת מספר הרכיבים ב-PCA: בחירת מספר הרכיבים העיקריים היא החלטה קריטית המשפיעה על האיזון בין הפחתת מימד לשימור מידע. בחירה נמוכה מדי עלולה לגרום לאובדן מידע חיוני, בעוד שבחירה גבוהה מדי עלולה להחמיץ את מטרת הפחתת המימד. לרוב, משתמשים בגרף "אבן סחף" (Scree Plot) או בוחרים מספר רכיבים המכסים אחוז שונות מוסברת מסוים (לדוגמה, 95%).

t-SNE (t-distributed Stochastic Neighbor Embedding)

t-SNE היא טכניקת הפחתת מימד לא לינארית, המצטיינת בהדמיית מערכי נתונים מרובי מימדים על ידי שימור המבנה המקומי של הנתונים. היא אינה מיועדת להפחתת מימד לצורך אימון מודלים, אלא בעיקר לצורך ויזואליזציה.

כיצד t-SNE עובד (במושגים):

שימור מרחקים מקומיים: t-SNE בונה התפלגות הסתברותית על זוגות נקודות במרחב המקורי, המשקפת את הסבירות שנקודות קרובות זו לזו. היא עושה זאת גם במרחב המופחת.
מזעור פערים: האלגוריתם מנסה למזער את ההבדל (באמצעות דיברגנץ קולבק-לייבלר - KL Divergence) בין התפלגויות ההסתברות בשני המרחבים, כך שנקודות שהיו קרובות במרחב המקורי יישארו קרובות במרחב המופחת, ונקודות רחוקות יישארו רחוקות.
התמקדות במבנה מקומי: בניגוד ל-PCA, t-SNE מתמקד בשימור המבנה המקומי של הנתונים (כלומר, מי השכנים הקרובים של כל נקודה), מה שמאפשר לה לחשוף אשכולות ומבנים מורכבים בנתונים.

t-SNE (t-distributed Stochastic Neighbor Embedding): אלגוריתם הפחתת מימד לא לינארי המשמש בעיקר לוויזואליזציה של נתונים מרובי מימדים, על ידי שימור המבנה המקומי של הנתונים.

השוואה ויישומים

בחירת טכניקת הפחתת המימד תלויה במטרת הניתוח ובאופי הנתונים.

PCA

יתרונות: לינארי, מהיר, ניתן לפירוש (הבנת תרומת המאפיינים המקוריים), שומר על השונות הגלובלית. מתאים להפחתת רעש ולשימוש כקדם-עיבוד למודלים.

חסרונות: מניח קשרים לינאריים, עלול לאבד מבנים לא לינאריים מורכבים. רגיש לקנה מידה של הנתונים.

מתי להשתמש: כאשר המטרה היא הפחתת מימד כללית, דחיסת נתונים, או כאשר המבנה הלינארי מספק. כקדם-עיבוד לאלגוריתמי למידה מונחית.

t-SNE

יתרונות: לא לינארי, מצוין לוויזואליזציה של אשכולות ומבנים מורכבים, שומר על המבנה המקומי של הנתונים.

חסרונות: איטי מאוד עבור מערכי נתונים גדולים, לא דטרמיניסטי (תוצאות יכולות להשתנות מעט בין הרצות), לא מיועד להפחתת מימד כקדם-עיבוד למודלים, קשה לפרש את המרחקים הגלובליים בגרף.

מתי להשתמש: כאשר המטרה העיקרית היא להבין את המבנה הפנימי של הנתונים ולזהות אשכולות לוויזואליזציה.

יישומים נפוצים של הפחתת מימד:

עיבוד תמונה: הפחתת מימד של תמונות כדי להפחית רעש או לדחוס אותן.
עיבוד שפה טבעית (NLP): הפחתת מימד של ייצוגי מילים (Word Embeddings) לוויזואליזציה או לשיפור ביצועי מודלים.
ביואינפורמטיקה: ניתוח נתונים גנומיים או ביטוי גנים מרובי מימדים.
זיהוי אנומליות: הקלה על זיהוי חריגים במרחב מימדים נמוך יותר.
מערכות המלצה: הפחתת מימד של מטריצות דירוג משתמש-פריט.

שאלות לדיון

מדוע הפחתת מימד נחשבת לכלי חיוני בלמידת מכונה מודרנית, ובאילו אתגרים היא מסייעת להתמודד?
השווה והצג את ההבדלים העיקריים בין PCA ל-t-SNE, תוך התייחסות למטרותיהם, אופן פעולתם, ומתי כדאי להשתמש בכל אחד מהם.
מהם הסיכונים הפוטנציאליים ביישום הפחתת מימד ללא שיקול דעת, וכיצד ניתן למזער אותם?
תאר תרחיש בעולם האמיתי שבו הפחתת מימד תהיה מועילה. הסבר איזו טכניקה (PCA או t-SNE) היית בוחר ולמה.

נקודות לתשובת מודל

על חיוניות הפחתת מימד: התייחסות לקללת המימד, שיפור ביצועי מודל (הפחתת Overfitting, מהירות אימון), ויזואליזציה, הפחתת רעש, חיסכון במשאבים.
השוואת PCA ו-t-SNE:
- PCA: לינארי, שומר על שונות גלובלית, מהיר, ניתן לפירוש, מתאים לקדם-עיבוד. חסרונות: מניח לינאריות, רגיש לקנה מידה.
- t-SNE: לא לינארי, שומר על מבנה מקומי, מצוין לוויזואליזציה של אשכולות. חסרונות: איטי, לא דטרמיניסטי, קשה לפרש מרחקים גלובליים, לא מתאים לקדם-עיבוד למודלים.
- מתי להשתמש: PCA לדחיסה וקדם-עיבוד, t-SNE לוויזואליזציה והבנת מבנה נתונים.
סיכונים ביישום הפחתת מימד: אובדן מידע קריטי, עיוות מבנה הנתונים (במיוחד בבחירה לא נכונה של אלגוריתם או פרמטרים), פרשנות שגויה של הנתונים המופחתים. מזעור: הבנה מעמיקה של האלגוריתם, ניסוי ובחירת מספר רכיבים אופטימלי (למשל, באמצעות שונות מוסברת ב-PCA), שימוש בטכניקות ויזואליזציה ובדיקות איכות.
תרחיש יישום: דוגמה: ניתוח נתוני ביטוי גנים (אלפי גנים) במחקר רפואי.
- בחירה: אם המטרה היא להפחית רעש ולשפר את ביצועי מודל חיזוי (למשל, סיווג סוגי מחלה), PCA עשוי להיות עדיף. אם המטרה היא לזהות אשכולות של חולים או גנים עם דפוסי ביטוי דומים לוויזואליזציה, t-SNE יהיה יעיל יותר.
- הסבר: PCA ימצא את הגנים המשפיעים ביותר על השונות הכללית, בעוד t-SNE יחשוף קבוצות גנים או חולים עם פרופילים דומים.

Spotted an error or something missing?