כריית מידע — מרחב למידה אישי

ברוכים הבאים ליחידת הלימוד בנושא סיווג: שיטות בייסיאניות, חלק מקורס כריית מידע (20595). יחידה זו מתמקדת ביישום עקרונות תורת ההסתברות של בייס למשימות סיווג נתונים. נלמד כיצד להשתמש במשפט בייס כדי לבנות מודלים המסוגלים לחזות את המחלקה של תצפיות חדשות, תוך דגש על מסווג בייס הנאיבי, שהוא אחד האלגוריתמים הפשוטים והיעילים ביותר בתחום. הבנה מעמיקה של עקרונות אלו חיונית הן להצלחה בקורס והן ליישומים מעשיים בכריית מידע.

הבסיס התיאורטי: משפט בייס

הליבה של שיטות הסיווג הבייסיאניות היא משפט בייס. משפט זה מספק דרך לחשב את ההסתברות של השערה (במקרה שלנו, מחלקה) בהינתן ראיות (תכונות של תצפית), על בסיס ההסתברויות הקודמות של ההשערה והראיות.

הנוסחה של משפט בייס היא:

P(C|X) = P(X|C) * P(C) / P(X)

P(C|X) היא ההסתברות הפוסטריורית: ההסתברות שהתצפית X שייכת למחלקה C. זו ההסתברות שאנו רוצים לחשב.
P(X|C) היא פונקציית הנראות (Likelihood): ההסתברות לצפות בתכונות X בהינתן שהתצפית שייכת למחלקה C.
P(C) היא ההסתברות הפריורית (Prior Probability): ההסתברות הכללית שמחלקה C תתרחש, ללא קשר לתכונות X.
P(X) היא ההסתברות הכוללת לצפות בתכונות X. עבור משימות סיווג, P(X) קבועה לכל המחלקות ולכן משמשת כגורם נרמול בלבד. בפועל, אנו משווים את המונה P(X|C) * P(C) עבור כל מחלקה ובוחרים את המחלקה עם הערך הגבוה ביותר.

הסתברות פריורית (P(C))

ההסתברות הראשונית למחלקה, לפני שקלול כל מידע חדש. מחושבת לרוב כשכיחות המחלקה בנתוני האימון.

פונקציית נראות (P(X|C))

ההסתברות לצפות בסט תכונות מסוים, בהינתן שהתצפית שייכת למחלקה ספציפית. מדד עד כמה הנתונים "נראים" סבירים תחת ההשערה של המחלקה.

הסתברות פוסטריורית (P(C|X))

ההסתברות המעודכנת למחלקה, לאחר שקלול הראיות (התכונות X). זו המטרה הסופית של הסיווג הבייסיאני.

מסווג בייס הנאיבי (Naive Bayes Classifier)

מסווג בייס הנאיבי הוא יישום פופולרי של משפט בייס. הוא מבוסס על הנחה חזקה אך מפשטת, המאפשרת לחשב את פונקציית הנראות בצורה יעילה:

הנחת אי-תלות מותנית: הנחה כי התכונות (attributes) של התצפית בלתי תלויות זו בזו בהינתן המחלקה. כלומר, P(X|C) = P(x1|C) * P(x2|C) * ... * P(xn|C), כאשר X = (x1, x2, ..., xn).

הנחת אי-תלות מותנית: זוהי נקודה קריטית ובחינתית! ההנחה שכל התכונות בלתי תלויות זו בזו בהינתן המחלקה היא לרוב לא נכונה במציאות. למרות זאת, מסווג בייס הנאיבי מפגין ביצועים טובים באופן מפתיע במגוון רחב של משימות, ולכן חשוב להבין את משמעות ההנחה, את השפעתה על המודל ואת הסיבות ליעילותו למרות "נאיביותה".

בעקבות הנחה זו, הנוסחה לסיווג הופכת להיות:

P(C|X) = P(C) * P(x1|C) * P(x2|C) * ... * P(xn|C) / P(X)

כדי לסווג תצפית חדשה X, אנו מחשבים את P(C|X) עבור כל מחלקה C אפשרית ובוחרים את המחלקה עם ההסתברות הפוסטריורית הגבוהה ביותר.

יישום ושיקולים מעשיים

אמידת הסתברויות

ההסתברויות P(C) ו-P(xi|C) נאמדות מנתוני האימון באמצעות ספירת שכיחויות:

P(C) = (מספר התצפיות במחלקה C) / (סה"כ תצפיות)
P(xi|C) = (מספר התצפיות במחלקה C שבהן התכונה xi מקבלת ערך מסוים) / (מספר התצפיות במחלקה C)

טיפול בהסתברויות אפס (Zero Probabilities)

אם ערך מסוים של תכונה מעולם לא הופיע במחלקה מסוימת בנתוני האימון, P(xi|C) יהיה אפס. הדבר יגרום לכך שכל המונה P(C) * P(x1|C) * ... יהפוך לאפס, ללא קשר לשאר התכונות, מה שעלול להוביל לסיווג שגוי. פתרון נפוץ לכך הוא החלקת לפלס (Laplace Smoothing):

החלקת לפלס: שיטה לטיפול בהסתברויות אפס על ידי הוספת 1 למונה ולדנומינטור בעת אמידת ההסתברויות. לדוגמה, P(xi|C) = (count(xi, C) + 1) / (count(C) + k), כאשר k הוא מספר הערכים האפשריים לתכונה xi.

טיפול בתכונות רציפות

עבור תכונות רציפות, לא ניתן לספור שכיחויות באופן ישיר. במקרים אלו, מניחים התפלגות מסוימת לתכונה בתוך כל מחלקה (לרוב התפלגות נורמלית/גאוסית). אז P(xi|C) מחושב באמצעות פונקציית צפיפות ההסתברות של ההתפלגות, תוך שימוש בממוצע ובסטיית התקן של התכונה בתוך המחלקה הספציפית.

יתרונות וחסרונות

יתרונות

פשטות ויעילות: קל להבין וליישם, ומהיר מאוד לאימון ולסיווג, גם עם מערכי נתונים גדולים.
ביצועים טובים: למרות ההנחה הנאיבית, מסווג בייס הנאיבי מפגין ביצועים תחרותיים מול אלגוריתמים מורכבים יותר במגוון רחב של בעיות.
דורש מעט נתוני אימון: יכול לעבוד היטב גם עם כמות יחסית קטנה של נתוני אימון.

חסרונות

הנחת אי-תלות חזקה: ההנחה שכל התכונות בלתי תלויות זו בזו בהינתן המחלקה כמעט אף פעם אינה מתקיימת במלואה במציאות, מה שיכול להשפיע על דיוק המודל.
הערכות הסתברות לא מדויקות: למרות שדירוג המחלקות עשוי להיות נכון, ההסתברויות המוחלטות שמסווג בייס הנאיבי מפיק עשויות להיות מוטות.

שאלות לדיון

השאלות הבאות נועדו לבחון את הבנתכם בחומר ולהכין אתכם לשאלות בסגנון בחינה:

הסבירו את משפט בייס ואת תפקידו בסיווג. פרטו את כל המרכיבים בנוסחה והסבירו כיצד כל אחד מהם נאמד מנתוני אימון.
מהי ההנחה המרכזית העומדת בבסיס מסווג בייס הנאיבי? מדוע היא נחשבת "נאיבית", וכיצד היא משפיעה על חישוב ההסתברויות?
תארו מצב שבו החלקת לפלס הופכת להיות הכרחית בבניית מודל בייס נאיבי. הסבירו כיצד היא פותרת את הבעיה.
השוו בין מסווג בייס הנאיבי לבין עץ החלטה (Decision Tree) בהיבטים של פשטות, הנחות יסוד, וטיפול בתכונות רציפות.

נקודות לתשובת מודל

משפט בייס: הגדרה ברורה של P(C|X), P(X|C), P(C), P(X). הסבר כי P(C) נאמד כשכיחות המחלקה, ו-P(X|C) כשכיחות התכונות בתוך המחלקה.
הנחת אי-תלות מותנית: הגדרה מדויקת של ההנחה (P(X|C) = P(x1|C) * ... * P(xn|C)). הסבר שהיא נאיבית כי תכונות רבות תלויות זו בזו. ההשפעה היא פישוט דרמטי של החישובים.
החלקת לפלס: תיאור מקרה בו תכונה מסוימת לא מופיעה במחלקה מסוימת בנתוני האימון, מה שמאפס את ההסתברות. הסבר כיצד הוספת 1 למונה ולדנומינטור מונעת אפס ומאפשרת למודל להכליל.
השוואה לבייס נאיבי ועץ החלטה:
- פשטות: בייס נאיבי פשוט יותר מבחינה קונספטואלית וחישובית. עצי החלטה יכולים להיות מורכבים יותר.
- הנחות יסוד: בייס נאיבי מניח אי-תלות מותנית. עצי החלטה אינם מניחים זאת במפורש, אלא מנסים למצוא חלוקות אופטימליות.
- טיפול בתכונות רציפות: בייס נאיבי דורש הנחת התפלגות (לרוב גאוסית). עצי החלטה מטפלים בהן על ידי מציאת נקודות חיתוך.

מצאתם טעות או שחסר משהו?