מבוא לבינה מלאכותית — מרחב למידה אישי

ברוכים הבאים ליחידת הלימוד "ייצוג ידע בהסתברות" בקורס "מבוא לבינה מלאכותית" (20551). יחידה זו עוסקת באחד האתגרים המרכזיים בבינה מלאכותית: טיפול באי-ודאות. בעולם האמיתי, מידע הוא לעיתים קרובות חלקי, רועש או לא מדויק. במקום להשתמש בלוגיקה דטרמיניסטית, אנו פונים למודלים הסתברותיים המאפשרים לנו לכמת ולנהל אי-ודאות זו, ובכך לבנות מערכות AI חזקות ואמינות יותר. נתמקד במודלים גרפיים הסתברותיים, ובפרט ברשתות בייסיאניות ובמודלים נסתרים של מרקוב, שהם כלים רבי עוצמה להסקה וקבלת החלטות בתנאי אי-ודאות.

רשתות בייסיאניות: המודל הגרפי להסקה

רשתות בייסיאניות הן מודל גרפי קומפקטי ויעיל לייצוג התפלגויות הסתברות משותפות על פני קבוצת משתנים. הן משלבות את היתרונות של ייצוג גרפי אינטואיטיבי עם בסיס מתמטי איתן, ומאפשרות הסקה יעילה.

רשת בייסיאנית (Bayesian Network): מודל גרפי המורכב מגרף מכוון חסר מעגלים (DAG - Directed Acyclic Graph) וטבלאות הסתברות מותנית (CPTs - Conditional Probability Tables). הצמתים בגרף מייצגים משתנים אקראיים, והקשתות מייצגות תלויות סיבתיות או הסתברותיות ישירות בין המשתנים. כל צומת מותנה רק בהוריו בגרף.

מבנה הרשת וייצוג ההסתברויות

גרף מכוון חסר מעגלים (DAG): הקשתות מייצגות קשרים של תלות ישירה. אם קיימת קשת מ-A ל-B, אז A הוא הורה של B, ו-B תלוי ישירות ב-A. היעדר קשת מייצג אי-תלות מותנית.
טבלאות הסתברות מותנית (CPTs): לכל משתנה (צומת) ברשת, קיימת טבלה המפרטת את ההסתברות המותנית שלו בהינתן כל צירוף אפשרויות של ערכי הוריו. למשתנים ללא הורים (צמתי שורש), קיימת טבלת הסתברות א-פריורית.

היתרון המרכזי של רשתות בייסיאניות הוא שהן מאפשרות לייצג התפלגות משותפת מורכבת בצורה קומפקטית, על ידי ניצול אי-תלויות מותנות. ההתפלגות המשותפת של כל המשתנים ניתנת לפי מכפלת ההסתברויות המותנות של כל צומת בהוריו.

הסקה בייסיאנית (Bayesian Inference)

הסקה בייסיאנית היא תהליך חישוב ההסתברות המותנית של משתנה או קבוצת משתנים, בהינתן ראיות (ערכים ידועים) של משתנים אחרים ברשת. המטרה היא לעדכן את אמונותינו לגבי משתנים לא ידועים כאשר אנו מקבלים מידע חדש.

הסקה אבחונית (Diagnostic)

מסיבה לתוצאה: מהי ההסתברות למחלה (סיבה) בהינתן סימפטום (תוצאה)? P(Cause | Effect).

הסקה סיבתית (Causal)

מתוצאה לסיבה: מהי ההסתברות לסימפטום (תוצאה) בהינתן מחלה (סיבה)? P(Effect | Cause).

הסקה בין-סיבתית (Intercausal)

הסבר מתחרה: מהי ההסתברות לסיבה אחת בהינתן תוצאה וסיבה מתחרה? P(Cause1 | Effect, Cause2).

הסקה ברשתות בייסיאניות היא בעיה NP-קשה באופן כללי, אך קיימים אלגוריתמים יעילים עבור מבנים מסוימים (כמו עצים) ושיטות קירוב (כמו דגימת מונטה קרלו) עבור רשתות מורכבות.

D-separation: זיהוי תלויות ואי-תלויות

D-separation (Directed Separation) הוא קריטריון גרפי המאפשר לקבוע האם קבוצת משתנים אחת בלתי תלויה מותנית בקבוצת משתנים אחרת, בהינתן קבוצה שלישית של משתנים. הבנה עמוקה של D-separation חיונית לבניית רשתות בייסיאניות נכונות ולהבנת פעולת ההסקה.

D-separation: קריטריון לקביעת אי-תלות מותנית בין קבוצות משתנים ברשת בייסיאנית. שני צמתים A ו-B הם D-separated על ידי קבוצת צמתים Z אם כל מסלול בין A ל-B חסום (blocked) על ידי Z.

כללי חסימת מסלולים

מסלול בין A ל-B נחסם על ידי קבוצת ראיות Z אם מתקיים אחד מהבאים:

שרשרת (Serial Connection): A → C → B או A ← C ← B. אם C נמצא ב-Z, המסלול חסום. (C הוא ראיה).
מזלג (Diverging Connection): A ← C → B. אם C נמצא ב-Z, המסלול חסום. (C הוא ראיה).
מפגש (Converging Connection / Collider): A → C ← B. אם C אינו נמצא ב-Z, וגם אף אחד מצאצאיו של C אינו נמצא ב-Z, המסלול חסום. אם C או אחד מצאצאיו נמצא ב-Z, המסלול אינו חסום (הראיה "פותחת" את המסלול).

D-separation: נושא זה הוא קריטי לבחינה! שאלות רבות בבחינה דורשות לזהות אי-תלויות מותנות באמצעות D-separation. עליכם להיות מסוגלים לשרטט רשתות, לזהות מסלולים, וליישם את כללי החסימה בצורה מדויקת. טעות נפוצה היא בטיפול בצמתי מפגש (colliders) – זכרו שראיה ב-C או בצאצאיו דווקא פותחת את המסלול, בניגוד למקרים של שרשרת ומזלג.

מודלים נסתרים של מרקוב (HMM): ייצוג תהליכים דינמיים

בעוד שרשתות בייסיאניות סטטיות מתארות מצב בזמן נתון, מודלים נסתרים של מרקוב (HMM) הם הרחבה המאפשרת למדל תהליכים דינמיים שבהם המצב הפנימי של המערכת אינו נצפה ישירות, אלא רק באמצעות תצפיות.

מודל נסתר של מרקוב (Hidden Markov Model - HMM): מודל סטוכסטי המשמש למדל סדרות של תצפיות. הוא מניח קיומם של מצבים פנימיים (נסתרים) העוברים שינוי לאורך זמן לפי תהליך מרקוב, ושלכל מצב יש התפלגות הסתברותית של תצפיות אפשריות.

מרכיבי ה-HMM

מצבים נסתרים (Hidden States): קבוצה סופית של מצבים שהמודל יכול להיות בהם. המצבים אינם נצפים ישירות.
תצפיות (Observations): קבוצה סופית של תצפיות אפשריות. אלו הנתונים שאנו רואים בפועל.
הסתברויות מעבר (Transition Probabilities): ההסתברות לעבור ממצב נסתר אחד למצב נסתר אחר בזמן t+1, בהינתן המצב בזמן t. (תכונת מרקוב: העתיד תלוי רק בהווה, לא בעבר).
הסתברויות פליטה/תצפית (Emission/Observation Probabilities): ההסתברות לצפות בתצפית מסוימת בהינתן שהמודל נמצא במצב נסתר מסוים.
התפלגות מצב התחלתית (Initial State Distribution): ההסתברות להיות בכל אחד מהמצבים הנסתרים בזמן t=0.

HMMs נמצאים בשימוש נרחב בתחומים כמו זיהוי דיבור, זיהוי כתב יד, ביו-אינפורמטיקה (ניתוח רצפי DNA/חלבונים) וניתוח סדרות זמן.

שאלות לדיון

הסבירו מדוע טיפול באי-ודאות הוא הכרחי במערכות בינה מלאכותית, ותנו דוגמה לתרחיש שבו מודל דטרמיניסטי יכשל בעוד מודל הסתברותי יצליח.
ציירו רשת בייסיאנית המייצגת את הקשרים הבאים: "גשם" משפיע על "כביש רטוב", "כביש רטוב" משפיע על "תאונה", וגם "נהיגה מסוכנת" משפיעה על "תאונה". האם "גשם" ו"נהיגה מסוכנת" תלויים מותנית בהינתן "תאונה"? נמקו באמצעות D-separation.
מהם ההבדלים העיקריים בין רשת בייסיאנית סטטית לבין מודל נסתר של מרקוב? מתי נבחר להשתמש בכל אחד מהם?
תארו את שלושת הבעיות המרכזיות הנפתרות באמצעות HMMs (הערכה/Evaluation, פענוח/Decoding, למידה/Learning) ותנו דוגמה קצרה לכל אחת.

נקודות לתשובת מודל

לשאלה: "ציירו רשת בייסיאנית המייצגת את הקשרים הבאים: 'גשם' משפיע על 'כביש רטוב', 'כביש רטוב' משפיע על 'תאונה', וגם 'נהיגה מסוכנת' משפיעה על 'תאונה'. האם 'גשם' ו'נהיגה מסוכנת' תלויים מותנית בהינתן 'תאונה'? נמקו באמצעות D-separation."

שרטוט הרשת:
- צמתים: גשם (G), כביש רטוב (W), נהיגה מסוכנת (D), תאונה (A).
- קשתות: G → W, W → A, D → A.
זיהוי המסלולים בין G ל-D:
- המסלול היחיד בין G ל-D הוא G → W → A ← D.
יישום D-separation בהינתן A:
- הצומת A הוא צומת מפגש (collider) במסלול G → W → A ← D.
- כאשר צומת מפגש (A) נמצא בקבוצת הראיות (Z = {A}), המסלול דרך צומת המפגש נפתח.
- לכן, המסלול G → W → A ← D אינו חסום על ידי A.
מסקנה: "גשם" ו"נהיגה מסוכנת" תלויים מותנית בהינתן "תאונה". כלומר, ידיעה על תאונה גורמת לנו לעדכן את ההסתברות לגשם אם אנו יודעים על נהיגה מסוכנת (או להיפך), מכיוון ששניהם יכולים להיות הסבר לתאונה (הסקה בין-סיבתית).

מצאתם טעות או שחסר משהו?