ברוכים הבאים ליחידה "ניתוח סטטיסטי בסיסי" בקורס "תכנות וניתוח נתונים בשפת פייתון". ביחידה זו נצלול לעולם הסטטיסטיקה התיאורית, כלי חיוני להבנת מערכי נתונים גדולים ומורכבים. נלמד כיצד לסכם, לתאר ולהפיק תובנות ראשוניות מנתונים באמצעות מדדים סטטיסטיים מרכזיים, תוך שימת דגש על הבנת המשמעות שלהם וכיצד הם משמשים אותנו בפרקטיקה של ניתוח נתונים בפייתון. הבנה עמוקה של מושגים אלו היא קריטית לא רק לפתרון בעיות תכנותיות, אלא גם לקבלת החלטות מבוססות נתונים.
מבוא לסטטיסטיקה תיאורית
סטטיסטיקה תיאורית היא ענף בסטטיסטיקה העוסק בסיכום, ארגון ותיאור מאפיינים מרכזיים של קבוצת נתונים. מטרתה העיקרית היא להציג את הנתונים בצורה ברורה ותמציתית, כך שניתן יהיה להבין את התפלגותם, את מיקומם המרכזי ואת מידת הפיזור שלהם, ללא צורך בניתוח מעמיק יותר או הסקת מסקנות על אוכלוסייה רחבה יותר.
מדדי מרכז ופיזור: הלב של תיאור הנתונים
כדי לתאר מערך נתונים, אנו משתמשים בשתי קבוצות עיקריות של מדדים: מדדי מרכז, המצביעים על הערך הטיפוסי או המרכזי של הנתונים, ומדדי פיזור, המצביעים על מידת הפיזור או השונות של הנתונים סביב המרכז.
מדדי מרכז
ממוצע (Mean)
סכום כל הערכים חלקי מספר הערכים. רגיש לערכים חריגים (Outliers).
חציון (Median)
הערך האמצעי במערך נתונים מסודר. פחות רגיש לערכים חריגים ולכן מועדף בהתפלגויות מוטות.
שכיח (Mode)
הערך המופיע במספר הפעמים הרב ביותר במערך הנתונים. שימושי גם עבור נתונים קטגוריאליים.
מדדי פיזור
שונות (Variance)
מדד לפיזור הנתונים סביב הממוצע. מחושבת כממוצע ריבועי ההפרשים בין כל תצפית לממוצע. יחידות המידה שלה הן ריבוע יחידות הנתונים המקוריות.
סטיית תקן (Standard Deviation)
שורש השונות. מדד הפיזור הנפוץ ביותר, בעל אותן יחידות מידה כמו הנתונים המקוריים, מה שמקל על הפרשנות.
התפלגויות נתונים ומתאם בסיסי
הבנת צורת התפלגות הנתונים היא צעד חשוב בניתוח סטטיסטי. בנוסף, לעיתים קרובות אנו מעוניינים לבדוק האם קיים קשר בין שני משתנים.
התפלגויות נתונים
התפלגות נתונים מתארת את האופן שבו הערכים במערך נתונים מתפזרים על פני טווח הערכים האפשריים. התפלגויות נפוצות כוללות את ההתפלגות הנורמלית (פעמון), התפלגויות מוטות (ימינה או שמאלה) ועוד.
מתאם בסיסי (Correlation)
מתאם מודד את החוזק והכיוון של קשר ליניארי בין שני משתנים כמותיים. מקדם המתאם (לרוב פירסון) נע בין -1 ל-1.
- מתאם חיובי (קרוב ל-1): כאשר ערך של משתנה אחד עולה, גם ערך המשתנה השני נוטה לעלות.
- מתאם שלילי (קרוב ל-1-): כאשר ערך של משתנה אחד עולה, ערך המשתנה השני נוטה לרדת.
- מתאם אפס (קרוב ל-0): אין קשר ליניארי מובהק בין המשתנים. חשוב לזכור ש"מתאם אינו סיבתיות"!
שאלות לדיון
- נתון לכם מערך נתונים המייצג את מחירי הדירות בעיר מסוימת, הכולל מספר קטן של דירות יוקרה במחירים גבוהים במיוחד. איזה מדד מרכז (ממוצע, חציון, שכיח) הייתם בוחרים כדי לייצג בצורה הטובה ביותר את "המחיר הטיפוסי" של דירה בעיר, ומדוע?
- הסבירו את ההבדל בין שונות לסטיית תקן, ומדוע סטיית התקן נחשבת לעיתים קרובות למדד פיזור נוח יותר לפרשנות.
- מה המשמעות של מקדם מתאם פירסון של 0.85 בין ציוני תלמידים במתמטיקה ובפיזיקה? האם מתאם זה מעיד בהכרח על כך שלימוד מתמטיקה גורם לשיפור בפיזיקה? נמקו.
- כיצד הייתם משתמשים בספריות פייתון (כגון Pandas או NumPy) כדי לחשב את המדדים הסטטיסטיים שנדונו לעיל עבור מערך נתונים נתון?
נקודות לתשובת מודל
- לגבי מחירי דירות: יש לבחור בחציון. הממוצע יושפע באופן ניכר ממחירי דירות היוקרה הגבוהים וימשוך את הממוצע כלפי מעלה, ולא ייצג נאמנה את רוב הדירות. השכיח פחות רלוונטי לנתונים רציפים.
- לגבי שונות וסטיית תקן: השונות היא ממוצע ריבועי ההפרשים מהממוצע, ולכן יחידות המידה שלה הן ריבועיות (למשל, מטר רבוע אם הנתונים במטרים). סטיית התקן היא שורש השונות, ולכן יחידות המידה שלה זהות ליחידות הנתונים המקוריים, מה שהופך אותה לקלה יותר להבנה ופרשנות בהקשר של הנתונים עצמם.
- לגבי מתאם 0.85: מתאם של 0.85 מצביע על קשר ליניארי חיובי חזק בין ציוני מתמטיקה ופיזיקה. כלומר, תלמידים שמצליחים במתמטיקה נוטים להצליח גם בפיזיקה, ולהיפך. עם זאת, מתאם אינו מעיד על סיבתיות. ייתכנו גורמים משותפים אחרים (כמו יכולת למידה כללית, מוטיבציה, איכות הוראה) המשפיעים על שני המקצועות, או שהקשר הוא מקרי.
- לגבי שימוש בפייתון:
- Pandas: עבור DataFrame, ניתן להשתמש בפונקציות כמו
df['column'].mean(),.median(),.mode(),.std(),.var(),.corr(). הפונקציה.describe()מספקת סיכום מהיר של מדדים רבים. - NumPy: עבור מערכים (arrays), ניתן להשתמש בפונקציות כמו
np.mean(),np.median(),np.std(),np.var().
- Pandas: עבור DataFrame, ניתן להשתמש בפונקציות כמו