תכנות וניתוח נתונים בשפת פייתון

ברוכים הבאים ליחידה "ניתוח סטטיסטי בסיסי" בקורס "תכנות וניתוח נתונים בשפת פייתון". ביחידה זו נצלול לעולם הסטטיסטיקה התיאורית, כלי חיוני להבנת מערכי נתונים גדולים ומורכבים. נלמד כיצד לסכם, לתאר ולהפיק תובנות ראשוניות מנתונים באמצעות מדדים סטטיסטיים מרכזיים, תוך שימת דגש על הבנת המשמעות שלהם וכיצד הם משמשים אותנו בפרקטיקה של ניתוח נתונים בפייתון. הבנה עמוקה של מושגים אלו היא קריטית לא רק לפתרון בעיות תכנותיות, אלא גם לקבלת החלטות מבוססות נתונים.

מבוא לסטטיסטיקה תיאורית

סטטיסטיקה תיאורית היא ענף בסטטיסטיקה העוסק בסיכום, ארגון ותיאור מאפיינים מרכזיים של קבוצת נתונים. מטרתה העיקרית היא להציג את הנתונים בצורה ברורה ותמציתית, כך שניתן יהיה להבין את התפלגותם, את מיקומם המרכזי ואת מידת הפיזור שלהם, ללא צורך בניתוח מעמיק יותר או הסקת מסקנות על אוכלוסייה רחבה יותר.

סטטיסטיקה תיאורית: ענף בסטטיסטיקה העוסק בסיכום, ארגון ותיאור מאפיינים מרכזיים של קבוצת נתונים באמצעות מדדים מספריים וגרפים.

מדדי מרכז ופיזור: הלב של תיאור הנתונים

כדי לתאר מערך נתונים, אנו משתמשים בשתי קבוצות עיקריות של מדדים: מדדי מרכז, המצביעים על הערך הטיפוסי או המרכזי של הנתונים, ומדדי פיזור, המצביעים על מידת הפיזור או השונות של הנתונים סביב המרכז.

מדדי מרכז

ממוצע (Mean)

סכום כל הערכים חלקי מספר הערכים. רגיש לערכים חריגים (Outliers).

ממוצע: מדד המרכז הנפוץ ביותר, מחושב כסכום כל התצפיות חלקי מספר התצפיות.

חציון (Median)

הערך האמצעי במערך נתונים מסודר. פחות רגיש לערכים חריגים ולכן מועדף בהתפלגויות מוטות.

חציון: הערך המרכזי במערך נתונים לאחר סידורו בסדר עולה או יורד. אם מספר התצפיות זוגי, החציון הוא ממוצע שני הערכים המרכזיים.

שכיח (Mode)

הערך המופיע במספר הפעמים הרב ביותר במערך הנתונים. שימושי גם עבור נתונים קטגוריאליים.

שכיח: הערך או הערכים המופיעים בתדירות הגבוהה ביותר במערך נתונים.

מדדי פיזור

שונות (Variance)

מדד לפיזור הנתונים סביב הממוצע. מחושבת כממוצע ריבועי ההפרשים בין כל תצפית לממוצע. יחידות המידה שלה הן ריבוע יחידות הנתונים המקוריות.

שונות: מדד לפיזור הנתונים, מחושב כממוצע ריבועי ההפרשים של כל תצפית מהממוצע.

סטיית תקן (Standard Deviation)

שורש השונות. מדד הפיזור הנפוץ ביותר, בעל אותן יחידות מידה כמו הנתונים המקוריים, מה שמקל על הפרשנות.

סטיית תקן: שורש השונות, מדד לפיזור הנתונים סביב הממוצע באותן יחידות מידה של הנתונים המקוריים.

השפעת ערכים חריגים והתפלגויות מוטות: הבנה מעמיקה של האופן שבו ערכים חריגים (outliers) והטיה (skewness) בהתפלגות הנתונים משפיעים על מדדי המרכז היא קריטית. במערכי נתונים עם ערכים חריגים או התפלגות מוטה (למשל, הכנסות), החציון לרוב מייצג טוב יותר את "המרכז" מאשר הממוצע, שכן הממוצע נמשך לכיוון הערכים הקיצוניים. בחינה זו היא נקודה אהובה במבחנים, שכן היא דורשת הבנה קונספטואלית ויישומית של המדדים השונים.

התפלגויות נתונים ומתאם בסיסי

הבנת צורת התפלגות הנתונים היא צעד חשוב בניתוח סטטיסטי. בנוסף, לעיתים קרובות אנו מעוניינים לבדוק האם קיים קשר בין שני משתנים.

התפלגויות נתונים

התפלגות נתונים מתארת את האופן שבו הערכים במערך נתונים מתפזרים על פני טווח הערכים האפשריים. התפלגויות נפוצות כוללות את ההתפלגות הנורמלית (פעמון), התפלגויות מוטות (ימינה או שמאלה) ועוד.

התפלגות נתונים: תיאור של האופן שבו הערכים במערך נתונים מתפזרים, כלומר, אילו ערכים מופיעים ובאיזו תדירות.

מתאם בסיסי (Correlation)

מתאם מודד את החוזק והכיוון של קשר ליניארי בין שני משתנים כמותיים. מקדם המתאם (לרוב פירסון) נע בין -1 ל-1.

מתאם חיובי (קרוב ל-1): כאשר ערך של משתנה אחד עולה, גם ערך המשתנה השני נוטה לעלות.
מתאם שלילי (קרוב ל-1-): כאשר ערך של משתנה אחד עולה, ערך המשתנה השני נוטה לרדת.
מתאם אפס (קרוב ל-0): אין קשר ליניארי מובהק בין המשתנים. חשוב לזכור ש"מתאם אינו סיבתיות"!

מתאם (Correlation): מדד סטטיסטי המצביע על החוזק והכיוון של קשר ליניארי בין שני משתנים.

שאלות לדיון

נתון לכם מערך נתונים המייצג את מחירי הדירות בעיר מסוימת, הכולל מספר קטן של דירות יוקרה במחירים גבוהים במיוחד. איזה מדד מרכז (ממוצע, חציון, שכיח) הייתם בוחרים כדי לייצג בצורה הטובה ביותר את "המחיר הטיפוסי" של דירה בעיר, ומדוע?
הסבירו את ההבדל בין שונות לסטיית תקן, ומדוע סטיית התקן נחשבת לעיתים קרובות למדד פיזור נוח יותר לפרשנות.
מה המשמעות של מקדם מתאם פירסון של 0.85 בין ציוני תלמידים במתמטיקה ובפיזיקה? האם מתאם זה מעיד בהכרח על כך שלימוד מתמטיקה גורם לשיפור בפיזיקה? נמקו.
כיצד הייתם משתמשים בספריות פייתון (כגון Pandas או NumPy) כדי לחשב את המדדים הסטטיסטיים שנדונו לעיל עבור מערך נתונים נתון?

נקודות לתשובת מודל

לגבי מחירי דירות: יש לבחור בחציון. הממוצע יושפע באופן ניכר ממחירי דירות היוקרה הגבוהים וימשוך את הממוצע כלפי מעלה, ולא ייצג נאמנה את רוב הדירות. השכיח פחות רלוונטי לנתונים רציפים.
לגבי שונות וסטיית תקן: השונות היא ממוצע ריבועי ההפרשים מהממוצע, ולכן יחידות המידה שלה הן ריבועיות (למשל, מטר רבוע אם הנתונים במטרים). סטיית התקן היא שורש השונות, ולכן יחידות המידה שלה זהות ליחידות הנתונים המקוריים, מה שהופך אותה לקלה יותר להבנה ופרשנות בהקשר של הנתונים עצמם.
לגבי מתאם 0.85: מתאם של 0.85 מצביע על קשר ליניארי חיובי חזק בין ציוני מתמטיקה ופיזיקה. כלומר, תלמידים שמצליחים במתמטיקה נוטים להצליח גם בפיזיקה, ולהיפך. עם זאת, מתאם אינו מעיד על סיבתיות. ייתכנו גורמים משותפים אחרים (כמו יכולת למידה כללית, מוטיבציה, איכות הוראה) המשפיעים על שני המקצועות, או שהקשר הוא מקרי.
לגבי שימוש בפייתון:
- Pandas: עבור DataFrame, ניתן להשתמש בפונקציות כמו df['column'].mean(), .median(), .mode(), .std(), .var(), .corr(). הפונקציה .describe() מספקת סיכום מהיר של מדדים רבים.
- NumPy: עבור מערכים (arrays), ניתן להשתמש בפונקציות כמו np.mean(), np.median(), np.std(), np.var().

מצאתם טעות או שחסר משהו?