מדדי פיזור בסטטיסטיקה

מדדי פיזור הולכים יד ביד עם מדדי הנטייה המרכזית
מדדי פיזור הולכים יד ביד עם מדדי הנטייה המרכזית.
מדדי פיזור הם חיוניים מכיוון שהם יכולים להראות לך את המדגם בתוך מדגם ספציפי, או קבוצת אנשים. כשזה מגיע לדגימות, הפיזור הזה חשוב מכיוון שהוא קובע את מרווח הטעות שיהיו לך בעת הסקת מסקנות לגבי מדדים של נטייה מרכזית, כמו ממוצעים.

מדדי פיזור ממלאים תפקיד חשוב בכל מערך נתונים. מדדים אלה הולכים יחד עם מדדי הנטייה המרכזית ומראים לך את השונות של הנתונים שלך.

מדדים של נטייה מרכזית יראו לך את הדרכים השונות שבהן תוכל לקבץ את הנתונים שלך. הם טובים כדי להבין כיצד המשתנים השונים פועלים במדגם ספציפי או בקבוצת אנשים. שלושת הדברים הבסיסיים שהם יכולים לומר לך הם החציון, הממוצע והטווח.

מדדי פיזור הולכים יד ביד עם מדדי הנטייה המרכזית. הם גם חיוניים לקריאת כל מערך נתונים מכיוון שהם מראים לך עד כמה הנתונים שלך משתנים. תפקידם החשוב בסטטיסטיקה קיבל חיזוק על ידי Wild and Pfannkuch (1999).

לדבריהם, התפיסה שלנו לגבי השונות של הנתונים היא אחד המרכיבים הבסיסיים של החשיבה הסטטיסטית. האופן שבו אנו תופסים את השונות נותן לנו מידע על פיזור, או התפשטות הנתונים, במונחים של ממוצע או חציון.

ממוצע, או ממוצע, נפוץ מאוד בסטטיסטיקה. אבל קל לפרש אותם לא נכון. זה קורה במיוחד כאשר יש פיזור רחב של ערכים במשתנה. זה כאשר מדדי הפיזור נכנסים לפעולה (2).

ישנם שלושה מרכיבים חשובים במדדי פיזור הקשורים לשונות אקראית (2):

  • התפיסה עד כמה הם נפוצים בעולם שסביבך.
  • האם יש הסברים מתחרים.
  • היכולת לכמת אותם (שזה אומר להבין את מושג הפיזור ולדעת כיצד הוא חל).

לשם מה נועדו מדדי פיזור?

מדדי פיזור חשובים בכל מחקר סטטיסטי כאשר אתה מנסה להסיק מסקנות מנתונים. הסיבה לכך היא שהם ממלאים תפקיד ישיר בשולי הטעות שאיתם אתה עובד. ככל שהפיזור בדגימה גדול יותר, כך תצטרך יותר מקום לעבוד בתוך השוליים האלה.

הם גם יכולים לעזור לך להבין אם הנתונים שלך רחוקים מהנטייה המרכזית שלהם. מה שזה מראה לך אם הנטייה המרכזית שלך היא בעצם דרך טובה לייצג את האנשים שדגמת למחקר שלך. זה מאוד מועיל כשמדובר בהשוואת התפלגויות והבנת הסיכונים בקבלת החלטות מסוימות (1).

מדדי פיזור ממלאים תפקיד חשוב בכל מערך נתונים
מדדי פיזור ממלאים תפקיד חשוב בכל מערך נתונים.

לסיכום, ככל שהפיזור גדול יותר, כך הנטייה המרכזית שלך פחות מייצגת. להלן המדדים הנפוצים ביותר לפיזור:

  • טווח
  • סטייה ממוצעת
  • שונות
  • סטיית תקן
  • מקדם וריאציה (או סטיית תקן יחסית)

איך כל אחד מהם עובד

טווח

הטווח הוא בדרך כלל הטוב ביותר לביצוע ההשוואות הראשונות שלך מכיוון שהוא מסתכל רק על שני הקצוות של הנתונים שלך. זו גם הסיבה שבדרך כלל כדאי לעשות זאת רק עם גדלי מדגם קטנים (1). ההגדרה הבסיסית של טווח היא: ההבדל בין הנתונים הראשונים והאחרונים.

סטייה ממוצעת

לאחר מכן, יש סטייה ממוצעת. זה מועיל מכיוון שהוא יכול להראות לך היכן הנתונים היו נמצאים אם כולם היו באותו המרחק המדויק מהממוצע (1). הסטייה של מספר מהמשתנה היא ההפרש בין הערך המוחלט של אותו משתנה לבין הממוצע. אז, הסטייה הממוצעת היא בעצם רק הממוצע של כל הסטיות (3).

שונות

שונות היא הפונקציה האלגברית עבור כל הערכים, והיא מושלמת עבור סטטיסטיקות מסקנות (1). השונות היא בעצם ריבוע הסטיות.

סטיית תקן

סטיית תקן היא המדד הנפוץ ביותר לפיזור עבור כל דגימות שנלקחו מאותה קבוצת אנשים (1). זה השורש הריבועי של השונות (3).

מקדם וריאציה

מדד זה משמש בעיקר כדי להשוות את השונות בין שתי קבוצות של נתונים המוכנסות לקבוצות נפרדות. לדוגמה, אם הייתם מקבלים מידע על הגובה והמשקל של תלמידים בבית ספר. זה יכול לעזור לך להבין איזו התפלגות ספציפית מציגה את הקיבוץ הגבוה ביותר של הנתונים, למדידה מייצגת יותר

מקדם הווריאציה הוא המייצג ביותר מכל מדדי הפיזור שדיברנו עליהם כי הוא נותן לך מספר מופשט. במילים אחרות, זה לא תלוי במשתנים בקבוצות שלך. בדרך כלל תראה את מקדם השונות מוצג כאחוז (3).

מדדי פיזור אלה הם דרכים לראות כמה שונות יש במדגם שלך. הם גם יגידו לך עד כמה הנטייה המרכזית שלך מייצגת. אם השונות נמוכה, זה אומר שהנתונים שלך קרובים יחסית לנטייה הזו ומהווים ייצוג טוב של מערך הנתונים הכולל.

מצד שני, אם יש לך רמה גבוהה של שונות, זה אומר שהנתונים מפוזרים ולא מרוכזים. שונות גבוהה פירושה נטייה מרכזית שאינה מאוד מייצגת. אם זה המקרה, תצטרך למשוך ממאגר גדול יותר של נתונים. מידע נוסף יפחית את השונות, שהייתה הסיבה הבסיסית למרווח השגיאה הגדול שלך.