3.1 통계량 - 중심
1. 최빈값 (Mode)
- 발생 빈도가 높은 값
- 극단값에 영향을 받지 않음
- 주로 범주형 자료에 대한 대표값
- 2개 이상 존재 가능
ex)
사이즈 | 수량 |
S | 5 |
M | 10 |
L | 25 |
XL | 0 |
2. 중앙값 (Median)
- 크기 순으로 정렬된 자료에서 가운데에 위치하는 값
- 관측값 변화에 민감하지 않음 ※ 자료의 수가 홀수일 경우 중앙에 위치한 값, 짝수일 경우 중앙에 위치한 두 값의 평균
- 극단값에 영향을 받지 않음 ex) 1 2 3 4 5, 1 2 3 4 → 2와 3을 더하고 2로 나눈 값이 중앙값
3. 산술평균 (Arithmetic Mean)
- 모든 자료의 값을 더하여 자료의 수로 나누어준 것
- 모든 값을 반영하므로 극단값에 영향을 받음 ex) xn 값이 1억이면 평균값에 영향을 크게 미침
4. 가중평균 (Weighted Mean)
- 자료의 중요성이 각기 다른 경우, 중요도에 따라 가중치를 부여한 평균 ※ 산술평균의 가중치는 모두 1
5. 기하평균 (Geometric Mean)
- 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량
- 음수가 아닌 자료값에만 사용
- 연간 물가 상승률 ※ 파이 문자같이 생긴 것은 sigma의 곱셈 버전, a1 x a2 x a3 x ... x an ※ 기하평균은 다 곱하고 자료의 수만큼 제곱근을 취함 ex) 100만원 투자 → +100% → 200만원 재투자 → -100% → 0원
3.2 통계량 - 형태
1. 왜도 (Skewness)
- 분포의 비대칭도
※ 왜도가 0이 아니라는 것은 극단값이 존재할 수 있음을 나타냄
※ 왜도가 양수일 때, Mode < Median < Mean, 음수일 땐 반대. 평균값은 극단값에 영향을 받기 때문에 이런 결과가 나옴
2. 첨도 (Kurtosis)
- 뾰족한 정도
- 표준정규분포의 첨도는 3이다.
3.3 통계량 - 상관
1. 상관 (Correlation)
- 확률변수 X,Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함
- 선형적 관련성을 파악함
2. 공분산 (Covariance)
※ 분산이랑 유사한데, y편차를 x편차로 바꿔서 생각하면 이해하기 쉬움
3. 상관 계수 (Correlation Coefficient) ※ 피어슨 상관 계수
- 공분산을 두 변수의 표준편차의 곱으로 나눈 값
- -1 <= r <= 1
- 두 양적 변수값의 선형적 연관성의 강도 측정
- 단위가 없음 → 다른 단위로 측정된 변수끼리도 비교 가능
- 절대값이 1에 가까울수록 연관성의 강도가 높음
★ ★ ★ ★ ★
이 블로그는 수익창출을 목적으로 하지 않고, 제가 공부를 하기 위해 운영하고 있습니다.
따라서, 블로그 내의 모든 콘텐츠는 제 주관적인 의견과 경험을 바탕으로 작성되었으며, 모든 정보의 정확성을 보장할 수 없습니다.
만약 블로그 내의 정보에 대해 의문이 있으시거나, 정확하지 않은 정보를 발견하신다면, 언제든지 저에게 알려주시기 바랍니다.
이 블로그가 여러분의 공부에 도움이 되기를 바랍니다.
감사합니다.
★ ★ ★ ★ ★
'2024 Study Plan > 통계학&회귀분석' 카테고리의 다른 글
[파이썬으로 풀어보는 회귀분석] 1. 회귀분석 - 데이터 과학의 주역 (1) | 2024.12.10 |
---|---|
[통계학] 1. 통계 ~ 2. 자료의 종류 (0) | 2024.01.02 |