본문 바로가기
2024 Study Plan/통계학&회귀분석

[통계학] 3. 통계량

by 0_mini 2024. 1. 2.

3.1 통계량 - 중심

1. 최빈값 (Mode)

  • 발생 빈도가 높은 값
  • 극단값에 영향을 받지 않음
  • 주로 범주형 자료에 대한 대표값
  • 2개 이상 존재 가능

ex)

사이즈 수량
S 5
M 10
L 25
XL 0

 

2. 중앙값 (Median)

  • 크기 순으로 정렬된 자료에서 가운데에 위치하는 값
  • 관측값 변화에 민감하지 않음  ※ 자료의 수가 홀수일 경우 중앙에 위치한 값, 짝수일 경우 중앙에 위치한 두 값의 평균
  • 극단값에 영향을 받지 않음   ex) 1 2 4 5,    1 2 3 4 → 2와 3을 더하고 2로 나눈 값이 중앙값

3. 산술평균 (Arithmetic Mean)

  • 모든 자료의 값을 더하여 자료의 수로 나누어준 것
  • 모든 값을 반영하므로 극단값에 영향을 받음  ex) xn 값이 1억이면 평균값에 영향을 크게 미침

산술평균

 

4. 가중평균 (Weighted Mean)

  • 자료의 중요성이 각기 다른 경우, 중요도에 따라 가중치를 부여한 평균  ※ 산술평균의 가중치는 모두 1

가중평균

 

5. 기하평균 (Geometric Mean)

  • 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량
  • 음수가 아닌 자료값에만 사용
  • 연간 물가 상승률  ※ 파이 문자같이 생긴 것은 sigma의 곱셈 버전, a1 x a2 x a3 x ... x an                                                                             ※  기하평균은 다 곱하고 자료의 수만큼 제곱근을 취함                                                                                                   ex) 100만원 투자 → +100% → 200만원 재투자 → -100% → 0원

기하평균

 

3.2 통계량 - 형태

1. 왜도 (Skewness)

  • 분포의 비대칭도

※ 왜도가 0이 아니라는 것은 극단값이 존재할 수 있음을 나타냄

※ 왜도가 양수일 때, Mode < Median < Mean, 음수일 땐 반대. 평균값은 극단값에 영향을 받기 때문에 이런 결과가 나옴

 

2. 첨도 (Kurtosis)

  • 뾰족한 정도
  • 표준정규분포의 첨도는 3이다.

 

3.3 통계량 - 상관

1. 상관 (Correlation)

  • 확률변수 X,Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함
  • 선형적 관련성을 파악함

2. 공분산 (Covariance)

공분산

※ 분산이랑 유사한데, y편차를 x편차로 바꿔서 생각하면 이해하기 쉬움

 

3. 상관 계수 (Correlation Coefficient)    ※ 피어슨 상관 계수

  • 공분산을 두 변수의 표준편차의 곱으로 나눈 값
  • -1 <= r <= 1
  • 두 양적 변수값의 선형적 연관성의 강도 측정
  • 단위가 없음 → 다른 단위로 측정된 변수끼리도 비교 가능
  • 절대값이 1에 가까울수록 연관성의 강도가 높음

피어슨 상관 계수

 

 


 

 

 

    

이 블로그는 수익창출을 목적으로 하지 않고, 제가 공부를 하기 위해 운영하고 있습니다.

따라서, 블로그 내의 모든 콘텐츠는 제 주관적인 의견과 경험을 바탕으로 작성되었으며, 모든 정보의 정확성을 보장할 수 없습니다.

만약 블로그 내의 정보에 대해 의문이 있으시거나, 정확하지 않은 정보를 발견하신다면, 언제든지 저에게 알려주시기 바랍니다.

이 블로그가 여러분의 공부에 도움이 되기를 바랍니다.

감사합니다.