선형회귀분석은 간단하고 효과적인 도구이다. 손쉬운 구현과 확장성을 제공해 적절한 데이터를 활용해 잘 처리하면 인공지능보다 효과적일수도 있다.
회귀분석과 데이터 과학
과거에는 데이터 가용성으로 인해 분석 솔루션에 제약이 있었지만 폭발적인 데이터 증가로 값싸고 풍부한 정보를 이용해 학습이 가능하기 때문에 광범위한 예측 애플리케이션이 현실화 되었다.
하지만 데이터를 사용하는데 문제가 있다.
- 목적이 다른 모델링 데이터와 비정형 데이터를 처리하는것
- 각각 다른 정보에서 어떻게 추출할 것인지 등
머신러닝에 기반을 둔 데이터 과학 접근법은 다양한 알고리즘을 정밀하게 테스트하고 예측 능력을 평가한 후 마지막으로 구현할 최적의 알고리즘을 선택한다.
최적의 알고리즘을 선정하는데는 정도가 없고 상황마다 달라지고 성능이 높은 모델이 있더라도 단순한 솔루션을 채택할 수 있다.
선형모델은 한계가 있지만 간편하고 효과적이기 때문에 항상 사용되는 도구이다. 제일 좋은건 아니더라도 예측도 해주고 변수 식별도 가능하고 복잡한 알고리즘 적용 전에 데이터의 변환을 테스트할 수 있다.
선형모델은 학습을 통해 숫자와 클래스에 대한 예측을 공식화 할 수 있는 지도 알고리즘이다.
NumPy: 다차원 배열을 제공하고 배열을 활용한 연산을 수행하는 많은 함수을 제공한다. 수학적 벡터와 행렬을 구현한다.
SciPy: 선형 대수, 희소 행렬, 신호 및 이미지 처리, 최적화 그리고 빠른 푸리에 변환을 통해 numpy의 기능을 완성시킨다.
Statsmodels: 일반화된 선형모델, 이산 선택 모델, 시계열 분석, 기술적 통계, 모수 검정, 비모수 검정을 특징으로 한다.
Scikit-learn: 데이터 전처리, 지도 학습, 비지도 학습, 모델 선택, 검증, 오차 행렬에 관한 모든 기능을 제공한다.
'2024 Study Plan > 통계학&회귀분석' 카테고리의 다른 글
[통계학] 3. 통계량 (4) | 2024.01.02 |
---|---|
[통계학] 1. 통계 ~ 2. 자료의 종류 (0) | 2024.01.02 |