데이터 분석(DA)/📊 통계분석

# '통계분석의 역량 향상'과 '데이터'를 다루는 방법을 정리한 공간입니다.
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ 군집분석이란? 집단 또는 범주에 대한 사전 정보가 없는 데이터의 경우, 주어진 관측값을 사용해 전체를 몇 개의 유사한 집단으로 그룹화하는 작업이다. 그룹화한 뒤, 각 집단의 성격을 파악하기 위해 사용하는 통계분석기법! Ex) 일반적인 집단 분류: 연령, 성별, 구매금액수준, 고객등급 등 구체적인 분류기준을 정한 뒤 이에 따라 그룹으로 나누는 경우가 많다. 하지만 집단을 구분하기 위해 정해진 분류기준이 없거나, 몇 개의 집단으로 분류할지 객관적인 기준이 없다면..? 이..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장들을 참고해주시면 되겠습니다.~~ 1. 회귀분석이란? 하나 이상의 수치형 변수들을 독립변수(또는 예측변수)로, 또 다른 결과적인 수치형 변수를 종속변수(또는 반응변수)로 설정해, 개별 독립변수의 변화에 어떻게 영향을 미치는지 판단한다. 만약 독립변수들의 값이 주어졌을 때, 종속변수의 값을 예측하거나 독립변수와 종속변수 간의 인과관계를 검증할 수 있는 통계분석 기법이다. (가장 널리 알려진 기법 중 하나!!) Ex) 광고의 횟수와 매출액의 관계, 구매유형에 따른 고객만족도의 관계. 회귀분석 모형은 독립변수 ..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ 분산분석(ANOVA) 분산 분석은 명목척도로 측정된 독립변수와 등간 또는 비율척도로 측정된 종속변수 사이의 관계를 3개 이상 집단 간 평균의 차이로 검정할 때 사용한다. t - 검정에서 살펴보았듯, 평균을 비교하는 집단의 수가 2개 이하일 경우에는 t-검정 또는 z - 검정을 사용하고, 평균을 비교하는 집단의 수가 3개 이상일 때는 분산분석을 사용한다. 집단 A, B, C 의 평균값 Xa, Xb, Xc 자체는 그림(a)와 그림(b)가 동일하다. 하지만 (a)의 경우,..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ '신뢰성'과 '타당성' 신뢰성과 타당성은 어떤 개념을 측정하기 위한 측정도구의 품질을 나타낸다. 그 가운데 신뢰성(Reliability)이란 일반적으로 측정도구의 '안정성, 일관성, 예측가능성, 정확성' 또는 '의존 가능성'을 나타낸다. 반면 타당성(Validity)이란 측정도구의 '정확성' 내지는 '적절성'을 의미한다. 신뢰성과 타당성은 서로 밀접한 개념이지만, 서로 다른 관계를 지닌다. 타당성이 만족되기 위해서는 신뢰성이 만족되어야 하지만, 아무리 신뢰성이 높아도..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ 1. 카이제곱 검정 수치형 변수가 아닌 데이터들은 어떻게 분석할까? 카테고리별로 구분되어 있는 변수들을 숫자로 바꿔서? 글쎄.. 우린 앞서 수치형 데이터들을 상관관계 분석, 기술통계분석 등을 통해 여러 가설들을 검증하고 결론은 도출했다. 그렇다면 수치화된 데이터들을 아닌 경우에는 어떤 분석 기법을 사용할까? 이제부터 한 번 알아보자. 카이제곱 검정은 적합도 검정, 독립성 검정, 동질성 검정 총 3가지로 분류한다. 적합도 검정 : 관측 결과가 특정한 분포로부터의 생성된..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ 상관관계 분석 데이터 내 변수들 간에는 복합적인 상관관계를 각각의 특성과 목적에 따라 다양한 분석 기법이 존재한다. 이번 포스트에서는 두 개 이상 변수들 간의 상호 연관성을 판단하기 위한 '상관관계 분석' 기법을 알아보자! 상관관계 분석의 종류 피어슨 상관관계 분석 수치형 변수 간의 개별 상관관계를 파악한다. 수치형 변수로 이루어진 두 변수 간의 선형적 연관성을 파악한다. Ex) 개인 소득수준과 외식 빈도 간의 연관성, 다크 초콜릿과 사회적 성공의 연관성. 스피어만 ..