데이터 분석(DA)

# '통계분석의 역량 향상'과 '데이터'를 다루는 방법을 정리한 공간입니다.
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ 군집분석이란? 집단 또는 범주에 대한 사전 정보가 없는 데이터의 경우, 주어진 관측값을 사용해 전체를 몇 개의 유사한 집단으로 그룹화하는 작업이다. 그룹화한 뒤, 각 집단의 성격을 파악하기 위해 사용하는 통계분석기법! Ex) 일반적인 집단 분류: 연령, 성별, 구매금액수준, 고객등급 등 구체적인 분류기준을 정한 뒤 이에 따라 그룹으로 나누는 경우가 많다. 하지만 집단을 구분하기 위해 정해진 분류기준이 없거나, 몇 개의 집단으로 분류할지 객관적인 기준이 없다면..? 이..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장들을 참고해주시면 되겠습니다.~~ 1. 회귀분석이란? 하나 이상의 수치형 변수들을 독립변수(또는 예측변수)로, 또 다른 결과적인 수치형 변수를 종속변수(또는 반응변수)로 설정해, 개별 독립변수의 변화에 어떻게 영향을 미치는지 판단한다. 만약 독립변수들의 값이 주어졌을 때, 종속변수의 값을 예측하거나 독립변수와 종속변수 간의 인과관계를 검증할 수 있는 통계분석 기법이다. (가장 널리 알려진 기법 중 하나!!) Ex) 광고의 횟수와 매출액의 관계, 구매유형에 따른 고객만족도의 관계. 회귀분석 모형은 독립변수 ..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ 분산분석(ANOVA) 분산 분석은 명목척도로 측정된 독립변수와 등간 또는 비율척도로 측정된 종속변수 사이의 관계를 3개 이상 집단 간 평균의 차이로 검정할 때 사용한다. t - 검정에서 살펴보았듯, 평균을 비교하는 집단의 수가 2개 이하일 경우에는 t-검정 또는 z - 검정을 사용하고, 평균을 비교하는 집단의 수가 3개 이상일 때는 분산분석을 사용한다. 집단 A, B, C 의 평균값 Xa, Xb, Xc 자체는 그림(a)와 그림(b)가 동일하다. 하지만 (a)의 경우,..
해당 글은 글쓴이가 SQL 공부하면서 중요한 점이나, 핵심 개념들을 입맛대로 정제하고 정리한 글입니다. 오개념을 발견하셨거나 피드백할 점이 있다면 언제든 댓글이나 질문을 통해 해당 글에 남겨주세요 :) 관계형 데이터베이스(Relational Database) 'RDBMS'(Relational Database Management System)라고도 불리는 이 'MySql'은 모든 데이터들의 정보를 데이터베이스라는 일종의 상자 안에 'SQL'이라는 언어를 사용해 원하는 대로 정보를 빼내고 넣고 수정할 수 있게 해주는 '데이터 베이스 관리 시스템'(Database Management System)이다. "그런데 이 Relational은 왜 붙은걸까?" 이제 본격적으로 한 번 알아보자. MySql/Oracle ..
해당 글은 글쓴이가 SQL 공부하면서 중요한 점이나, 핵심 개념들을 입맛대로 정제하고 정리한 글입니다. 오개념을 발견하셨거나 피드백할 점이 있다면 언제든 댓글이나 질문을 통해 해당 글에 남겨주세요 :) 데이터베이스란?? 방대한 정보와 이야기를 담고 있는 '도구'. 데이터와 관련해서 일어날 수 있는 일들은 너무나도 다양하다! 복잡한 기술을 잠시 미뤄두고, 우리는 이 데이터를 어떻게 바라보고, 그 데이터를 어떤 방식으로 저장하고, 입력하며 출력할 수 있는지 그 키워드를 통해 함께 살펴보자! Create의 'C', Read의 'R', Update의 'U', Delete의 'D' 'CRUD' 데이터를 '생성'하고, 생성된 데이터를 '읽고', 읽은 데이터를 '수정'하며, '삭제'하는 작업을 일컬어 '데이터베이스 ..
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~ '신뢰성'과 '타당성' 신뢰성과 타당성은 어떤 개념을 측정하기 위한 측정도구의 품질을 나타낸다. 그 가운데 신뢰성(Reliability)이란 일반적으로 측정도구의 '안정성, 일관성, 예측가능성, 정확성' 또는 '의존 가능성'을 나타낸다. 반면 타당성(Validity)이란 측정도구의 '정확성' 내지는 '적절성'을 의미한다. 신뢰성과 타당성은 서로 밀접한 개념이지만, 서로 다른 관계를 지닌다. 타당성이 만족되기 위해서는 신뢰성이 만족되어야 하지만, 아무리 신뢰성이 높아도..