신뢰성 분석
아래 글은 모두 'step by step [파이썬 비즈니스 통계분석]' 교재를 기초로 진행한 내용입니다. 모든 장은 이전 장과 이어져 있으니, 세부 내용 및 이전 글이 궁금하시다면 해당 블로그의 이전 장과 교재를 참고해주시면 되겠습니다.~~
'신뢰성'과 '타당성'
신뢰성과 타당성은 어떤 개념을 측정하기 위한 측정도구의 품질을 나타낸다. 그 가운데 신뢰성(Reliability)이란 일반적으로 측정도구의 '안정성, 일관성, 예측가능성, 정확성' 또는 '의존 가능성'을 나타낸다. 반면 타당성(Validity)이란 측정도구의 '정확성' 내지는 '적절성'을 의미한다. 신뢰성과 타당성은 서로 밀접한 개념이지만, 서로 다른 관계를 지닌다. 타당성이 만족되기 위해서는 신뢰성이 만족되어야 하지만, 아무리 신뢰성이 높아도 반드시 타당성이 높지는 않다. (신뢰성은 타당성이 만족되기 위한 필요조건.)
1. 측정오차
신뢰성과 타당성의 개념을 이해하기 위해선 먼저 측정오차의 개념을 이해하고 있어야 한다. 측정오차는 실제값과 측정값의 차이로 정의한다.
- 측정오차 = 실제값 - 측정값
- 측정오차 = 체계적오차 + 비체계적 오차
체계적 오차, 비체계적 오차는 뭔데? 이 두 오차를 두고 사격을 예시로 많이 설명한다.
- 체계적 오차: 측정과정에서 일정한 패턴을 나타내는 오차를 의미, 타당성을 결정하는 개념이다. 체계적 오차는 총기 자체의 품질을 의미한다고 볼 수 있다. 즉, 총기 자체가 얼마나 정확하게 목표물을 향해 정렬되어 있느냐의 의미. 만약, 총기 자체의 가늠자 및 가늠쇠가 잘못 조정되어 있으면 아무리 명사수여도 계속 목표물에서 어긋나게 쏠 수밖에 없다. But, 지속적으로 일정한 목표물을 향해 겨냥하므로 중앙에서 벗어나지만 매번 같은 곳을 맞춘다.
- 비체계적 오차: 일정한 패턴이 없는 오차를 의미. 신뢰성을 결정하는 개념이다. 사격의 예시에서 비체계적 오차는 사용하는 총기보단 사격하는 사람(사격수) 혹은 사격 환경의 품질을 의미한다. 아무리 정확히 조준된 총기를 사용한다고 하더라도, 사격수가 정확하지 않거나, 거센 바람 등의 외부환경이 있다면, 목표에서 어긋난 곳을 맞춘다. 하지만, 총기는 목표물을 향해 정확하게 조정되어 있으므로, 탄착점이 중앙을 중심으로 흩어져 나타난다.

2. 신뢰성
신뢰성이란 측정대상을 반복적으로 측정했을 때 동일한 결과가 나오는 정도를 의미한다(통계적으로). 신뢰성의 경우 측정오차 중 비체계적 오차와 밀접한 관련이 있으므로 측정 시 비체계적 오차의 통제와 관리가 중요하다.
1) 반복측정: (재검사법), 측정방법이 하나 밖에 없는 경우에 신뢰성을 평가하는 방법으로, 측정 대상에 대해 시간적 간격을 두고 2회에 걸쳐 측정을 하고 그 결과의 상관관계를 검토한다. 비교적 단순한 신뢰성 평가방법이지만, 단점도 존재한다.
- 한 번 측정한 이후 시간적 간격을 두고 다시 동일한 측정방법을 이용해 신뢰성을 평가하므로, 시간 간격이 신뢰성 평가에 영향을 미칠 수 있다.
- 측정 대상물 혹은 대상자들에게 추가 조사 및 측정이 이루어지므로, 시간과 비용이 커진다.
- 피실험자들이 첫 번째 실험을 통해 실험내용을 이미 숙지하였을 경우, 두 번째 실험결과 값에 영향을 미치는 주시험 효과(main testing effect)가 존재할 수 있다.
2) 대체측정: (동형검사법), 대등한 두 가지의 측정 도구가 있을 경우, 이들을 이용해 동일한 측정 대상을 동시에 측정한다. 측정 후에는 반복측정법과 마찬가지로 두 가지 측정 결과의 상관관계를 분석해 신뢰성을 측정한다. 측정 후에는 반복측정법처럼 두 가지 측정 결과의 상관관계를 분석해 신뢰성을 측정한다. 대체측정법은 반복측정의 단점을 많이 상쇄하지만, 그 측정 도구나 방법을 개발하는데 비용과 시간이 더 많이 소요될 수 있다는 단점이 있다.
3) 반분측정: 다수의 측정 항목이 있을 경우, 이를 두 개의 측정항목 그룹으로 나누고, 측정 대상 역시 두 그룹으로 나누어 측정된 결과값 사이의 상관관계를 분석해 신뢰성을 파악한다.보다 정확한 신뢰성을 도출할 수 있다는 장점이 있지만, 측정항목을 두 그룹으로 분리할 만큼 충분한 개수로 개발해야 하며, 이러한 여러 측정항목들이 동일한 개념을 측정한다는 측정도구의 동질성(homogeneity)을 확보해야 한다는 어려움이 있다.
4) 내적일관성: 하나의 개념을 측정하기 위해 여러 개의 하위 측정항목들이 존재할 경우 이들 측정값 사이의 상관관계를 분석해 신뢰성을 평가한다. 내적일관성 분석법은 '크론바흐 알파'라고 불리는 측정 항목들 간의 상관관계 값을 바탕으로 한다. 앞서 서술한 신뢰성 평가방법들에 비해 비교적 단순하기 때문에 가장 많이 활용되는 신뢰성 평가방법이다. 이 분석의 목적은 기존에 개발된 측정도구의 신뢰성을 평가하는 것이기도 하지만, 신뢰도를 저하시키는 하위 측정항목을 찾아 제거하여 측정도구의 전체적 신뢰성을 높이기 위한 목적도 갖는다.
추가. 신뢰성을 높이기 위한 고려사항
- 측정하고자 하는 개념과 그 하위 측정항목 간의 관계인 구성개념을 명확히 이해해야 한다.
- 가급적 신뢰성이 높다고 평가되었던 기존의 측정항목을 사용한다.
- 측정항목의 수를 최소 3개 이상으로 늘린다.
- 내적일관성 분석을 통해 전체적인 신뢰도를 저해하는 항목은 사용하지 않는다.
- 측정자 혹은 실험자의 실험방식이나 측정환경이 일관되도록 유지한다.
3. 타당성
측정하고자 하는 대상 즉, 구성 개념(construct)을 측정항목이 제대로, 올바르게 측정하고 있는지를 나타내는 정도. 일관성을 의미하는 신뢰성과 달리, 타당성을 통계적으로 정확히 평가할 수 있는 방법은 존재하지 않는다. 다만 타당성의 유형에 따라 적절한 방법으로 실제의 타당성을 유추할 뿐이다.

4. 내적일관성 분석
하나의 개념을 측정하기 위해 여러 개의 하위 측정 항목들이 존재할 경우, 이들 측정 값 사이의 상관관계를 분석하여 신뢰성을 평가하는 방법이다. 내적 일관성을 평가하기 위해 주로 사용하는 지표는 '크론바흐 알파'이며, 계산 공식은 다음과 같다.

일반적으로 크론바흐 알파계수가 0.6 이상이면 신뢰성이 존재한다고 판단하고, 0.7이상인 경우에는 신뢰성이 높다고 해석한다. 낮을 경우에는 측정 항목들 간의 내적일관성이 떨어지는 것을 의미하므로, 다른 측정 항목들과 상관관계가 낮은 측정항목을 제거함으로써 전체적인 측정도구들의 내적일관성을 향상시킬 수 있다. (+ 가급적 모든 개념의 하위 측정 항목 수는 3개 이상으로 유지하는 것이 중요하다.)
# 실습
A 쇼핑은 최근 오프라인 매장이 증대함에 따라 고객접점에서의 고객응대가 더욱 중요시되고 있다. 이에 따라 A 쇼핑에서는 매장에서 고객의 직원에 대한 만족도를 평가하고, 적절한 직원교육 체계를 마련하고자 한다. A 쇼핑은 직원에 대한 만족도를 평가하기 위해 친절성, 신속성, 책임성, 정확성, 전문성을 측정하는 측정항목을 개발하여 조사를 실시했고, 직원에 대한 만족도 평가가 신뢰성 있는 조사인지 확인하고자 내적일관성 분석을 수행한다.
X = df[['친절성', '신속성', '책임성', '정확성', '전문성']]
import pingouin as pg
pg.cronbach_alpha(data = X)
# (0.81174588831..., array([0.793, 0.83])
실행 결과, 전체 특성들의 크론바흐 알파계수가 0.811이 나왔으며, 0.793, 0.83은 신뢰수준 95%의 신뢰구간을 의미한다.
이제, 5가지의 변수들 중 하나씩을 제거해 총 5개의 객체를 만들고, 각 객체 별로 크론바흐 알파계수를 출력해보자.
X1 = df[['신속성', '책임성', '정확성', '전문성']]
X2 = df[['친절성', '책임성', '정확성', '전문성']]
X3 = df[['친절성', '신속성', '정확성', '전문성']]
X4 = df[['친절성', '신속성', '책임성', '전문성']]
X5 = df[['친절성', '신속성', '책임성', '정확성']]
print(pg.cronbach_alpha(data = X1))
print(pg.cronbach_alpha(data = X2))
print(pg.cronbach_alpha(data = X3))
print(pg.cronbach_alpha(data = X4))
print(pg.cronbach_alpha(data = X5))
>

# 결론
전체 만족도의 신뢰성 평가를 위한 크론바흐 계수는 0.811746으로, 현재 측정항목들로 구성된 직원들에 대한 만족도 평가는 신뢰성 있는 측정도구로 구성되어 있다. 한편, 5가지 변수를 모두 사용한 전체 크론바흐 a 계수와 각 변수를 제외했을 경우의 변화된 크론바흐 계수 값을 비교했을 때, 어떤 변수를 제거하더라도 계수가 높아지지 않았다. 따라서, 신뢰성 분석 결과, 신속성, 책임성, 정확성, 전문성에 대한 측정항목 모두를 사용하는 것이 가장 적절한 직원에 대한 만족도 평가임을 알 수 있다.
저번 8장에선 t-검정과 그 하위 개념들에 대해 공부했다. 그리고 이번 실습을 통해 범주형 데이터 분석(적합도 검정, 독립성 검정, 동질성 검정)을 함으로써 지난 번 실습 문제에 오류가 있음을 발견했다. 독립표본 t-검정을 위한 문제였는데, 신뢰성 분석에 대한 학습을 하고 보니 다소 미흡한 점이 보인다. 수치형 데이터로 이루어져 있기에, 평점 간의 비교를 통해 유의미한 인사이트를 도출할 수 있을 것이라 예상했으나, 두 변수 간의 연관성을 먼저 파악해야 했다. 본격적인 분석을 하기에 앞서 해당 통계분석에 주된 요소가 될 특성들의 관계 파악이 우선이기 때문이다.
따라서 상품 진열 위치의 데이터와 평균 평점 간의 연관성, 상품 다양성과 평균 평점과의 연관성/상관성을 먼저 알고 난 뒤에 해당 연관성에 대한 또다른 신뢰성, 타당성을 검증하고 독립 검정을 진행하는 것이 옳은 수순이 될 것이다.
