IT Log

06. 기술 통계(Descriptive Statistics) 본문

Statistics/통계(Statistics)

06. 기술 통계(Descriptive Statistics)

newly0513 2020. 8. 18. 20:42
728x90
반응형

Histogram

주어진 전체 데이터를 일련의 간격(bin)으로 나누어 데이터의 분포가 어떠한지 시각적으로 보여줍니다. Histogram과 Bar Chart(막대 차트)는 유사하지만 각각 사용되는 데이터의 유형이 다른 그래프입니다. Histogram의 경우 연속형 데이터가 사용되어 표현되는 데이터 사이의 간격이 없지만 Bar Chart(막대 차트)의 경우 연속형 데이터가 아닌 다른 유형의 데이터가 사용되어 표현되는 데이터 사이의 간격이 존재합니다. 그래서 데이터 유형에 따라 Histogram은 X축과 Y축 모두 숫자로 표현되지만, Bar Chart(막대 차트)는 X축이나 Y축 중 한 축은 데이터의 범주로 표현됩니다. 간략히 정리하면 아래와 같습니다.

 

  • 데이터를 일련의 간격으로 나눈 다음 간격 마다 몇 개의 데이터가 속하는지를 세는 것

  • 데이터 분포에 대한 대략적인 의미를 표현
  • 데이터가 연속적임을 나타내기 위해 간격없이 표현

  • Histogram과 막대차트는 유사하지만 서로 다른 그래프


Bar Chart & Histogram

 

Bar Chart (막대 차트)

Histogram (히스토그램)

데이터

연속형 데이터가 아닌 데이터

연속형 데이터

막대 간격

있음 (Gaps)

없음 (No Gaps)

예시 데이터

성별, 혈액형

나이, 몸무게

 

Bar Chart와 Histogram 비교


bin

데이터의 간격을 나타내는 bin은 정해진 적절한 값은 없습니다. 하지만, 데이터의 간격을 너무 크게 잡거나 너무 작게 잡으면 데이터 분포에 대한 의미를 알 수가 없습니다. 예를 들어, 남성의 평균 키가 173cm인 데이터가 있습니다. 데이터의 간격을 173cm이상과 173cm이하로 단 2개의 간격으로 나뉘어 데이터의 분포를 보는 의미가 없고, 데이터의 간격을 0.01cm로 잡으면 무수히 많은 간격에 데이터가 분포되어 데이터의 분포를 보는 의미가 없다. 따라서, 적당한 간격(bin)을 주어 Histogram을 나타내야 합니다.

 

간격(bin)을 너무 크게 잡거나 작게 잡으면 나타날 수 있는 예시


Histogram Pattern

Histogram은 데이터나 bin에 따라 6가지 유형으로 나타나며, 크게는 3가지 특징으로 나뉩니다.

  • 대칭(Symmetric)

  • 치우침(Skewed)

  • 봉(modal)

추후에 통계적으로 사용하기 위해서는 정규분포와 같이 그려지는 첫번째 Histogram이 제일 이상적입니다.

좌 - 대칭, 단봉 / 우 - 대칭

좌 - 오른쪽으로 치우침 / 우 - 왼쪽으로 치우침

좌 - bimodal / 우 - multi modal

728x90
반응형
Comments