목록Statistics (10)
IT Log
1. 주성분 분석 고차원의 데이터를 저차원의 데이터로 한원시키는 기법입니다. 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직교 변환을 사용한다. 주성분의 차원수는 원래 표본의 차원수보다 작거나 같다. 주성분 분석은 데이터를 한개의 축으로 사상시켰을 때 그 분산이 가장 커지는 축을 첫 번째 주성분, 두 번째로 커지는 축을 두 번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형 변환한다. 이와 같이 표본의 차이를 가장 잘 나타내는 성분들로 분해함으로써 여러가지 응용이 가능하다. 이 변환은 첫째 주성분이 가장 큰 분산을 가지고, 이후의 주성분들은 이전의 주성분들과 직교한다는 제약 아래에 가장 큰 분산을 갖고 있다는 식으로 정의되어있다. ..
1. 추정 ㅇㄴㄹㄴ 2. 가설검정 ㄴㅇㄹㄴㅇㄹ 통계적 추론이란? 표본들로부터 모집단에 대해 추론하는 과정을 말하며 '추정 통계학'이라고도 불립니다. 추출된 표본으로부터 특성을 분석하여 모집단의 특성을 추론합니다. 모집단 특성에는 모평균, 모분산, 모표준편차 등이 있습니다. 통계적 추론 구분 통계적 추정 모집단에서 추출한 표본 특성을 분석하여, 모수의 특성을 추정하는 것 가설검정 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미 가설검정 절차 귀무가설과 대립가설을 설정, 유의 수준 설정(일반적으로 0.05 또는 0.01) 검정 통계량 설정 (Z 분포, t 분포, 카이제곱 분포, F 분포 등) 분포에 따른 임계치, 기각역 설정 검정 통계량 계..
Histogram 주어진 전체 데이터를 일련의 간격(bin)으로 나누어 데이터의 분포가 어떠한지 시각적으로 보여줍니다. Histogram과 Bar Chart(막대 차트)는 유사하지만 각각 사용되는 데이터의 유형이 다른 그래프입니다. Histogram의 경우 연속형 데이터가 사용되어 표현되는 데이터 사이의 간격이 없지만 Bar Chart(막대 차트)의 경우 연속형 데이터가 아닌 다른 유형의 데이터가 사용되어 표현되는 데이터 사이의 간격이 존재합니다. 그래서 데이터 유형에 따라 Histogram은 X축과 Y축 모두 숫자로 표현되지만, Bar Chart(막대 차트)는 X축이나 Y축 중 한 축은 데이터의 범주로 표현됩니다. 간략히 정리하면 아래와 같습니다. 데이터를 일련의 간격으로 나눈 다음 간격 마다 몇 개의..
1. 모집단과 표본 모집단 관심의 대상이 되거나 조사의 대상이 되는 모든 개체 값의 집합을 말합니다. 모집단은 모집단을 구성하는 개체의 수가 유한한 유한 모집단과 모집단을 구성하는 개체의 수가 무한한 무한 모집단이 있습니다. 모수 모집단의 특성치로 모집단 분포 특성을 규정짓는 척도입니다. 모평균, 모분산, 모비율, 모표준편차 등이 모수로 통상 모수는 알려져 있지 않아 모집단에서 추출한 표본 특성을 분석하여 모수에 대해 추측, 추론합니다. 표본 모집단에서 추출된 조사 대상이며, 추출된 자료의 개수를 표본의 크기라고 합니다. 전수조사 대상이 되는 자료 전체를 조사하는 것으로, 전수조사를 통해 모집단의 평균과 표준편차를 구합니다. 표본조사 대상이 되는 자료의 일부만을 추출하여 조사하는 것으로, 표본의 평균과 ..
1. 확률변수 / 확률분포 확률변수 : 어떤 시행에서 표본공간 S의 각 원소에 하나의 실수값이 대응되는 변수 확률분포 : 확률 변수가 특정한 값을 가질 확률을 나타내는 함수 확률분포표 : 확률변수와 확률분포를 나타낸 표 예시) 주사위 두 개를 던졌을 때 두 눈의 합 S에 대한 확률변수는 X = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} 이고, 확률분포는 P(X=x) = {1/36, 2/36, 3/36, 4/36, 5/36, 6/36, 5/36, 4/36, 3/36, 2/36, 1/36}이며, 확률분포표는 아래와 같습니다. 2. 이산확률변수 이산확률변수 확률변수 X가 갖는 값을 셀 수 있는 경우의 확률변수 이산확률분포 이산확률변수 X의 값 각각에 대한 확률의 대응 관계를 이산확률변수..
1. 시행과 사건 시행 : 동일한 조건 하에 여러번 반복할 수 있고, 그 결과가 우연에 의해 결정되는 실험이나 관찰 표본공간 : 어떤 시행에서 일어날 수 있는 모든 결과들의 집합 사건 : 표본공간의 부분집합으로서 특정한 조건을 만족하는 모든 결과들의 집합 근원사건 : 어떤 시행에서 얻을 수 있는 사건 중 더 이상 나눌 수 없는 기본적인 사건, 즉 표본공간의 부분집합(사건) 중 원소가 1개인 집합 전사건 : 어떤 시행에서 반드시 일어나는 사건, 즉 표본공간 공사건 : 어떤 시행에서 절대 일어날 수 없는 사건, 즉 공집합에 대응되는 사건 예시) 표본공간 S의 두 사건 A, B에 대하여 합사건(A∪B) : A 또는 B가 일어나는 사건 곱사건(A∩B) : A와 B가 동시에 일어나는 사건 배반사건 : A와 B가 ..
1. 통계의 자료 통계의 자료(데이터)는 관찰, 측정을 통해 수집된 특성 또는 정보이며, 하나 이상의 사람 또는 개체에 대한 질적 변수나 양적 변수의 집합입니다. 질적 자료 : 수치로 측정이 불가능한 자료이다. 분류 자료 또는 범주형 자료(categorical data)라고도 한다. 양적 자료 : 수치로 측정이 가능한 자료이다. 또는 수치적 자료(Numerical data)라고 하기도 합니다. 2. 자료의 유형 ▶ 측정 수준(측정 척도)에 의한 구분 측정을 통해 수집된 자료(데이터)의 특성을 설명하는 분류입니다. 심리학자 Stanley Smith Stevens가 명목, 순서, 간격, 비율 총 4가지 측정 수준 또는 척도로 제안했습니다. 명목형 이름이나 범주에 속한 기준으로 항목이나 주제를 구분합니다. 숫..
1. 통계의 분류 통계(Statistics)란 데이터의 수집, 분석, 해석 및 표현을 다루는 것으로 수학의 한 분야입니다. 통계는 크게 기술 통계와 추론 통계로 나눌 수 있습니다. 기술 통계는 표본의 자료를 요약하여 특성을 규명하며, 추론 통계는 무작위 추출된 표본을 가지고 결론을 도출합니다. 또는 자료의 척도나 분포에 따라 모집단의 분포가 정규분포이거나 양적자료인 경우 모수 통계(모수적 방법)라 하며, 모집단의 분포가 정규분포가 아니거나 자료의 수가 적거나 질적자료인 경우 비모수 통계(비모수적 방법)라고 합니다. ※ 설명 기술 : 사물의 내용을 기록하여 서술하는 것 추론 : 이미 알고 있는 또는 확인된 정보로부터 논리적 결론을 도출하는 행위 또는 과정 모수 : 모집단의 특성을 나타내는 변수로, 평균이나..