반응형
위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다.
통계학이란?
-
모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합
- 일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로 한 분석은 불가능함
- 그래서 우리는 일부를 뽑아서 모집단을 대체함
-
표본(Sample) : 모집단의 일부분의 관측값들
-
모수(Parameter) : 수치로 표현되는 모집단의 특성.
-
통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양
자료의 종류
- 수치형(양적 자료)
- 연속형(ex) 몸무게, 키) : 연속적인 수치값
- 이산형(ex) 전화 통화 수) : 정수로 떨어지는 것들
- 범주형(질적 자료)
- 순위형(ex) 학점) : 순서가 있음
- 명목형(ex) 성별) : 순서가 없음
- 자료의 종류별 분석 방법론
반응변수 | 설명변수 | |
범주형 | 연속형 | |
범주형 | 범주형자료분석 (카이스퀘어) |
로지스틱회귀분석 |
연속형 | 분산분석 | 회귀분석 |
자료의 요약 - 그림, 표
우리가 가진 자료가 많을 때, 그 자료의 그림을 통해 분포와 자료의 관계 등을 알 수 있다.
- 범주형 자료
- 도수분포표
- 막대/원형 그래프
- 연속형 자료
- Box plot
- 히스토그램(Histogram)
자료의 요약 - 수치
- 모집단 개체의 수 : N
- 중심 경향값(대표값)
- 평균(Mean) : ${\mu = \frac{x_1 + ...+x_N}{N} = \frac{ \sum\limits_{i=1}^N x_i}{N}}$
- 특정한 값이 매우 크거나 작으면 영향을 많이 받는다
- 중앙값(Median) : 크기순으로 정렬시켜 중앙에 위치한 값.
- 최빈값(Mode): 가장 자주 나오는 값
- 평균(Mean) : ${\mu = \frac{x_1 + ...+x_N}{N} = \frac{ \sum\limits_{i=1}^N x_i}{N}}$
- 산포도(퍼진 정도)
- 분산(Variance) : $\sigma^2 = \frac{\sum\limits_{i=1}^N(x_i - \mu)^2}{N}$
- 특정한 값이 매우 크거나 작으면 영향을 많이 받음
- 사분위수 범위(Inter quartile range)
- 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
- 분산(Variance) : $\sigma^2 = \frac{\sum\limits_{i=1}^N(x_i - \mu)^2}{N}$
- 정규분포
- 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포
- 위치는 평균에 의해, 모양은 분산에 의해 결정.
- 분포도
- 왜도(Skewness)
- 분포의 비대칭 정도
- Left_skewed를 Negative skewed로 표현하기도 함.
- 첨도(Kurtosis)
- 분포의 꼬리 부분의 비중에 대한 측도
- ${K_s = 0}$
- 뾰족한 정도가 정규분포와 동일
- 왜도(Skewness)
통계량과 추정량
- 모수(Parameter) : 수치로 표현되는 모집단의 특성.
- 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양
- 추정량(Estimator) : 모수를 추정하고자 하는 목적을 지닌 통계량
- 추정량의 종류(표번관측치의 개수 :
- 표본평균 : ${\bar{X} = \frac{\sum_{i=1}^{n} x_i}{n}}$
- 표본분산(Sample variance) : ${s^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n-1}}$
확률
-
확률실험(Random experiment) : 다음과 같은 속성을 지닌 관찰이나 인위적인 실험
- 실험의 결과는 미리 알 수 없다.
- 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다.
- 이론적으로는 실험을 반복할 수 있다.
-
표본공간(Sample space) : 모든 결과들의 모임.
- 근원사건(Sample outcome) : 표본 공간의 원소.
-
사건(Event) : 표본 공간의 부분집합. 근원사건의 집합
- 배반 사건(Multually exclusive event) : 서로 교집합이 공집합인 사건
- 배반 사건(Multually exclusive event) : 서로 교집합이 공집합인 사건
-
확률
- 어떠한 사건이 일어날 가능성의 정도
- ${P(A)}$
- 근원사건이 일어날 가능성이 동일할 때의 계산
- ${P(A) = \frac{n(A)}{n(S)}}$
- 확률의 공리
- ${0 \le P(A) \le 1}$
- ${P(S) = 1}$
- 어떠한 사건들${A_i, i = 1, ..., n}$ 이 서로 배반사건일 때, 이 사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다.
- ${P(\cup_{i= 1,...n} A_i) = \sum_{i = 1}^{n} P(A_i)}$
- 어떠한 사건이 일어날 가능성의 정도
- 조건부 확률
- 사건 B에 대한 정보가 주어졋을 때 사건 A의 교정된 확률
- B가 주어졌을 때 사건 A의 조건부 확률 : ${P(A|B) = \frac{P(A \cap B)}{P(B)}}$
- 독립
- 사건 A와 B가 서로에게 아무런 영향을 미치지 않을 때 ${P(A|B) = P(A), P(B|A) = P(B)}$
- ${P(A \cap B) = P(A)P(B)}$
-
확률변수
- 각각의 근원사건들에 실수값을 대응시키는 함수
- ex) 두 쌍의 동전을 던지는 확률 실험에서, : 동전 앞면의 개수.
-
확률분포
- 확률변수에서 확률값으로의 함수. 주로 ${f(x)}$ 로 표기
- 확률변수의 기대값
- 확률변수의 중심 경향값, 흔히 평균이라 칭함
- ${E(X) = \mu = \sum_{i = 1}^{n}x_if(x_i)}$
- 확률변수의 분산
- ${Var(X) = E(X - \mu)^2 = \sum_{i=1}^{n}(x_i - \mu)^2.f(x_i)}$
- 공분산
- 변수가 2개 있을 때
- 두개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타낸 측도
- X, Y가 독립이면 ${Cov(X, Y) = 0}$
- 상관계수
- 공분산의 단점 : 제한된 정보만을 줘서 큰지 작은지 기준을 잡기가 어려움.
- ${\rho = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}}, -1 \le \rho \le1}$
- 공분산은 X, Y단위의 크기에 영향을 받음
- 상관계수는 공분산을 단위화한 값.
이산형 확률분포
-
베르누이 시행
- 실험의 결과의 범주가 2가지인 경우 (성공/실패)
- ${X}$ = 1(성공) / ${X} = 0(실패)
- ${f(x) = p^2(1-p)^{1-x}}$
- ex) 앞면이 성공인 동전 던지기
-
이항분포
- 성공확률이 p인베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포
- ${f(x) = \frac{n!}{x!(n-x)!}.p^x(1-p)^{n-x}}$
- ${n \ge x \ge 0}$, 정수
- ex) 동전 n번던져 앞면의 횟수
-
다항분포
- 다항시행 : 1회의 시행결과로 나올 수 있는 범주가 3개 이상(0또는 1 이상)이 되는 확률 시험
- k개 범주의 다항 시행을 n번 반복했을 때, 각 범주가 나타나는 횟수의 분포
- ${f(x_1, ..., x_K) = \frac{n!}{x_1!...x_K!}p_1^{x_1}...p_K^{x_K}}$
- ${x_K = (n - \sum_{K=1}^{K-1}x_K), p_K = 1 - \sum_{K=1}^{K-1}p_K, 0 \le x_K \le n, }$ 정수
- 주사위 n번 던져 각 눈이 나온 횟수
-
포아송분포
- 주어진 단위 구간 내 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수
- 사건의 평균 발생 횟수는 단위 구간에 비례.
- 두개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.
- 어떤 단위 구간의 사건의 발생은 다른 단위 구간의 발생으로부터 독립적
- 평균이 $\mu$인 포아송 분포
- ${f(x) = \frac{\mu^x e^{-\mu}}{x!}}$
- ${x \le 0, }$ 정수
- ex) 1시간동안 걸려온 전화의 수, 100페이지 안에 있는 오타의 수
- 주어진 단위 구간 내 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수
연속형 확률 분포
-
지수분포
- 평균 소요시간이 $\mu$인사건이 발생하기까지 걸리는 소요시간
- ${f(x) = \frac{1}{\mu}e^{\frac{1}{\mu}x}}$
- ${x \ge 0}$
- 평균 소요시간이 $\mu$인사건이 발생하기까지 걸리는 소요시간
-
정규분포
- ${f(x) = \frac{1}{ \sqrt{2\pi\sigma^2}}e^{\frac{(x-\mu)^2}{2\sigma^2}}}$
- ${ -\infty \le x \le \infty}$
-
표준정규분포
- 평균이 0이고 분산이 1인 정규분포
- 구간확률이 특정한 확률로 정의되어있음
- 표준편차의 1배 : 68.2%, 2배 : 약 95%
반응형
'Study > ML_Basic' 카테고리의 다른 글
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 회귀분석_수학적 개념 이해(2) - 통계적 추론과 검정통계 (0) | 2020.12.08 |
---|---|
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (3) (0) | 2020.09.30 |
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (2) (0) | 2020.09.30 |
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (1) (0) | 2020.09.30 |
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 처리를 위한 Python(Numpy)(2) (0) | 2020.09.30 |