머신러닝과 데이터 분석 A-Z 올인원 패키지 - 회귀분석_수학적 개념 이해(1) - 확률과 통계

2020. 12. 3. 20:25·AI Study/ML_Basic
반응형

위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 

 

통계학이란?

  • 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합

    • 일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로 한 분석은 불가능함
    • 그래서 우리는 일부를 뽑아서 모집단을 대체함
  • 표본(Sample) : 모집단의 일부분의 관측값들

  • 모수(Parameter) : 수치로 표현되는 모집단의 특성.

  • 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양

자료의 종류

  • 수치형(양적 자료)
    • 연속형(ex) 몸무게, 키) : 연속적인 수치값
    • 이산형(ex) 전화 통화 수) : 정수로 떨어지는 것들
  • 범주형(질적 자료)
    • 순위형(ex) 학점) : 순서가 있음
    • 명목형(ex) 성별) : 순서가 없음
  • 자료의 종류별 분석 방법론
반응변수 설명변수
범주형 연속형
범주형 범주형자료분석
(카이스퀘어)
로지스틱회귀분석
연속형 분산분석 회귀분석

자료의 요약 - 그림, 표

우리가 가진 자료가 많을 때, 그 자료의 그림을 통해 분포와 자료의 관계 등을 알 수 있다.

  • 범주형 자료
    • 도수분포표
    • 막대/원형 그래프
  • 연속형 자료
    • Box plot
    • 히스토그램(Histogram)

자료의 요약 - 수치

  • 모집단 개체의 수 : N
  • 중심 경향값(대표값)
    • 평균(Mean) : ${\mu = \frac{x_1 + ...+x_N}{N} = \frac{ \sum\limits_{i=1}^N x_i}{N}}$
      • 특정한 값이 매우 크거나 작으면 영향을 많이 받는다
    • 중앙값(Median) : 크기순으로 정렬시켜 중앙에 위치한 값.
    • 최빈값(Mode): 가장 자주 나오는 값
  • 산포도(퍼진 정도)
    • 분산(Variance) : $\sigma^2 = \frac{\sum\limits_{i=1}^N(x_i - \mu)^2}{N}$
      • 특정한 값이 매우 크거나 작으면 영향을 많이 받음
    • 사분위수 범위(Inter quartile range)
      • 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
  • 정규분포
    • 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포
    • 위치는 평균에 의해, 모양은 분산에 의해 결정.
  • 분포도
    • 왜도(Skewness)
      • 분포의 비대칭 정도
      • Left_skewed를 Negative skewed로 표현하기도 함.
    • 첨도(Kurtosis)
      • 분포의 꼬리 부분의 비중에 대한 측도
      • ${K_s = 0}$
        • 뾰족한 정도가 정규분포와 동일

통계량과 추정량

  • 모수(Parameter) : 수치로 표현되는 모집단의 특성.
  • 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양
  • 추정량(Estimator) : 모수를 추정하고자 하는 목적을 지닌 통계량
  • 추정량의 종류(표번관측치의 개수 :
    • 표본평균 : ${\bar{X} = \frac{\sum_{i=1}^{n} x_i}{n}}$
    • 표본분산(Sample variance) : ${s^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n-1}}$

 

확률

  • 확률실험(Random experiment) : 다음과 같은 속성을 지닌 관찰이나 인위적인 실험

    • 실험의 결과는 미리 알 수 없다.
    • 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다.
    • 이론적으로는 실험을 반복할 수 있다.
  • 표본공간(Sample space) : 모든 결과들의 모임.

  • 근원사건(Sample outcome) : 표본 공간의 원소.
  • 사건(Event) : 표본 공간의 부분집합. 근원사건의 집합

    • 배반 사건(Multually exclusive event) : 서로 교집합이 공집합인 사건

  • 확률

    • 어떠한 사건이 일어날 가능성의 정도
      • ${P(A)}$
    • 근원사건이 일어날 가능성이 동일할 때의 계산
      • ${P(A) = \frac{n(A)}{n(S)}}$
    • 확률의 공리
      • ${0 \le P(A) \le 1}$
      • ${P(S) = 1}$
      • 어떠한 사건들${A_i, i = 1, ..., n}$ 이 서로 배반사건일 때, 이 사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다.
        • ${P(\cup_{i= 1,...n} A_i) = \sum_{i = 1}^{n} P(A_i)}$
  • 조건부 확률
    • 사건 B에 대한 정보가 주어졋을 때 사건 A의 교정된 확률
    • B가 주어졌을 때 사건 A의 조건부 확률 : ${P(A|B) = \frac{P(A \cap B)}{P(B)}}$
  • 독립
    • 사건 A와 B가 서로에게 아무런 영향을 미치지 않을 때 ${P(A|B) = P(A), P(B|A) = P(B)}$
    • ${P(A \cap B) = P(A)P(B)}$
  • 확률변수

    • 각각의 근원사건들에 실수값을 대응시키는 함수
    • ex) 두 쌍의 동전을 던지는 확률 실험에서, : 동전 앞면의 개수.
  • 확률분포

    • 확률변수에서 확률값으로의 함수. 주로 ${f(x)}$ 로 표기
  • 확률변수의 기대값
    • 확률변수의 중심 경향값, 흔히 평균이라 칭함
    • ${E(X) = \mu = \sum_{i = 1}^{n}x_if(x_i)}$
  • 확률변수의 분산
    • ${Var(X) = E(X - \mu)^2 = \sum_{i=1}^{n}(x_i - \mu)^2.f(x_i)}$
  • 공분산
    • 변수가 2개 있을 때
    • 두개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타낸 측도
    • X, Y가 독립이면 ${Cov(X, Y) = 0}$
  • 상관계수
    • 공분산의 단점 : 제한된 정보만을 줘서 큰지 작은지 기준을 잡기가 어려움.
    • ${\rho = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}}, -1 \le \rho \le1}$
    • 공분산은 X, Y단위의 크기에 영향을 받음
    • 상관계수는 공분산을 단위화한 값.

이산형 확률분포

  • 베르누이 시행

    • 실험의 결과의 범주가 2가지인 경우 (성공/실패)
    • ${X}$ = 1(성공) / ${X} = 0(실패)
    • ${f(x) = p^2(1-p)^{1-x}}$
    • ex) 앞면이 성공인 동전 던지기
  • 이항분포

    • 성공확률이 p인베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포
    • ${f(x) = \frac{n!}{x!(n-x)!}.p^x(1-p)^{n-x}}$
      • ${n \ge x \ge 0}$, 정수
    • ex) 동전 n번던져 앞면의 횟수

 

  • 다항분포

    • 다항시행 : 1회의 시행결과로 나올 수 있는 범주가 3개 이상(0또는 1 이상)이 되는 확률 시험
    • k개 범주의 다항 시행을 n번 반복했을 때, 각 범주가 나타나는 횟수의 분포
    • ${f(x_1, ..., x_K) = \frac{n!}{x_1!...x_K!}p_1^{x_1}...p_K^{x_K}}$
    • ${x_K = (n - \sum_{K=1}^{K-1}x_K), p_K = 1 - \sum_{K=1}^{K-1}p_K, 0 \le x_K \le n, }$ 정수
    • 주사위 n번 던져 각 눈이 나온 횟수
  • 포아송분포

    • 주어진 단위 구간 내 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수
      • 사건의 평균 발생 횟수는 단위 구간에 비례.
      • 두개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.
      • 어떤 단위 구간의 사건의 발생은 다른 단위 구간의 발생으로부터 독립적
    • 평균이 $\mu$인 포아송 분포
      • ${f(x) = \frac{\mu^x e^{-\mu}}{x!}}$
      • ${x \le 0, }$ 정수
    • ex) 1시간동안 걸려온 전화의 수, 100페이지 안에 있는 오타의 수

연속형 확률 분포

  • 지수분포

    • 평균 소요시간이 $\mu$인사건이 발생하기까지 걸리는 소요시간
      • ${f(x) = \frac{1}{\mu}e^{\frac{1}{\mu}x}}$
      • ${x \ge 0}$
  • 정규분포

    • ${f(x) = \frac{1}{ \sqrt{2\pi\sigma^2}}e^{\frac{(x-\mu)^2}{2\sigma^2}}}$
    • ${ -\infty \le x \le \infty}$
  • 표준정규분포

    • 평균이 0이고 분산이 1인 정규분포
    • 구간확률이 특정한 확률로 정의되어있음
      • 표준편차의 1배 : 68.2%, 2배 : 약 95%
반응형

'AI Study > ML_Basic' 카테고리의 다른 글

머신러닝과 데이터 분석 A-Z 올인원 패키지 - 회귀분석_수학적 개념 이해(2) - 통계적 추론과 검정통계  (0) 2020.12.08
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (3)  (0) 2020.09.30
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (2)  (0) 2020.09.30
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (1)  (0) 2020.09.30
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 처리를 위한 Python(Numpy)(2)  (0) 2020.09.30
'AI Study/ML_Basic' 카테고리의 다른 글
  • 머신러닝과 데이터 분석 A-Z 올인원 패키지 - 회귀분석_수학적 개념 이해(2) - 통계적 추론과 검정통계
  • 머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (3)
  • 머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (2)
  • 머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (1)
자동화먹
자동화먹
많은 사람들에게 도움이 되는 생산적인 기록하기
    반응형
  • 자동화먹
    자동화먹의 생산적인 기록
    자동화먹
  • 전체
    오늘
    어제
    • 분류 전체보기 (144)
      • 생산성 & 자동화 툴 (30)
        • Notion (24)
        • Obsidian (0)
        • Make.com (1)
        • tips (5)
      • Programming (37)
        • Python (18)
        • Oracle (6)
        • Git (13)
      • AI Study (65)
        • DL_Basic (14)
        • ML_Basic (14)
        • NLP (21)
        • Marketing&Recommend (4)
        • chatGPT (0)
        • etc (12)
      • 주인장의 생각서랍 (10)
        • 생각정리 (4)
        • 독서기록 (6)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    파이토치
    notion
    Jupyter notebook
    GPT
    데이터분석
    LSTM
    git
    Python
    nlp
    cnn
    ML
    pytorch
    seq2seq
    딥러닝
    파이토치로 시작하는 딥러닝 기초
    노션첫걸음
    노션
    기초
    gcp
    Google Cloud Platform
    Github
    Transformer
    데이터베이스
    머신러닝
    python기초
    자연어처리
    빅데이터분석
    git commit
    빅데이터
    dl
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
자동화먹
머신러닝과 데이터 분석 A-Z 올인원 패키지 - 회귀분석_수학적 개념 이해(1) - 확률과 통계
상단으로

티스토리툴바