Study/ML_Basic

    머신러닝과 데이터 분석 A-Z 올인원 패키지 - 회귀분석_수학적 개념 이해(2) - 통계적 추론과 검정통계

    위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 통계적 추론 모집단에 대해 알고싶은데 정보가 부족한 경우, 표본으로부터 모집단의 모수를 알아내고자 하는 과정. 점추정(Point estimation) 추정량을 통해 모수를 추정 ex) ${\bar{X}, s^2 \to \mu, \sigma^2}$ 구간 추정(Interval estimation) 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 제시 신뢰수준유의수준($\alpha$)과 구간의 길이는 반비례 대립가설(H1) 입증하여 주장하고자 하는 가설 귀무가설(H0) 대립가설의 반대가설 귀무가설이 아니라는 충분한 증거를 데이터로부터 보임으로써 대립가설을 입증 귀무가설 하에서 통계량의 분포를 아는 것이 검정의 핵심 오류의 종..

    머신러닝과 데이터 분석 A-Z 올인원 패키지 - 회귀분석_수학적 개념 이해(1) - 확률과 통계

    위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 통계학이란? 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합 일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로 한 분석은 불가능함 그래서 우리는 일부를 뽑아서 모집단을 대체함 표본(Sample) : 모집단의 일부분의 관측값들 모수(Parameter) : 수치로 표현되는 모집단의 특성. 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양 자료의 종류 수치형(양적 자료) 연속형(ex) 몸무게, 키) : 연속적인 수치값 이산형(ex) 전화 통화 수) : 정수로 떨어지는 것들 범주형(질적 자료) 순위형(ex) 학점) : 순서가 있음 명목형(ex) 성별) : 순서가 없음 자료의 종..

    머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (3)

    * 위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 1. DataFrame group by 이해하기¶ In [1]: import pandas as pd import numpy as np group by¶ 아래의 세 단계를 적용하여 데이터를 그룹화(groupping) (SQL의 group by 와 개념적으로는 동일, 사용법은 유사) 데이터 분할 operation 적용 데이터 병합 In [21]: # data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data df = pd.read_csv('./train.csv') df.head() Out[21]: PassengerId Survived Pclass Name Sex Age..

    머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (2)

    * 위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 1. Dataframe data 살펴보기¶ DataFrame¶ Series가 1차원이라면 DataFrame은 2차원으로 확대된 버젼 Excel spreadsheet이라고 생각하면 이해하기 쉬움 2차원이기 때문에 인덱스가 row, column로 구성됨 row는 각 개별 데이터를, column은 개별 속성을 의미 Data Analysis, Machine Learning에서 data 변형을 위해 가장 많이 사용 In [1]: import pandas as pd import numpy as np In [2]: # data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data ..

    머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 분석을 위한 Python(Pandas) – (1)

    * 위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 1. pandas Series 데이터 생성하기¶ In [1]: import numpy as np import pandas as pd pandas의 중요한 객체 : Data Frame!!¶ 엑셀 파일과 같은 차트 ex) 이름 키 몸무게 홍길동 162 50 김철수 180 78 Series¶ pandas의 기본 객체 중 하나 dataframe에서 파생된 결과로 series가 많이 사용됨 numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄 index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용 같은 타입의 0개 이상의..

    머신러닝과 데이터 분석 A-Z 올인원 패키지 - 데이터 처리를 위한 Python(Numpy)(2)

    * 위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 2.broadcasting 이해 및 활용하기 브로드캐스팅이란? shape이 같은 두 ndarray에 대한 연산은 각원소별로 진행 연산이 되는 두 ndarray가 다른 shape를 갖는 경우, 브로드캐스팅(shape을 맞춤) 후 진행 행렬이 맞지 않는 데이터를 행렬을 맞춰서 연산 진행! 뒷 차원에서부터 비교하여 shape이 같거나 차원 중 값이 1인 것이 존재하면 가능 shape이 같은 경우의 연산 x = np.arnage(9).reshape(3,3) y = np.arange(9).reshape(3,3) x + y [[ 0, 2, 4], [ 6, 8, 10], [14, 16, 18]] scalar(상수)와의 연산 x + 1 # ..

    머신러닝과 데이터 분석 A-Z 올인원 패키지-데이터 처리를 위한 Python(Numpy) – (1)

    * 위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 1. numpy 모듈 & ndarray 이해하기 nunpy를 사용하는 이유 성능 : 파이썬 리스트보다 빠름 메모리 사이즈 : 파이썬 리스트보다 적은 메모리 사용 빌트인 함수 : 선형대수, 통계관련 여러 함수 내장 ndarray란? numpy에서 사용되는 다차원 리스트를 표현할 때 사용되는 데티어 타입 numpy모듈 함수 이용하여 ndarrary 데이터 생성하기 # numpy package import import numpy as np import matplotlib.pyplot as plt x = np.array([1, 2, 3]) ## ndarray 생성 y = np.array([2, 4, 6]) np.array로 함수 생성..

    머신러닝과 데이터 분석 A-Z 올인원 패키지-데이터 수집을 위한 Python(2)

    * 위 강의노트는 패스트캠퍼스에서 주관하는 강의를 수강하고 작성한 노트입니다. 데이터 수집을 위한 Python 1. beautifulsoup 모듈 breautifulsoup 모듈 사용하여 HTML 파싱하기(parsing) parsing이란? html 모듈 내에서 우리가 원하는 특정 값만 추출하는 과정 from bs4 import BeautifulSoup # 모듈 실행 html 문자열 파싱 문자열로 정의된 html 데이터 파싱하기 html = ''' Contents Title Test contents Test Test Test 1 Test Test Test 2 Test Test Test 3 ''' find 함수 특정 html tag를 검색 검색 조건을 명시하여 찾고자 하는 tag를 검색 soup = Bea..