일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 양적
- GLM
- 로지스틱회귀
- 통계독학
- 통계
- 이화여자대학원
- 가볍게 시작하는 통계학습
- 사후확률
- Predict
- 파이썬
- R
- Train
- 종속변수
- ISLR
- 질적
- 특수대학원
- 설명변수
- Qualitative
- Quantitative
- 대학원
- Introduction to Statistical Learning
- 데이터사이언스
- 데이터
- 머신러닝
- dim()
- 데이터사이언스 대학원
- Today
- Total
목록통계 (5)
하고 싶은 건 하면 되지

ISLR 5.4 Exercises 5번 문제를 풀다가 마주친 개념이다. 문제 Obtain a prediction of default status for each individual in the validation set by computing the posterior probability of default for that individual, and classifying the individual to the default category if the posterior probability is greater than 0.5. validation set의 각 개인에 대한 default 사후 확률을 계산하고 사후 확률이 0.5보다 큰 경우 해당 개인을 default 카테고리로 분류하여 default 상태..
ISLR 5.4 Exercises 에서 5번 문제를 풀다가 배우게 된 내용이다. validation 을 진행하기 위해 전체 데이터를 1) train 데이터와 2) validation 데이터로 나누고자 한다. (test 데이터도 만들 수 있지만 여기서는 이렇게 두 가지만 사용하는 것이 가정이다.) 아래와 같이 만들어주면 된다. train
glm() 함수에서 glm이란? Generalized Linear Model, 일반화 선형 모형이라는 뜻이다. 회귀 분석이나 분산 분석은 종속 변수가 정규분포인 연속형 변수이다. 하지만 종속 변수가 정규분포라고 가정할 수 없는 경우도 있으며 범주형 변수가 종속 변수인 경우도 있다. - 종속 변수가 범주형인 경우: 이항 변수나 다항 변수인 경우, 정규분포라고 할 수 없다. - 종속 변수가 count인 경우: 값이 매우 제한적이며 음수가 되지 않고 정규분포라고 할 수 없다. (ex. 하루에 그루밍하는 횟수) 즉, 종속 변수가 정규분포를 따르지 않는 경우에 쓰는 모형이고 선형으로 모델링 해주는 함수이다. (참고 사이트: https://rstudio-pubs-static.s3.amazonaws.com/41074..
Quantitative Data Quantitative data refers to any information that can be quantified, counted or measured, and given a numerical value. - 세거나 측정될 수 있는, 숫자로 표현된 데이터 Qualitative Data Qualitative data is descriptive in nature, expressed in terms of language rather than numerical values. - 언어로 표현되는 데이터(숫자로 표현할 수 없는 데이터) Categorical vs. Numerical 과 헷갈렸다. Quantitative ~ Numerical Categorical ~ Qualita..

대학원 수업 교재로 사용하고 있는 책이다. 통계를 통해 머신러닝을 배울 수 있는 책 중 가장 유명한 책이라고 한다. 제목은 An Introduction to Statistical Learning 한국어 제목은 가볍게 시작하는 통계학습으로 번역되어 있다. 대부분의 외국 서적들이 그렇듯이 원서로 읽는 게 좋다고 하는데 한국에서 구매하기에는 가격이 정말 비싸지만 구글링을 하면 PDF를 무료로 다운받을 수 있다. 기본적으로 R을 사용하지만 최근에 Python을 이용한 버전도 새로 나왔다고 한다. 또한 책 말고 별도 홈페이지에서 저자들이 강의를 하기도 한다. 시간만 된다면... 다 들어볼텐데 ^^.. ㅎㅎ https://www.statlearning.com/ An Introduction to Statistical..