안녕하세요 슬기로운 직장생활 블로그 운영자입니다^^
논문 통계 공부방법입니다.
일단 방법론에 대해서 공부해야겠죠, 제일 많이 쓰이는 분석은 로지스틱 회귀분석과 생존분석입니다.
둘 다 GLM이라는 범주에 들어가는 모델인데요, GLM에 대해서 다루는 과목은 '범주형 자료 분석'입니다.
그래서 모델에 대해서 좀 더 알고 싶다면 '범주형 자료 분석'을 보면 됩니다.
각 모델의 모수를 찾기 위해서는 과거 선형 회귀분석처럼 계산식으로 딱 표현되지 않기 때문에, 컴퓨터를 이용한 수치해석 방법을 통해 해를 찾게 됩니다.
그래서 모수를 찾는 것에 대해서는 깊게 탐구하시지 않는 것을 권합니다. 어차피 손으로 풀 수가 없거든요.
뉴턴 랩슨, 반복적인 가중평균 회귀분석 등의 알고리즘을 통해서 수치적으로 문제를 풀게 됩니다.
그러면 주의 깊게 봐야 하는 부분은 어느 부분일까요?
바로 링크 펑션과 그 링크 펑션에 담겨있는 통찰력을 주의 깊게 보셔야 합니다.
y=Xbeta의 선형 회귀모형에서 y=linkfuction(Xbeta)의 식으로 변환이 된 모형이 GLM이라고 보시면 됩니다.
GLM에는 또 분포 가정이 필요한데요, y~binomial 분포를 따른다고 가정하면 로지스틱 회귀모형이 됩니다.
그리고 생존분석의 경우에는 proportional hazard 펑션과 지수 분포가 쓰이는 것 같습니다.
GLM의 구성요소는 아래와 같습니다.
- 특정 지수분포
- 링크 펑션
- 선형 회귀모형
어떤 GLM모델을 접할 때 위의 세 가지가 무엇인지 확인하고 가야 합니다. 그게 기본인 거죠. 그리고 특정 지수 분포가 왜 사용되는지 일반적인 확률분포의 성질에서 생각해본다면 모형의 의미를 더 느낄 수 있습니다.
링크 펑션에 담겨있는 통찰력이라는 것이 무엇인지는 링크 펑션의 성질을 살펴보고, 분포와 어떻게 어우러지는지,
posterior, prior가 무엇인지 등등 여러 가지 논의할 이야기가 많겠지만 그건 통계학도들이 하는 작업들입니다.
너무 깊게 가지는 마시고 링크 펑션의 성질, 그리고 모델 해석할 때 주의할 점 등을 기억하는 것이 좋습니다.
그리고 GLM의 각 모수의 검증에 대해서는 카이제곱 극한 분포를 통한 검증이 이루어집니다.
log의 최대 가능도를 씌운 함수들이 카이제곱 분포로 수렴하는 성질을 이용해서 모양은 카이제곱 검증 모양으로 나오는데요, 카이제곱의 자유도나 이런 건은 일반적인 선형 회귀모형의 ANOVA테이블과 비슷합니다.
- 범주형 자료 분석 책을 본다. (링크 펑션의 모양새에 따른 다양한 모형 확인하기, GLM의 탄생 배경 확인하기, GLM 검증이 왜 카이제곱 모양으로 나오는지 확인하기, GLM에서 가정하는 각 분포는 무엇인지 확인하기)
- 논문 통계 책을 본다.(방법론의 적용 및 해석 방법, R이나 SAS코드 등 참고, 분석상 주의할 점 확인, 모델에 넣기 전에 표준화하는 방법 등 참고)
- 궁금한 점이 있다면 수리통계의 확률분포, 추론, 검증 부분을 공부한다.
- 일반적인 회귀모형의 변수 선택, 검증, ANOVA테이블 등이 궁금하다면 일반 통계학 책이나 회귀분석 책의 해당 부분을 본다.
일반적으로 1,2번 정도만 해도 충분합니다.
2번만 하시는 분도 많습니다. 하지만 그분들은 남들이 다뤄놓은 케이스와 비슷하면 잘할 수 있지만, 그렇지 않다면 난관에 봉착하게 될 수 있습니다. 기초가 없으니까요.
기초가 있어야 응용이 되는 건 논문 통계의 세계에도 적용될 것 같습니다.
'논문통계 및 통계공부' 카테고리의 다른 글
커널 서포트 백터 머신(걸쳐저 있는 부분의 분류기능 향상) (0) | 2021.02.08 |
---|---|
(분석에 필요한 기술) 스케일링 하기, 다중공선성 다루기 (0) | 2021.02.08 |
데이터 사이언스 스쿨 소개 (0) | 2021.02.08 |
로지스틱 회귀분석의 모수 추정 (0) | 2021.02.08 |