[책 리뷰] Clinical Prediction Models (Ewout W. Steyerberg, 2019) 원문보기
연구지도 시간에 리뷰해야 해서 읽게 됨
공부한 내용은 챕터별로 정리해서 업로드 할 건데 저작권 문제 때문에 비공개 해놓을 예정
대신 공개 설정된 본 문서에 챕터별로 진도 체크, 간단한 요약, 생각해볼 것을 기록함
순번 |
챕터명 |
진도 |
요약 |
생각 |
|
00 |
Preface |
o |
o |
o |
보기 |
01 |
Introduction |
o |
|
|
|
- Part 1. Prediction Models in Medicine -
|
|
|
|
|
02 |
Applications of Prediction Models |
|
|
|
|
03 |
Study Design for Prediction Modeling |
|
|
|
|
04 |
Statistical Models for Prediction |
|
|
|
|
05 |
Overfitting and Optimism in Prediction Models |
|
|
|
|
06 |
Choosing Between Alternative Models |
|
|
|
|
- Part 2. Developing Valid Prediction Models -
|
|
|
|
|
07 |
Missing Values |
|
|
|
|
08 |
Case Study on Dealing with Missing Values |
|
|
|
|
09 |
Coding of Categorical and Continuous Predictors |
|
|
|
|
10 |
Restrictions on Candidate Predictors |
|
|
|
|
11 |
Selection of Main Effects |
|
|
|
|
12 |
Assumptions in Regression Models: Additivity and Linearity |
|
|
|
|
13 |
Modern Estimation Methods |
|
|
|
|
14 |
Estimation with External Information |
|
|
|
|
15 |
Evaluation of Performance |
|
|
|
|
16 |
Evaluation of Clinical Usefulness |
|
|
|
|
17 |
Validation of Prediction Models |
|
|
|
|
18 |
Presentation Formats |
|
|
|
|
- Part 3. Generalizability of Prediction Models -
|
|
|
|
|
19 |
Patterns of External Validity |
|
|
|
|
20 |
Updating for a New Setting |
|
|
|
|
21 |
Updating for Multiple Settings |
|
|
|
|
- Part 4. Applications -
|
|
|
|
|
22 |
Case Study on a Prediction of 30-Day Mortality |
|
|
|
|
23 |
Case Study on Survival Analysis: Prediction of Cardiovascular Events |
|
|
|
|
24 |
Overall Lessons and Data Sets |
|
|
|
|
00 Preface
- 요약
의학 분야 출판물을 보면 모델링을 해놓은 꼬라지가 좀 별로인 경우가 많음. 요즘 데이터도 풍부하고 모델링 방법론도 쏟아져 나오고 있는데 발전이 없음. 종속변수 무조건 이분형으로 변환하기, 결측치 있으면 그냥 버리기, 모델 validation도 안해봤으면서 뭔가 대단한 발견한 척 하기 등 여러 문제가 있음. 그래서 의학 분야 종사자, 통계학자들은 이 책을 읽고 제대로 prediction modeling을 하길 바람. 친절하게 소스코드도 제공하니 참고할 것.
- 생각
연구를 하는 사람이라면 모델링이라는 것을 할 때 꼭 생각해봐야 할 문제들을 제시해줌.
뭔가 조사하려고 기존 연구를 찾아보면 어떻게 모델을 만들었다는 건지 똑바로 서술해놓지 않아서 너무 답답한 경우가 많다. 이 책에서 결측치 있으면 데이터 버리는 거 지적하고 있는데 결측치 버렸다고 말이나 적어놓으면 다행이지 보통 뭐 적어놓지도 않음.
그리고 데이터가 어떻게 생겨먹었는지 보지도 않고, 적합한 모델링 방법이 있는지 찾아보지도 않고 그냥 로지스틱 회귀 모델 돌리고 그거 씀. metric 기술하면서 그게 뭔지도 모름. 하이퍼파라미터 있는 모델 쓰면서 어떻게 설정했는지 값도 기술 안함. 재현 가능성은 갖다버린 듯하다.
근데 그렇게 모델링 해도 저널에 게재되니까... 제대로 된 모델링이고 뭐고 안 해도 되는 것 아님? 이 책에서 제시하는 문제까지 복잡하게 생각하면 손해인 것 같기도 하다. 이 책을 읽어서 얻는 건 무엇일까... 그리고 문제를 모르는 사람들이 이 책을 찾아서 읽을까? 잘 모르겠다.