Relationship of childhood abuse and household dysfunction to many of the leading causes of death in adults — The Adverse Childhood Experiences (ACE) Study
Felitti VJ et al · Am J Prev Med 1998
ACE Study — 어린시절 학대·가정 기능장애가 성인기 사망 주요 원인(심혈관·암·당뇨·간질환·자살)과 강하게 연결된다. 정서·가족 위험 도메인 학술 근거.
→ PubMed
PMID 8379800
Stress and the individual — Mechanisms leading to disease
Kuh D, Ben-Shlomo Y et al · J Epidemiol Community Health 2003
생애주기 역학 — 어린시절·청소년기·성인기 위험 노출이 누적·연쇄되어 만성질환을 형성한다는 통합 모델. 본 시뮬레이터의 Stage 1·2·3 구조 학술 근거.
→ PubMed
PMID 26440472
Childhood obesity as a predictor of morbidity in adulthood — A systematic review and meta-analysis
Llewellyn A et al · Obes Rev 2016
소아비만 → 성인 질환 메타분석 — 어린시절 BMI·체형이 성인기 당뇨·심혈관·암 morbidity의 유의한 예측인자. A6 체형·A1 영양 도메인 학술 근거.
→ PubMed
★ M1 평가축 명시
M1 = 랭킹 집계기 (분류 지표 미보고)
M1은 분류기가 아니라 8 OOF 랭킹 집계기 — 단일 AUROC가 아니라 랭킹·집계 지표로 평가합니다. 8 도메인 OOF 확률을 통합해 학생을 생활습관 다중위험으로 순위화하며, 아래 4개 실측 지표가 그 변별력을 보여줍니다.
지표 ①
다중위험 순위 일관성(AUROC)
0.928
≥3/8 도메인 위험 학생 변별 (전역 OOF). 단일 분류 AUROC가 아닌 다중위험 랭킹 변별력.
지표 ②
PR-AUC (불균형 보정)
0.86
고위험 기저율 33.1% 대비 불균형 보정 지표. 양성률 imbalanced 환경에서 신뢰성 높음.
지표 ③
상위 10% 정밀도
0.91
랭킹 상위 10% 구간 정밀도. 기저 대비 2.74× lift — 핀셋 개입 우선순위의 운영 핵심 지표.
지표 ④
도메인 8종 평균 AUROC
0.878
M1 입력 8 분류기 산술 평균. 정확한 8 도메인 OOF가 M1 집계의 신뢰 기반 (참고치).
★ 핵심:
8 도메인 분류기(평균 AUROC 0.878)가 정확하기에 그 OOF를 집계하면 다중위험 학생이 잘 순위화됨(AUROC 0.928)을 실측으로 보였다.
자아신체상 회귀 R²=0.018은 부적합 타깃으로 폐기했고 분류 지표(AUROC·Recall·혼동행렬)는 보고하지 않는다.
5단계 미래 로드맵 (기획안)
★ 가디언 v5.2 실측 구축이 완료된 현 시점부터 융합시스템 v3.0 출시까지
2025·09 ~ 2026·05 · 현재 ★
가디언 v5.2 (Stage 1 실측 · 본 출품작)
7종 공공데이터 통합 학습 완료 · 10 도메인 + M1 메타 랭킹 집계기 · 다중위험 순위 일관성(AUROC) 0.928 · G3·G4·G5 80% 충족 · GroupKFold(school) 5-fold 검증.
2026·06 ~ 2026·12 · 데이터 확장
G1·G2 게이트 통과 (KYRBS 원시 + 미수집 6종)
KYRBS IRB 신청 (2026-06-15) + 학교폭력·결석률·정신건강·교통·환경·소득 6종 통합 + KEEP/KoGES 종단 데이터 결합 협약.
2027·01 ~ 2027·06 · Stage 2
청년기 (19~39세) 라벨 정의 + 학습
KNHANES 19-39 + BRFSS 2020 결합 · PSS-5·MET·식습관 7 라이프스타일 라벨 · 연결 함수 v7.0 공개.
2027·07 ~ 2028·06 · Stage 3
중장년기 (40~80세) 코호트 결합
NHANES 2017-18 + UCI Parkinson + KCYPS 종단 · 표본 외삽 위험 명시 · Validate-Before-Train 게이트 다중 검증.
2028·07 ~ 2028·12 · 출시
융합시스템 v3.0 정식 가동
G1~G6 6/6 충족 · 운영비 연 5억원 · 인력 8명 · 교육청 정책 환류 체계 · 시민 패널 분기 1회 · 사후 모니터링 6개월.
MVP 가상 시뮬레이션 — 학생 페르소나 P03
★ 가상 시연 (Mockup) · 실제 예측 결과 아님 · 가디언 v5.2 도출 → 융합시스템 시뮬레이터 출력 형태 미리보기
▶ Stage 1 · 학생기 (실측)
P03 — 중3 여학생 · 가디언 도출 TOP3 위험
현재 (15세)
A5 정서 위험 ★
스트레스 부하 T10 = 78점 · WEE 상담 5회 · PHQ-9 proxy = 9점
현재 (15세)
A3 수면 부족 ★
자가보고 평균 수면 5.2시간 · ChronoStability T8 = 변동성 높음
현재 (15세)
A1 영양 위험 ★
학교급식 만족도 낮음 · MealVariety T15 = 하위 30% · 야간 식습관
▶ Stage 2 · 청년기 (가설 시뮬레이션)
→ 25세 · 가설적 경로 (Barker DOHaD + ACEs 가설)
25세 시뮬
우울증·불안장애 가능성
PMID 9635069 (ACEs) — 학생기 정서 위험이 청년기 정신건강 질환으로 이어질 확률 OR=4.6
⚡ 본 시뮬레이션의 한계 명시 (정직 공개):
• 같은 개인 P03의 15세→25세→55세 실제 추적 데이터는 보유하지 않음 (종단 코호트 부재)
• 25세·55세 경로는 5건 PMID 학술 가설에 기반한 가설적 시각화 · 개인 예측 아님
• 정밀 의료 예측 도구가 아닌 본인·학부모·교사 동기 부여 도구로서의 의의에 한정
• Stage 2·3 실측 학습은 KEEP·KoGES·NHANES·BRFSS 결합 후 2027~2028 진행 예정
★ 정직 공개
Kaggle 데이터 사용 정직 공개
가디언 본체 (Identify/Navigate) : 7종 교육 공공데이터만 사용. Kaggle 데이터는 학습 모델에 미포함.
시뮬레이터 (Simulate) MVP : Kaggle 5대 질환 데이터셋(stroke / heart-disease / diabetes / parkinsons / alzheimers)을 참조 카드로만 제시. 실제 학습은 향후 NHANES·BRFSS·KEEP·KoGES 공식 데이터로 대체 예정.
Kaggle 의료 데이터셋 출처 신뢰성 경고 : fedesoriano/stroke-prediction-dataset은 McKinsey 비공개 데이터에서 파생 · 원시 출처 confidential. 보험 액추리얼·임상 사용 전 공식 분포 검증 필수.
본문 정직성 ⑤ "Kaggle 직접 사용 안 함"은 학습용 미사용 의미 — 본 시스템에서 자진 명확화.