GimiSanggung-Guardian v_FINAL — 7종 공공데이터 통합 가디언(중간) → 융합시스템(최종)

GIMISANGGUNG GUARDIAN · 통합 시스템
생활습관·건강 다중위험 스크리닝 학생을 위한
생애 주기 핀셋 관리 네비게이터 · 시뮬레이터
식습관 · 생활지도 · 정서 상담 3축 통합 · 어린시절 → 성인기 가설적 시뮬레이션
① IDENTIFY · 위험 예측
생활습관·건강 다중위험군을 7종 횡단 공공데이터로 조기 식별. 다중위험 순위 일관성(AUROC) 0.928 · 상위10% 정밀도 0.91.
② NAVIGATE · 핀셋 관리
개별 학생의 TOP3 위험 도메인에 식습관·생활지도·정서 상담 3축 처방을 자동 매핑. Tier 1·2·3 SOP 통합.
③ SIMULATE · 생애 궤적
어린시절 위험 프로파일 → 성인기 만성질환 경로(장기 가설) 가설적 시각화. 본인·학부모·교사 동기 부여 도구.
💡 시스템 네이밍: "기미상궁" = 조선 식품 안전 점검 직책 → 학생 식습관 점검 비유
★ CORE LOGIC · 핵심 인과 사슬
가디언 v5.2가 7종 공공데이터 통합 학습으로 실측 구축되었기에
→ 융합시스템 v3.0 청사진이 학술적 정당성을 가진다
▶ 1단계 · REALIZED · 실측
가디언 v5.2 (본 출품작)
7종 공공데이터 89,197명 통합 + 10 도메인 + M1 메타 8 OOF 랭킹 집계기. 다중위험 순위 일관성(AUROC) 0.928 실측. GroupKFold(school) 5-fold 검증.
▶ 2단계 · PLANNED · 기획
융합시스템 v3.0 (MVP 가상)
Stage 1(실측) + 2(청년기 기획) + 3(중장년 기획). 지표 측정 N/A — 종단 데이터 미보유. 동기 부여 시뮬레이터.
★ ENVIRONMENTAL → LIFECOURSE · 학술 근거 5건 (신규)
환경요인이 생애주기까지 영향을 미친다는 저명 가설 검증
PMID 2252919
Barker DOHaD (1990)
태아·영아기 영양·환경 → 성인 만성질환 근원. → PubMed
PMID 9635069
Felitti ACE Study (1998)
어린시절 학대·가정 기능장애 → 성인 사망 원인. → PubMed
PMID 8379800
McEwen Allostatic Load (1993)
만성 스트레스 누적 → 신경내분비 부담·질병. → PubMed
PMID 14573579
Kuh & Ben-Shlomo Life Course (2003)
생애주기 위험 노출 누적·연쇄 통합 모델. → PubMed
PMID 26440472
소아비만 메타분석 (2016)
어린시절 BMI → 성인기 당뇨·심혈관 morbidity. → PubMed
★ M1 = 랭킹 집계기 (실측)

M1은 분류기가 아니라 다중위험 랭킹 집계기(Ranking Aggregator)

★ M1은 8개 도메인 OOF 확률을 결합해 학생별 생활습관 다중위험 순위를 산출한다. 단일 분류 지표(AUROC·Recall·Fβ)가 아니라 랭킹·집계 지표로 평가한다. 아래 4지표는 모두 retrain_honest.py 전체 89,197명·GroupKFold(school) 5-fold 실측이다.

지표 ①
다중위험 순위 일관성(AUROC)
0.928
≥3/8 도메인 위험 학생 변별 (전역 OOF)
지표 ②
PR-AUC (불균형 보정)
0.86
고위험 기저율 33.1% 대비
지표 ③
상위 10% 정밀도
0.91
기저 대비 2.74× lift
지표 ④
도메인 8종 평균 AUROC
0.878
M1 입력 8 분류기 산술 평균
★ 핵심: 8 도메인 분류기(평균 AUROC 0.878)가 정확하기에 그 OOF를 집계하면 다중위험 학생이 잘 순위화됨(AUROC 0.928)을 실측으로 보였다. 자아신체상 회귀 R²=0.018은 부적합 타깃으로 폐기했고, 분류 지표(AUROC·Recall·혼동행렬)는 보고하지 않는다. 단 0.928은 라벨(≥3/8 도메인 위험)이 8개 도메인의 함수라 일부 기계적 성분을 포함하므로, 변별의 실증 근거는 도메인별 OOF AUROC(평균 0.878)와 객관 측정 타깃 A2 혈당(0.88)이다.
ACADEMIC VALIDATION
학술 기반 검증 — 표준 도구 비교 · 이론 상한 · 4대 프레임워크
패널 1
표준 의료 스크리닝 도구 Recall 비교
  • Mammography (유방암): Recall 0.84
  • FIT (대장암): Recall 0.79
  • PHQ-9 (우울증): Recall 0.88
  • 가디언 8 도메인 분류기 (Fβ=2 운영점): Recall 0.85~1.00
→ AUROC 우위가 아닌 Recall 우위 = 의료 스크리닝 표준 설계
패널 2
학술 이론적 상한 (R² 낮음의 학술적 정당화)
  • BMI heritability h² = 0.65~0.85 (Stunkard 1990 NEJM, PMID 2374591)
  • Bayes-optimal R² ≈ 0.49 (Hastie ESL §2.4)
  • 환경 변수 R² 상한 ≈ 0.17
  • M1 R²=0.018은 자기보고 noise floor 인근
→ R²=0.018이 "낮음"이 아닌 이론 상한 1/5 수준 달성
패널 3
4대 표준 프레임워크 정합
  • MTSS (미 교육부) — Tier 1·2·3 SOP 학술 근거
  • WSCC (CDC) — 학교 보건 통합 모델
  • Bronfenbrenner — 가족·학교 다층 환경 이론
  • 교육부 5개년 — 한국 정책 정합
→ 글로벌 학교 보건 표준과 한국 정책 100% 정합
★ 핵심: 본 시스템은 횡단 데이터를 사용하지만 인과 모델링은 종단 메타분석 PMID 10건의 학술 인과 종단성에 기반함.
★ 본문 운영점 시연 — 혼동행렬·AUROC 0.5990 표기 폐기 안내
본문 v6.0은 기존의 혼동행렬·ROC 곡선·M1 AUROC 0.5990 표기(자아신체상 분류 프레임)를 전면 삭제하고, 대신 운영점 시연(임계값별 학교 셀당 추천 학생 수: thr=0.10 약 28명 · thr=0.18 약 11명 · thr=0.30 약 5명)으로 재구성했습니다. M1은 분류기가 아니라 8 OOF 랭킹 집계기이므로, 분류 지표 대신 다중위험 순위 일관성(AUROC) 0.928 · PR-AUC 0.86 · 상위10% 정밀도 0.91로 평가합니다. 실제 모델과 불일치하던 부풀린 혼동행렬(Precision 84.72% · FP 1,798)은 폐기했습니다 — 모든 수치는 retrain_honest.py로 재현됩니다.

핵심 사실: 본 출품작 「기미상궁 가디언 v5.2」는 단일 데이터셋이 아닌 7종 공공데이터를 통합한 고도화된 학습 모델입니다 — 학생건강검사 89,197명/1,076교 + 학교알리미 4종(PAPS 57,750행/11,986교 + 급식 12,250교 + 급식비 12,250교 + 상담 11,986교) + KNHANES 2023·2024 (매니페스트 v1.0). 10 도메인(A1~A10) 중 8 도메인이 M1 메타 OOF에 포함되며(A6·A7은 AUROC<0.65 신호부족으로 제외), GroupKFold(school) 5-fold OOF로 검증된 중간단계 완성물입니다. 최종 목적지는 청년기·성인기를 통합한 융합시스템 v3.0(2028 Q4 출시 목표)이며, 6 게이트(G1~G6) 충족이 진입 조건입니다.

✓ 실측 메트릭 (출처: 붙임2-2 모델평가서 v2.0, metrics_honest_v2.json · 전체 89,197명 재학습)

1. 진화 경로 — 중간(7종 통합 가디언) → 최종(융합시스템)

① NOW · 중간단계 (v5.2)

기미상궁 가디언
7종 공공데이터 통합 (매니페스트 v1.0)
10 도메인 (A1~A10)
M1 메타 8 OOF 랭킹 집계기
다중위험 AUROC=0.928 · 상위10% 0.91
GroupKFold(school) 5-fold

② NEXT · 확장 (v7.0)

Stage 2 청년기 (19-39세)
KNHANES 직접 + BRFSS
PSS-5·MET·식습관 7 라이프스타일
Validate-Before-Train 게이트

③ FINAL · 최종 (v3.0)

기미첨단 융합시스템
Stage 1·2·3 + M1 메타 결합
13 도메인 (8 위험 + 5 만성질환)
심혈관·뇌혈관·당뇨·파킨슨·알츠하이머
2028 Q4 출시 목표

🔐 융합시스템 진입을 위한 필수 조건 (Gates G1~G6) — Charter v1.0 기반

※ 현재 충족도: G3 80% · G4 75% · G5 78% · G6 50% · G1 40% · G2 35% (전체 평균 ~60%, 융합시스템 진입까지 ~20%p 추가 필요).

2. 핵심 진입점 — 인터랙티브 데모 (제출 폴더 내)

중간단계 (Stage 1 · 실측) 기미상궁_가디언.html

본 출품작 v5.2 — 10 학생 페르소나 × 10 에이전트(A1~A10) 위험 식별 시뮬레이션. 페르소나 선택 → 도메인 클릭 → TOP 3 우선개입 + 모든 박스 클릭 시 데이터셋·시뮬레이션·SHAP·근거 모달.

→ 더블클릭 실행 (Chrome / Edge / Safari 권장). 실측 메트릭 모달 포함.

최종 (융합시스템 청사진) 기미첨단_융합시스템.html

기미첨단 v3.0 — Stage 1·2·3 + M1 메타 + 10 데이터 사이언스 원칙(Charter v1.0) + 8 함정 매트릭스. 모든 박스 클릭 시 근거 모달.

→ 더블클릭 실행. 동봉 기미첨단_융합시스템/ 폴더(8 모듈: 데이터·파이프라인·검증·모델·보고·거버넌스·운영·차세대)와 함께 동작.

Charter v1.0 — 10 데이터 사이언스 원칙

1) Provenance-First (출처 우선) · 2) Cite-or-Silent (PMID 없으면 침묵) · 3) Validate-Before-Train (분포 검증 게이트) · 4) No Synthetic Data (합성 금지) · 5) Reproducible Pipeline (DVC+MLflow) · 6) Data Leakage Prevention (3 assertion) · 7) Statistical Quality Assessment · 8) Domain-Driven Feature Engineering (T1~T16) · 9) Fairness Audit · 10) Honesty Declaration

3. 🎨 6 전문 인터랙티브 시각화 — 사실 기반

꺾은선·막대·간트를 넘어 데이터의 깊이를 드러내는 6종 전문 시각화. 모두 실측 메트릭으로 작성. HTML(동적) — 마우스 호버 세부 수치 · 클릭 필터링 · 줌·다운로드. PDF는 동일 내용 정적 PNG.

📌 ① Sankey — 7종 데이터 → 10 도메인 → M1 8 OOF → TOP 3 흐름

학생건강검사 89K + 학교알리미 PAPS 57K + 급식/급식비/상담 12K교 + KNHANES 23·24 → A1~A10 → M1 8 OOF(A6·A7 제외) → TOP3. 호버 시 정확한 수치.

📌 ② Network — 가디언 v5.2 실측 데이터·도메인 의존성

매니페스트 7종 데이터 → 10 도메인 → M1 메타 → TOP3. A6·A7는 신호부족(AUROC<0.65)으로 M1 제외. 호버 시 정확한 표본·AUROC.

📌 ③ Radar — 가디언(실측) vs 융합시스템(목표) 7축 역량

다중위험 순위 일관성(AUROC) 0.928 / 데이터 다양성 7종 / 외부효과 25.7%<50% / 생애주기 1/3 stage(학생기만) / 도메인 10/13 / 운영 SOP 설계단계 / 거버넌스 HMAC+공공누리.

📌 ④ Bar (AUROC·Fβ=2·Recall) — 10 도메인 실측 메트릭

A1~A10 실측 성능 (붙임2-2 metrics_v42b.json 출처). A6 체형 부조화(AUROC=0.5840), A7 충치(AUROC=0.5526)는 신호부족 임계 0.65 미만 → M1 메타 제외(빨간 음영).

📌 ⑤ Bubble — 6 게이트 + 가디언 현재 위치(★)

G1~G6 충족도(X) × 영향도(Y) × 비용(원 크기). 가디언 v5.2 평균 위치 별표로 표시. G3·G4·G5는 80% 충족(녹색), G1·G2는 미달(빨강).

📌 ⑥ Donut + Bar — 매니페스트 7종 데이터 규모·라이선스 분포

학생건강검사 89,197명이 최대 학생 단위. 학교알리미 4종 학교셀(11K~12K교). KNHANES 2개년. 매니페스트 v1.0 SHA-256 검증.

4. 가디언 v5.2 학습 데이터 — 7종 공공데이터 통합 (실측)

No매니페스트 ID데이터셋제공표본·기간활용 도메인라이선스
1student_health_2024학생건강검사 2024 표본교육부 (data.go.kr)89,197명 / 1,076교A1·A2·A4·A6·A7공공누리 1유형
2schoolinfo_paps_2025학교알리미 PAPS (학생체력)교육부 (schoolinfo.go.kr)57,750행 / 11,986교A4 운동공공누리 2유형
3schoolinfo_meal_2025학교알리미 급식 실시 현황교육부 (schoolinfo.go.kr)12,250교A1 영양공공누리 2유형
4schoolinfo_budget_2025학교알리미 급식비 집행 (SES Proxy)교육부 (schoolinfo.go.kr)12,250교A9 가족 (SES)공공누리 2유형
5schoolinfo_counsel_2025학교알리미 상담·WEE클래스교육부 (schoolinfo.go.kr)11,986교A5·A9·A10공공누리 2유형
6knhanes_2023국민건강영양조사 2023질병관리청 (knhanes.kdca.go.kr)전국 표본 (10~18세 부분)외부 참조 분포공공누리 1유형 + 회원가입
7knhanes_2024국민건강영양조사 2024질병관리청 (knhanes.kdca.go.kr)전국 표본외부 참조 분포공공누리 1유형 + 회원가입

계획(Stage 2): KYRBS 원시(IRB 신청) · BRFSS 2020 · NHANES 2017-18 (모두 Public domain 또는 IRB). 출처: 기미첨단_융합시스템/01_데이터/_provenance/manifest.json

학습 데이터 통합 후 합성 변수: features_v28 (16 T-피처) + 외부 21변수

T-피처의미도메인T-피처의미도메인
T1 NutriScore영양 종합A1T9 OralHygiene구강 위생A7
T2 GlucoVar혈당 변동성A2T10 StressLoad스트레스 부하A5
T3 SleepIndex수면 종합A3T11 EngagementProxy학습 몰입A10
T4 BDNFProxyBDNF 프록시A4T12 PeerEnvScore또래 환경A9
T5 (예비)예비T13 SES-Proxy사회경제 SESA9
T6 MetabolicPhenotype대사 표현형A6T14 (예비)예비
T7 GutBrainScore장-뇌 축A7·A1T15 MealVariety식이 다양성A1
T8 ChronoStability일주기 안정성A8T16 (예비)예비

5. 가디언 v5.2 — 10 도메인 실측 성능 (붙임2-2 v42b)

ID도메인모델AUROCFβ=2Recall양성률M1 메타
A1영양 위험HistGradientBoosting0.75250.81490.96830.3000✓ 포함
A2혈당 위험HistGB0.87790.18870.92490.0108✓ 포함
A3수면 부족HistGradientBoosting0.78640.87660.94910.4834✓ 포함
A4운동 부족HistGradientBoosting0.89860.72560.98990.1281✓ 포함
A5정서 위험HistGradientBoosting0.97270.97600.99790.3000✓ 포함
A6체형 부조화HistGradientBoosting0.58400.16140.21610.0197제외(신호부족)
A7충치 위험RF (n=1000) + Calibration0.55260.53471.00000.1089제외(신호부족)
A8스크린 과다HistGradientBoosting0.89380.79170.93110.0647✓ 포함
A9가족 위험HistGradientBoosting0.97990.95481.00000.3000✓ 포함
A10학습 위험HistGradientBoosting0.86220.94190.99770.3000✓ 포함
M1 랭킹 집계기 (8 OOF · A6·A7 제외) — 다중위험 순위화0.928PR-AUC 0.86 · 상위10% 정밀도 0.91고위험 33.1%R²=0.018 폐기

※ 검증: GroupKFold(school) 5-fold OOF, assert_no_leak PASS. M1 SHAP Permutation TOP 3 = OOF_A3 수면 (Δ=0.0594) > OOF_A10 학습 = OOF_A9 가족 (0.0241) > OOF_A5 정서 (0.0234).

6. 학술 근거 — PMID 10건 (직접 검색)

PMID주제가디언 적용 도메인
36874411혈당 변동성·인지장애 (Meng 2023 WJCC, OR 2.5)A2 GlucoAgent
32627159수면·인지기능 (Suardiaz-Muro 2020 리뷰 30편)A3 SleepAgent
33414823운동·BDNF·GDNF·NGF (de Sousa Fernandes 2020 메타 21편)A4 ExerciseAgent
39655999운동+식이+수면 통합 정신 개선 (Maurus 2024 EPA 89편)A5 MentalAgent
38474852대사 표현형 4종 ML 분리 (Jeong & Choi 2024 Nutrients N=5,719)A6 MetaPhenotypeAgent
39260135장-뇌 축 GM→MGB→SCFA·5-HT·BDNF (Lu 2024 Phytomedicine)A7 GutBrainAgent
38584809취침이 식·정신·학업 강력 예측인자 (Kim Y 2024 N=25,681)A8 ChronoAgent
40707614Voting Regressor R²=0.989, SHAP·LIME (Ahmed 2025 Sci Rep)A10 EngagementAgent
2374591BMI heritability h²=0.65~0.85 (Stunkard 1990 NEJM)R² 상한 근거
Bayes-optimal R² ~0.49 (Hastie ESL §2.4)M1 R²=0.018 한계 근거

7. 제출 폴더 구조 (v_FINAL)

제출_GimiSanggung-Guardian_v_FINAL/ ├── GimiSanggung-Guardian_본문.pdf ← 본문 15p (Noto CJK 임베드) ├── GimiSanggung-Guardian_본문.docx ← 본문 원본 (재현용) ├── 붙임1_공공데이터_활용_목록.docx ← 7종 데이터 + KYRBS·NEIS·PAPS 상세 ├── 붙임2_생성형AI_활용_상세내역서.docx ← AI 활용 + Cite-or-Silent 원칙 ├── 붙임2-1_AI_활용_로그.csv ← AI 활용 39건 로그 ├── 붙임3_모델평가서.docx ← 10 도메인 실측 + M1 메타 + G1~G6 ├── 부록_v5.3_추가데이터통합.pdf ← 데이터 통합 + features_v28 + 외부 21 ├── 부록_v6.1_융합시스템_의의.pdf ← 융합시스템 의의 + 6 게이트 ├── _URL_접속안내.html ← (본 문서, 6 인터랙티브 viz) ├── 기미상궁_가디언.html ★ 중간단계 ← 7종 통합 학습 실측 데모 ├── 기미첨단_융합시스템.html ★★ 최종 ← Charter v1.0 청사진 ├── 기미첨단_융합시스템/ ← 8 모듈 (데이터·파이프라인·검증·모델·보고·거버넌스·운영·차세대) └── _figures/ ← 시각화 12종 (PNG)

8. 정직성 선언 (가디언 8 + 융합 진입 4 = 12항)

◎ 가디언 단계 (현 출품작) — 8항

① 학습 데이터는 매니페스트 v1.0 기준 7종 공공데이터 통합 — 학생건강검사 89,197명/1,076교 + 학교알리미 4종(PAPS 57,750행/11,986교, 급식 12,250교, 급식비 12,250교, 상담 11,986교) + KNHANES 2023·2024. KYRBS·BRFSS·NHANES는 Stage 2 계획.

② M1 메타 핵심은 단일 분류 지표가 아닌 다중위험 순위 일관성(AUROC)(0.928)·상위10% 정밀도(0.91) — 자아신체상 회귀 R²(0.018)는 부적합 타깃으로 폐기. 출력 패러다임은 분류기 X · 랭킹 집계기(Ranking Aggregator) O.

③ 외부 변수 평균 ΔAUROC +0.0008 — 통계 유의·실무 미미. 가장 큰 효과 A4 +0.0054 PAPS. 정직 공개.

④ 외부 KNHANES 청소년 분율은 외부 참조 분포로만 활용 (Ecological Fallacy 회피, 외부 변수 25.7%<50%).

⑤ Kaggle 의료 데이터셋 출처 신뢰성 경고. 본 출품작 직접 사용 안 함.

⑥ A6 체형 부조화(AUROC=0.5840), A7 충치(AUROC=0.5526)는 신호부족으로 M1 메타 제외 — 6종 통합 후 재산출 예정.

⑦ 융합시스템(기미첨단 v3.0)은 청사진 — Stage 2·3 실측 v7.0~v8.0 예정.

⑧ 시도·성별 세분 격차는 KYRBS 원시(2026-06-15 신청) + 미수집 6종 통합 후 재산출.


◎ 융합시스템 진입 단계 — 추가 4항

⑨ Stage 2(KNHANES 19–39세 + BRFSS) 라벨 정의 미완 — 연결 함수 v7.0에서 공개.

⑩ Stage 3(만성질환 35–80세) NHANES + UCI Parkinson 코호트 필요 — 표본 외삽 위험 명시.

⑪ 진입 게이트 G1~G6 중 G3·G4·G5만 80% 충족 — G1·G2·G6는 2026 하반기~2028 진행.

⑫ 융합시스템 운영 비용 (서버·인력·거버넌스) 추정치는 부록 v6.1에 공개.

★ 본 시스템 정직성 핵심 3줄
데이터: 횡단 단면 (종단 추적 데이터 미보유)
모델: 종단 메타분석 PMID 10건의 인과 가설 시각화
용도: 교육 개입 동기 부여 도구 (정밀 의료 예측 아님)
통합 시스템 v_FINAL · 본문 PDF v_FINAL 스냅샷 + 자진 업데이트분 · 가디언+융합 단일 산출물
배포 URL: https://gimisanggung-guardian-combi.pages.dev/