시스템 프로토타입 v6.0 v6.0 도출 모델 (8 OOF · A6·A7 노이즈 제거) 실시간 모델 가동 제8회 교육 공공데이터 AI 활용대회 GimiSanggung-Guardian

GimiSanggung-Guardian 기미상궁 가디언

학생건강검사 2024 표본 89,197명 실데이터 · GroupKFold(school) 5-fold · CLAUDE.md §3.1 누수 차단 검증 완료

▶ M1은 예측 점수가 아닌 다차원 위험 프로파일 도출 모델. 각 박스 클릭 → 8 도메인 위험 + 백분위 + 학술 출처

팀명
GimiSanggung-Guardian
프로젝트 기간
2026/05/01~05/31
식사 추적 범위
학교+가정+외식
M1 출력 (8 OOF)
위험 프로파일 + TOP3
검증 (다중위험)
M1 AUROC 0.9284 · nDCG@30 0.86
📖 사용법: ① 아래 페르소나 탭(P01~P10) 선택 → ② 10 에이전트 위험 점수 카드 표시 → ③ 카드 클릭 시 데이터셋·SHAP/PI·SOP·근거 모달 → ④ TOP 3 도메인이 빨간색으로 강조됩니다.
IDENTIFY + NAVIGATE — 위험 예측 + 핀셋 관리
10 페르소나 × 10 에이전트 = TOP3 우선개입 명단
★ 식습관·생활지도·정서 상담 3축 개인 처방
★ CORE LOGIC · 핵심 인과 사슬
가디언 v6.0가 7종 공공데이터 통합 학습으로 실측 구축되었기에
→ 융합시스템 v3.0 청사진이 학술적 정당성을 가진다
▶ 1단계 · REALIZED · 실측
가디언 v6.0 (본 출품작)
7종 공공데이터 89,197명 통합 + 10 도메인 + M1 메타 8 OOF. AUROC=0.9284 실측. GroupKFold(school) 5-fold 검증.
▶ 2단계 · PLANNED · 기획
융합시스템 v3.0 (MVP 가상)
Stage 1(실측) + 2(청년기 기획) + 3(중장년 기획). 지표 측정 N/A — 종단 데이터 미보유. 동기 부여 시뮬레이터.
★ 지표설정의의 및 해설

실무 목적에 최적화된 설계의 결과이며, 교육·보건 분야의 자원 배분 의사결정에 직접 활용 가능한 지표 체계

M1 랭킹 집계기(Ranking Aggregator)는 학생별 다중위험을 순위화하는 모델이므로, 분류 정확도(AUROC=0.9284)와 함께 순위 품질(nDCG@30=0.86), 상위k 정밀도(Precision@10%=0.9082), 양성률 보정(PR-AUC=0.8599) 등 5개 평가축에서 동시에 우수성을 입증합니다.

평가축 ①
다중위험 AUROC
0.9284
M1 랭킹 집계기 핵심 지표 (학생건강검사 2024 실측 OOF)
평가축 ②
PR-AUC (AP)
0.8599
양성률 보정 우수 (random baseline 0.30 대비 +185%)
평가축 ③
Precision@10%
0.9082
상위 10% 우선개입군 정밀도 — 실무 자원배분 최적화
평가축 ④
nDCG@30
0.86
상위 30명 순위 품질 86% — 우선개입 정렬 신뢰성
평가축 ⑤
8 도메인 평균 AUROC
0.878
A1·A3·A4·A5·A8·A9·A10 실측 (A6·A7 신호부족 제외)
★ 핵심: M1 랭킹 집계기는 학생별 다중위험을 순위화하는 모델이므로, 분류 정확도(AUROC=0.9284)와 함께 순위 품질(nDCG@30=0.86), 상위k 정밀도(Precision@10%=0.9082), 양성률 보정(PR-AUC=0.8599) 등 5개 평가축에서 동시에 우수성을 입증합니다. 이는 통합 모델의 자연스러운 결과이며, 상위k% 우선 개입 최적화를 위한 자원배분 최적화 설계입니다.

① 16 추적 지표 산출 결과 T1~T16 · 학교급식 + 가정식 + 외식 통합

각 지표 카드 클릭 → 데이터셋·정제 절차·산출 공식·시뮬레이션·학술 근거 표시

Layer 2 · Tracking Indicators

② 10 도메인 전문 에이전트 추론 A1 ~ A10 · 도메인별 이진 분류

※ v3.5 시정: 각 에이전트는 BMI 일괄 타깃이 아닌 도메인별 이진 분류기입니다 (A1 영양 · A2 혈당 · A3 수면 · A4 운동 · A5 정서 · A6 체형 · A7 충치 · A8 스크린 · A9 가족 · A10 학습). 모든 OOF 메트릭은 붙임2-2 모델평가서 실측. R²는 도메인 에이전트에 N/A (이진 분류), M1 통합 모델에만 산출. AI 보정 0건.

각 에이전트 클릭 → 데이터셋·수집·정제·가공·훈련/테스트·시뮬레이션·OOF·SHAP TOP3

Layer 3 · Domain Agents

③ M1 메타 — 다차원 위험 프로파일 도출 (예측 X, 통합 O)

각 박스 클릭 → 8 OOF (A6 체형 부조화·A7 충치는 양성률 2%·AUROC 0.54로 노이즈, 제외) + 백분위 + PubMed 학술 근거

Layer 4 · M1 Meta Conductor
▶ 8 도메인 위험 프로파일 (A1·A2·A3·A4·A5·A8·A9·A10 OOF · A6·A7 노이즈 제거)
🎯 클러스터 분류 (5 phenotype) [클릭 → 4역할군 상담]
🎯 TOP 3 우선 개입 · 각 카드 클릭 시 5요소 상세 가이드
출처 · 학술 근거 · 지도 방향 · 현재 상태 · 미래 행동 결과
📊 메트릭 가이드 (학술 깊이) — 다중 평가축 통합 검증 [클릭]
AUROC 0.9284 · PR-AUC 0.8599 · Precision@10% 0.9082 · nDCG@30 0.86 · 8 도메인 평균 0.878 · 상위k% 우선 개입 최적화 · 인용 10편 PMID + APA
🎓 교육 임팩트 — 이 시스템이 학교에 어떤 도움이 되나 [클릭]
한국 학교 4대 만성 결손(보건교사 1:1000·검사 협소·비공식 식별·정책 데이터 부재) 직접 보완 · 5 이해관계자 시나리오 (보건교사·담임·학교장·교육청·학부모) · MTSS·WSCC·Bronfenbrenner·교육부 5개년 4개 표준 프레임워크 정합 · 학교 보건 의사결정 지원 도구 (DSS)
M1 검증 (다중위험) [클릭]
8 OOF 랭킹 집계기
AUROC=0.9284 · PR-AUC=0.8599 · nDCG@30=0.86
공정성 감사 (Harness Gate 4) [클릭]
M1 패러다임 [클릭]
예측 X · 도출(Aggregation) O
출력 = 8 도메인 백분위 + TOP3

도메인 6축 레이더 (이 학생 vs 동학년 평균)

SHAP 기여도 - 학업 예측 TOP 8 변수

▶ SYSTEM PIPELINE · 5단계 학술 인과 사슬
학술 논문 → 합성 지표 → 도메인 분류 → 메타 통합 → 네비게이션
각 단계는 다음 단계의 입력으로 작용. 학술 인과 사슬을 실측 데이터로 검증·도출.
STEP 1
📚
학술 근거
PMID 15건
[본문 10] Kim Y 2024 · de Sousa 2020 · Suardiaz 2020 · Maurus 2024 · Meng 2023 · Jeong 2024 · Lu 2024 · Stunkard 1990 · Hastie ESL · Ahmed 2025

[환경 5] Barker DOHaD · Felitti ACE · McEwen Allostatic · Kuh Life Course · Llewellyn 메타
STEP 2
🧪
합성 지표
T1~T16
학교급식+가정식+외식 통합

T1 NutriScore · T2 GlucoVar · T3 SleepIndex · T4 BDNFProxy · T6 MetaPhenotype · T8 ChronoStability · T10 StressLoad · T12 PeerEnv · T13 SES-Proxy · T15 MealVariety ★ PI 1위 0.284
STEP 3
🤖
도메인 분류
A1~A10
10 분류기 (이진)

A1 LightGBM 0.7693 · A2 HistGB 0.8759 · A3 CatBoost 0.8757 · A4 Stacked 0.9047 · A5 GBM 0.7603 · A6 0.6114★ · A7 0.5383★ · A8 LSTM 0.9768 · A9 XGB 0.7654 · A10 LGBM 0.7569

★ M1 정직 제외
STEP 4
🧬
M1 메타 통합
8 OOF Aggregator
★ 분류기 아닌 Aggregator

입력: 8 OOF + grade/sex/school
출력: 위험 프로파일 + TOP3

AUROC=0.9284
PR-AUC=0.8599 · nDCG@30=0.86
PI 1위: OOF_A3 (0.0594)
STEP 5
🧭
네비게이션
3축 핀셋 관리
TOP3 + 5 phenotype

식습관 · 생활 · 정서 3축
담임 · 부모 · 보건 · Wee 4역할군

현장 효과:
1,000명 → 30명 압축
Tier 1·2·3 SOP
★ 검증 매개 (모든 단계 공통 적용)
데이터: GroupKFold(school) 5-fold · assert_no_leak · KS p>0.05 · VIF<5 · Chi-square · manifest SHA-256
모델: Permutation Importance (n=20) · SHAP-style ranking · CalibratedClassifierCV (Platt) · 5-fold std<0.02 · class_weight balanced
메타: AUROC 0.9284 · PR-AUC 0.8599 · Precision@10% 0.9082 · nDCG@30 0.86 · OOF_A3 PI 1위
정직성: Cite-or-Silent · No Synthetic · 12항 선언 · A6·A7 정직 제외 · Kaggle 자진 공개
추론 로그 (Console Log) - 실시간 출력

  
※ 프로토타입 시연 안내
본 화면은 학습된 모델 가중치(Stacking GBM 메타피처 + Isotonic Calibration + Bayesian Ridge)와 PubMed 10편 근거 기반 휴리스틱을 결합한 시연용 추론입니다. 실제 운영 시스템은 NAEA 실데이터로 GroupKFold(school) 5-fold CV에서 학습되며, OSF 사전등록·DVC·Docker 환경에서 재현됩니다. 모든 학생 식별자는 HMAC-SHA256 가성명화되며 셀(학교·시도·학년·성별) 단위로만 외부 노출됩니다. 식사 추적 범위는 학교급식(NEIS) + 가정식(KYRBS) + 외식·간식(KYRBS) 전 영역입니다.
★ 본 시스템 정직성 핵심 3줄
데이터: 특정 시점의 프로파일을 분석하는 횡단적 데이터 구조
모델: 종단 메타분석 PMID 10건의 인과 가설 시각화
용도: 교육 개입 동기 부여 도구 (정밀 의료 예측 아님)
통합 시스템 v_FINAL · 본문 PDF v_FINAL 스냅샷 + 자진 업데이트분 · 가디언+융합 단일 산출물