개요
학생의 영어 발표를 AI로 자동 평가하는 시스템을 개발했습니다. Azure ML 기반 실시간 추론 시스템을 배포하여 월간 활성 사용자 수(MAU) 3만 명을 달성했습니다.
아키텍처
발표태도 평가 데모
MediaPipe 기반 얼굴·손 인식으로 발표자의 시선 방향, 손 제스처, 움직임을 실시간 분석하여 발표 태도를 자동 평가합니다.
시선 방향 추적

손 제스처 인식

주요 성과
- [MLOps] Azure ML에 실시간 추론 시스템 배포, MAU 3만 명 달성
- [LLM Agent] 다중 에이전트(Multi-Agent) 접근 방식으로 합성 학생 데이터 생성
- [Vision] Diffusion 모델 기반 이미지 생성 파이프라인 구성 및 양자화를 통한 모델 경량화
- [Audio] NVIDIA Parakeet 기반 STT 모델 미세 조정으로 비원어민 어린이 음성 인식률 개선
- [Audio] TTS 모델 파인튜닝 연구 (실험 단계)
- [Search] 키워드 기반 검색과 벡터 검색을 조합한 하이브리드 검색 시스템 설계 및 구현
- [Vision] MediaPipe 기반 얼굴 인식 및 자세 추적으로 학생 발표 태도 자동 평가
기술 스택
- Cloud: Azure ML, Blob Storage
- Frameworks: PyTorch, HuggingFace, LangChain, LangGraph
- Models: Diffusion, NVIDIA Parakeet, MediaPipe
- Serving: FastAPI, ONNX
- Search: Hybrid Search (BM25 + Vector)