概要
学生の英語プレゼンテーションをAIで自動評価するシステムを開発しました。Azure MLベースのリアルタイム推論システムをデプロイし、月間アクティブユーザー数(MAU)3万人を達成しました。
アーキテクチャ
プレゼン態度評価デモ
MediaPipeベースの顔・手認識により、発表者の視線方向、ハンドジェスチャー、動きをリアルタイム分析してプレゼンテーション態度を自動評価します。
視線方向追跡

ハンドジェスチャー認識

主要成果
- [MLOps] Azure MLにリアルタイム推論システムをデプロイ、MAU 3万人達成
- [LLM Agent] マルチエージェントアプローチによる合成学生データ生成
- [Vision] Diffusionモデルベースの画像生成パイプライン構築及び量子化によるモデル軽量化
- [Audio] NVIDIA ParakeetベースのSTTモデル微調整による非ネイティブ児童の音声認識率改善
- [Audio] TTSモデルファインチューニング研究(実験段階)
- [Search] キーワードベース検索とベクトル検索を組み合わせたハイブリッド検索システムの設計・実装
- [Vision] MediaPipeベースの顔認識及びポーズ追跡による学生プレゼン態度自動評価
技術スタック
- Cloud: Azure ML, Blob Storage
- Frameworks: PyTorch, HuggingFace, LangChain, LangGraph
- Models: Diffusion, NVIDIA Parakeet, MediaPipe
- Serving: FastAPI, ONNX
- Search: Hybrid Search (BM25 + Vector)