MaeilMail
일간 메일 보고서 비서
2025.1.5. ~ 2025.2.11.
매일메일은 LLM Agent 기반의 Chrome Extension 서비스로, 하루 동안 쌓이는 방대한 이 메일 데이터를 요약 및 분류하여 사용자가 중요한 정보를 한눈에 파악할 수 있도록 하는 메일 보고서 비서입니다.
Reflexion 기법을 적용해 생성된 요약문을 반복적으로 검증·개선하며, 첨부파일 및 이미지 분석을 위해 Upstage Document Parse를 활용해 비정형 데이터까지 처리합니다.
저는 네이버 부스트캠프 Upstage 기업 해커톤에서 개발리더로서 프로젝트 기획 및 LLM Agent를 활용한 파이프라인 설계와 서비스 구현을 이끌었습니다. 특히 Reflexion 기법의 고도화에 집중하여, 생성 결과에 대한 자동 평가 및 피드백 루프를 구축하여 AI 모델이 스스로 개선할 수 있는 체계를 마련했습니다. 이를 통해 최종 보고서의 품질을 크게 향상시킬 수 있었습니다. 또한, 전체적인 서비스 운영을 위해 MySQL
데이터베이스와 Chrome Extension
서비스를 위한 FastAPI
백엔드 서버 및 React
기반의 프론트엔드까지 통합적으로 구현하였습니다.
프로젝트 결과, G-eval 점수가 3.75에서 4.19로 0.44점 향상되었고, 메일 요약의 ROUGE-1과 BERTScore 역시 각각 24~30%p, 5~6%p 상승했습니다. 이를 통해 매일 쌓이는 이메일의 핵심 정보만 빠르게 파악하고, 업무 효율성을 높이는 통합 메일 관리 솔루션을 제시할 수 있었습니다.
네이버 부스트캠프 7기 Upstage 기업 해커톤 최종 발표 프로젝트
🔧 사용 기술
Metric
📝 개별 메일 요약
Condition | ROUGE-1 Recall | ROUGE-1 Precision | ROUGE-1 F1 | BERT Score Recall | BERT Score Precision | BERT Score F1 | G-EVAL Conciseness |
---|---|---|---|---|---|---|---|
Baseline | 0.0667 | 0.0042 | 0.1678 | 0.8223 | 0.8789 | 0.8494 | 4.3958 |
+ refine | 0.2618 | 0.2049 | 0.4649 | 0.8740 | 0.9146 | 0.8932 | 4.8750 |
+ one-shot | 0.2288 | 0.2005 | 0.3661 | 0.8325 | 0.8905 | 0.8588 | 4.9375 |
+ refine, one-shot | 0.3062 | 0.2691 | 0.4690 | 0.8905 | 0.9319 | 0.0901 | 4.9167 |
ROUGE-1
에서 24.0 ~ 30.1%p, BERTScore
에서 5.3 ~ 6.8%p, G-Eval conciseness
항목(5점 만점)에서 0.52점 상승폭이 있었습니다.
🏷️ 메일 분류
Condition | Accuracy | Tokens | Accuracy per Token |
---|---|---|---|
Baseline | 0.8104 | 97,436 | 8.32e-6 |
summary based | 0.7708 | 52,477 | 1.47e-5 |
summary based + 1-shot | 0.8021 | 63,599 | 1.27e-5 |
summary based + 5-shots | 0.7708 | 86,878 | 8.87e-6 |
summary based + 10-shots | 0.8146 | 115,558 | 7.05e-6 |
정확도/토큰 사용량
지표를 바탕으로 현재 프롬프트를 채택했습니다.
📜 최종 리포트
Condition | G-eval score |
---|---|
Self-Refine: Baseline | 3.75 |
Self-Refine: Detailed Instructions | 3.50 |
Self-Refine: Detailed Instructions + Formatting Penalty | 3.94 |
Reflexion: Baseline | 4.00 |
Reflexion: Detailed Instructions | 3.50 |
Reflexion: Detailed Instructions + Formatting Penalty | 4.19 |
G-Eval
평가 평균 점수(4.5점 만점)에서 0.44점 상승이 있었습니다.
System Structure
