MaeilMail

일간 메일 보고서 비서

2025.1.5. ~ 2025.2.11.

MaeilMail 대표 이미지
LLM Agent
Reflexion
0 번째 이미지
1 번째 이미지
2 번째 이미지
3 번째 이미지
4 번째 이미지
5 번째 이미지
6 번째 이미지
7 번째 이미지

매일메일은 LLM Agent 기반의 Chrome Extension 서비스로, 하루 동안 쌓이는 방대한 이메일 데이터를 요약 및 분류하여 사용자가 중요한 정보를 한눈에 파악할 수 있도록 하는 메일 보고서 비서입니다.

Reflexion 기법을 적용해 생성된 요약문을 반복적으로 검증·개선하며, 첨부파일 및 이미지 분석을 위해 Upstage Document Parse를 활용해 비정형 데이터까지 처리합니다.

저는 네이버 부스트캠프 Upstage 기업 해커톤에서 개발리더로서 프로젝트 기획 및 LLM Agent를 활용한 파이프라인 설계와 서비스 구현을 이끌었습니다. 특히 Reflexion 기법의 고도화에 집중하여, 생성 결과에 대한 자동 평가 및 피드백 루프를 구축하여 AI 모델이 스스로 개선할 수 있는 체계를 마련했습니다. 이를 통해 최종 보고서의 품질을 크게 향상시킬 수 있었습니다. 또한, 전체적인 서비스 운영을 위해 MySQL 데이터베이스와 Chrome Extension 서비스를 위한 FastAPI 백엔드 서버 및 React 기반의 프론트엔드까지 통합적으로 구현하였습니다.

프로젝트 결과, G-eval 점수가 3.75에서 4.19로 0.44점 향상되었고, 메일 요약의 ROUGE-1BERTScore 역시 각각 24~30%p, 5~6%p 상승했습니다. 이를 통해 매일 쌓이는 이메일의 핵심 정보만 빠르게 파악하고, 업무 효율성을 높이는 통합 메일 관리 솔루션을 제시할 수 있었습니다.

네이버 부스트캠프 7기 Upstage 기업 해커톤 최종 발표 프로젝트

🔧 사용 기술

Python Agent Chrome Extension upstage solarpro upstage DocumentParseReflexion G-evalfastapi mysql dockergmailtypescript vite tailwindcss reactquery

Metric

📝 개별 메일 요약

ConditionROUGE-1 RecallROUGE-1 PrecisionROUGE-1 F1BERT Score RecallBERT Score PrecisionBERT Score F1G-EVAL Conciseness
Baseline0.06670.00420.16780.82230.87890.84944.3958
+ refine0.26180.20490.46490.87400.91460.89324.8750
+ one-shot0.22880.20050.36610.83250.89050.85884.9375
+ refine, one-shot0.30620.26910.46900.89050.93190.09014.9167

ROUGE-1에서 24.0 ~ 30.1%p, BERTScore에서 5.3 ~ 6.8%p, G-Eval conciseness 항목(5점 만점)에서 0.52점 상승폭이 있었습니다.


🏷️ 메일 분류

ConditionAccuracyTokensAccuracy per Token
Baseline0.810497,4368.32e-6
summary based0.770852,4771.47e-5
summary based + 1-shot0.802163,5991.27e-5
summary based + 5-shots0.770886,8788.87e-6
summary based + 10-shots0.8146115,5587.05e-6

정확도/토큰 사용량 지표를 바탕으로 현재 프롬프트를 채택했습니다.


📜 최종 리포트

ConditionG-eval score
Self-Refine: Baseline3.75
Self-Refine: Detailed Instructions3.50
Self-Refine: Detailed Instructions + Formatting Penalty3.94
Reflexion: Baseline4.00
Reflexion: Detailed Instructions3.50
Reflexion: Detailed Instructions + Formatting Penalty4.19

G-Eval 평가 평균 점수(4.5점 만점)에서 0.44점 상승이 있었습니다.

System Structure

시스템 구조도

🔗 둘러보기

👥 팀원

안혜준 사진

안혜준

파이프라인 설계, Reflexion 구현, 서비스 개발, 코드 품질 관리

이채호 사진

이채호

Reflexion 구현 및 고도화, 최종 요약 G-eval 평가 고도화

유선우 사진

유선우

PM, 기획 및 디자인, 파이프라인 설계, 요약 및 분류 평가

강감찬 사진

강감찬

Self-refine 및 클러스터링, 서비스 개발, 요약 및 분류 평가

유채은 사진

유채은

Gmail 데이터 파싱 및 Mail 객체 관리, 분류 파이프라인 구현

단이열 사진

단이열

평가용 데이터셋 구성 및 제작, 평가 지표 설계, 페르소나 디자인