Youngjoon Jang

NLP를 공부하는 학생입니다.

📧 Email

📝 Blog

🐱 Github

일상생활 속 필요한 서비스를 개발해 나가는 과정을 즐거워합니다. 한국어 데이터셋에 대한 검색이 제대로 이루어지지 않는 문제점을 개선하고자 한국어 특화 임베딩 모델, KoE5를 개발하였습니다. 또, 취업 준비생 및 이직자들의 자기소개서 작성에 도움을 주기 위해 LLM과 RAG를 활용한 자기소개서 어시스턴트 플랫폼, RESUMAI를 기획/개발하였습니다. 이렇게 실생활과 기존 서비스의 문제점을 어떤 기술로써 해결할지 고민하며 성장해왔습니다.

듣고 배운 것을 글로 정리하고, 공유합니다. 공부하며 혼자 이해하고 기억하는 것에 그치지 않고, 고민하고 느꼈던 과정을 블로그에 글로 기록해왔습니다.

1. DEV-Projects

KoE5 (2024.02 ~ 현재)

한국어 특화 임베딩 모델

모델 개발 관련 링크: 🤗Models | 🤗Datasets | 깃허브 | 블로그 | 논문

한국어에 대한 검색이 제대로 이루어지지 않는 것 같아, 한국어에 특화된 임베딩모델을 만들었습니다. 오픈 데이터셋을 통해 높은 퀄리티의 triplet 데이터셋을 구축하고, Microsoft의 multilingual-e5-large 모델을 fine-tuning하였습니다. 그 결과, Ko-strategyQA, AutoRAG, PublicHealthQA 벤치마크에서 최고의 성능을 보였습니다.

Pytorch Sentence-transformers

데이터 수집 및 triplet 구축, 모델 학습의 모든 개발 작업을 맡아 프로젝트를 진행했습니다. 자세한 사항은 블로그 참고 부탁드립니다.

Ko-Gemma (2024.01 ~ 2024.03)

Gemma instruction tuning project

모델 개발 관련 링크: 깃허브

Ko-Gemma는 Google의 Gemma에 의해 개발된 한국어 대규모 언어 모델로, 고려대학교 NLP & AI LAB와 HIAI 연구소가 협력하여 KULLM 데이터셋 및 수제작한 데이터셋을 활용하여 한국어 성능을 더욱 향상시킨 LLM입니다.

Pytorch Deepspeed

번역 데이터 수집 및 instruction tuning의 개발 작업을 맡아 프로젝트를 진행했습니다.