Contact.
[📧 ***[email protected]***](<mailto:[email protected]>)
📱010-3286-0126
🔗 Linkedin
Introduce.
<aside>
💡 **저는 11번가에서 3년간 머신러닝 엔지니어로 근무하며, 검색 랭킹 모델링 업무를 담당했습니다. 이 기간 동안 검색 품질을 향상시키기 위한 통계적 및 머신러닝 기반 모델을 연구하고 개발했습니다. 또한, 하둡 기반의 빅데이터 플랫폼에서 매일 1억 건 이상의 상품 데이터와 수많은 사내 로그를 가공하는 파이프라인 시스템을 개발했습니다. 이를 통해 클릭 및 매출 예측을 포함한 다양한 랭킹 피처와 연관도 모델을 개발하고 서비스에 적용한 경험이 있습니다.
전산학 석사과정에서는 주로 장문 문서로 부터 검색 및 생성 기반의 QA 시스템을 연구하였고, 이 과정에서 딥러닝 기반의 기술의 트렌드 파악 및 연구 역량을 발전시켰습니다. 관련하여 언어모델을 학습하거나 프롬프팅 기반의 NLG 및 NLU 프로젝트를 진행 했습니다. 더불어 이미지와 같은 다양한 도메인에서도 연구를 수행하며 폭넓은 기술 적용 능력을 배양했습니다.
자연어 처리와 개인화 검색 및 자연어 처리에 깊은 관심을 가지고 관련 공부 및 역량을 키우기 위한 활동을 하고 있습니다. 다양한 도메인의 데이터와 기술을 학습하고 활용하면서 다방면의 문제를 해결하는 'Multiple Problem Solver'가 되기 위해 노력하고 있습니다.**
</aside>
Experience.
업무 경력 3년 3개월, 대학원 경력 2년 ( 유관 분야 경력 총 5년 3개월 )
한국과학기술원(KAIST) 지식공학 및 인공지능연구실
2022년 2월 - 2024년 2월 ( 2년, 석사과정 )
딥러닝 기반의 자연어처리, 검색 및 질의응답에 대한 기술 및 리서치 역량을 향상시키고자 진학하여 연구하였습니다. 자연어 처리 뿐만 아니라 석사 과정동안 이미지 및 그래프 데이터 등 다양한 도메인 기반의 모델링도 경험하였습니다.
딥러닝 기반 기계독해 및 질의응답 시스템 연구
- 석사과정 동안 메인 연구로써 재무제표, 계약서, 소설 등 장문 문서 기반 LLM 및 PLM 기반의 기계 독해 및 QA 연구를 수행하고 관련하여 국제 학회에서 발표한 경험이 있습니다.
- 딥러닝 기반 Generative/Extractive QA 모델 학습 및 연구 수행
- SQuAD, FinQA, ConvFinQA, DROP, MWP 등 QA 태스크에 대한 모델 학습 및 연구 보고서 작성
- 제무재표, 계약서와 같은 장문 문서에서 Retriever를 활용한 RAG 기반 Mathematical QA 연구를 수행, 기준 모델 대비 여러 데이터셋으로 부터 평균 3%~6% QA 성능 향상
- 장문 문서를 효율적으로 처리하기 위하여 트랜스포머 인코더 기반 pointwise 검색 모델을 사용하여 질문과 관련된 증거 텍스트를 검색 후 검색된 증거 기반의 정답 생성 연구
- 추론을 위한 프로그램 생성시 기존 모델이 주로 실패하는 패턴을 분석하여 문제 파악 및 이를 개선하기 위하여 보조 로스를 제안하여 성능을 개선
- 관련하여 주저자로 IEEE BigComp 2024, ACL Roling Review에서 Meta Review 4.0 (preprint) 에서 논문 게재 및 제출
딥러닝 기반 데이터셋 생성 및 증강 기술 연구
- ChatGPT, Vicuna, LLaMA 등 LLM 에서 프롬프팅 및 T5 등 LM의 Fine-tuning 기반 자연어 생성 연구/개발하고 관련하여 NeurIPS 2023 Workshop에서 발표, HCLT 2023, KSC 학회에서 공동 1저자로 논문 게재 경험이 있습니다.
- 자연어 추론 능력 태스크에 대하여 QA 데이터셋 생성 및 증강 기술 연구
- 주어진 문서로 부터 NER 모델을 사용하여 주요 엔티티 및 수치 정보 태깅, 엔티티 및 추론 프로세스 템플릿 기반 프롬프팅으로 QA Pair 생성 파이프라인 구축
- 추론 데이터셋 증강을 위한 스탭 단위 프롬프팅 기법 제안 및 생성 데이터 내 추론 과정 손실 유무를 검증 로직 제안, 증강 기법을 통하여 EDA, BT 등 증강 기법 대비 QA Task에서 1~2% 성능 향상으로 더 효과적임을 보임.
Reference Based Video Super-Resolution 연구
- 타 연구실 학생과 협업으로 레퍼런스 기반 비디오 초해상도에서 느린 추론 속도를 12배로 개선하고 vram을 1/4로 줄여, 관련 논문을 IEEE/CVF WACV 2023 에서 “Efficient Reference-based Video Super-Resolution (ERVSR)” 논문 게재 및 오랄/포스터 발표
- NLP 도메인에서 사용하는 모듈을 Vision 도메인에 적용하여 속도 및 성능 개선
- 레퍼런스 동영상의 프레임들이 겹치는 부분이 많은 점을 활용, 참조 이미지 수를 줄이고, 기존 코사인 유사도 기반의 이미지 패치 매칭을 트랜스포머 어탠션 기반으로 변경하여 성능 및 처리 속도 개선
- 프로젝트 내에서 타겟 Benchmark Dataset 제안, Attention 기반으로 레퍼런스 비디오의 참고할 패치를 저해상도 이미지에 매칭하는 모듈을 개선하는 아이디어 제안과 비디오 프레임을 위한 RNN 모듈 개발 역할을 수행
Skill keywords
Python, PyTorch, Pytorch Lightning, Torchrun, DDP, Hydra, Transformers, OpenCV