About The Team & Mission
LLM Engineer (Data Generation)는 Data-Centric AI 관점에서 모델 성능 향상에 필요한 학습 데이터를 설계·생성·평가·개선하는 역할을 수행합니다.
모델의 성능 병목과 Failure case를 분석하여 데이터 요구사항을 정의하고, Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 구축하며, Data Generation Pipeline, 학습 결과 기반 Data Evaluation, Data Curation을 통해 대규모 학습 데이터의 품질을 체계적으로 개선하고, 차세대 Generative AI 모델의 성능 향상에 기여합니다.
Responsibilities
- 모델 성능 개선을 위한 데이터 설계 및 생성
- Research 및 Model Training 팀과 협업하여 모델의 성능 병목, Failure Case, 학습 목표를 분석하고 데이터 요구사항을 정의합니다.
- Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 설계·생성·정제합니다.
- 생성된 데이터가 모델 성능에 미치는 영향을 실험적으로 분석하고, 결과를 바탕으로 데이터 생성 전략을 반복적으로 개선합니다.
- Data Generation Pipeline 구축
- Synthetic Data를 포함한 학습 데이터 생성 자동화 파이프라인을 설계하고 운영합니다.
- 대규모 데이터 생성 Workflow를 구축하여 안정적이고 효율적인 데이터 생산 환경을 제공합니다.
- 생성 비용, 처리 속도 및 품질을 고려한 Pipeline을 지속적으로 최적화합니다.
- Data Quality 및 Evaluation
- 데이터의 품질과 학습 효과를 정량적·정성적으로 평가하는 기준을 정의합니다.
- LLM-as-a-Judge, Rule-based Validation, Human Feedback 등을 활용하여 데이터 품질을 검증합니다.
- 데이터 품질 개선을 위한 Iterative Generation 및 Filtering 전략을 개발합니다.
Qualifications
- LLM, Machine Learning 또는 Data Generation 관련 업무 경력 3년 이상
- 딥러닝, 머신러닝 및 자연어처리에 대한 전반적인 이해
- 모델 학습 데이터의 구성, 전처리, 품질 평가 및 학습 반영 과정에 대한 이해
- Python 기반 데이터 처리 및 자동화 개발 역량
- 대규모 학습 데이터셋의 처리, 정제, 필터링 및 품질 관리 경험 또는 이에 준하는 역량
- LLM을 활용한 Synthetic Data 생성, Data Evaluation 또는 Data Curation 경험
- LLM API 및 Prompting/Generation Strategy에 대한 이해 또는 활용 경험
- 뛰어난 문제 해결 능력과 협업 및 커뮤니케이션 역량
Preferred Qualifications
- LLM Pre-training, Supervised Fine-tuning(SFT), Preference Optimization(DPO/RLHF/RLAIF) 등 LLM 대규모 학습 데이터 구축 경험
- LLM Evaluation Framework(OpenAI Evals, LM Evaluation Harness, DeepEval 등) 또는 자체 평가 시스템 구축 경험
- 멀티턴 대화, Tool Calling, Agent, Reasoning, Code Generation 등 고난도 LLM 데이터 설계 경험
- Python 기반 데이터 파이프라인(Airflow, Ray, Spark 등) 또는 대규모 데이터 처리 환경 구축 경험
- Generative AI, LLM, NLP 관련 오픈소스 프로젝트 기여 또는 논문·기술 발표 경험