LLM Engineer (Data Generation)

42dot • Full-time • 성남, KR • 3w ago

About The Team & Mission

LLM Engineer (Data Generation)는 Data-Centric AI 관점에서 모델 성능 향상에 필요한 학습 데이터를 설계·생성·평가·개선하는 역할을 수행합니다.

모델의 성능 병목과 Failure case를 분석하여 데이터 요구사항을 정의하고, Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 구축하며, Data Generation Pipeline, 학습 결과 기반 Data Evaluation, Data Curation을 통해 대규모 학습 데이터의 품질을 체계적으로 개선하고, 차세대 Generative AI 모델의 성능 향상에 기여합니다.

Responsibilities

모델 성능 개선을 위한 데이터 설계 및 생성
- Research 및 Model Training 팀과 협업하여 모델의 성능 병목, Failure Case, 학습 목표를 분석하고 데이터 요구사항을 정의합니다.
- Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 설계·생성·정제합니다.
- 생성된 데이터가 모델 성능에 미치는 영향을 실험적으로 분석하고, 결과를 바탕으로 데이터 생성 전략을 반복적으로 개선합니다.
Data Generation Pipeline 구축
- Synthetic Data를 포함한 학습 데이터 생성 자동화 파이프라인을 설계하고 운영합니다.
- 대규모 데이터 생성 Workflow를 구축하여 안정적이고 효율적인 데이터 생산 환경을 제공합니다.
- 생성 비용, 처리 속도 및 품질을 고려한 Pipeline을 지속적으로 최적화합니다.
Data Quality 및 Evaluation
- 데이터의 품질과 학습 효과를 정량적·정성적으로 평가하는 기준을 정의합니다.
- LLM-as-a-Judge, Rule-based Validation, Human Feedback 등을 활용하여 데이터 품질을 검증합니다.
- 데이터 품질 개선을 위한 Iterative Generation 및 Filtering 전략을 개발합니다.

Qualifications

LLM, Machine Learning 또는 Data Generation 관련 업무 경력 3년 이상
딥러닝, 머신러닝 및 자연어처리에 대한 전반적인 이해
모델 학습 데이터의 구성, 전처리, 품질 평가 및 학습 반영 과정에 대한 이해
Python 기반 데이터 처리 및 자동화 개발 역량
대규모 학습 데이터셋의 처리, 정제, 필터링 및 품질 관리 경험 또는 이에 준하는 역량
LLM을 활용한 Synthetic Data 생성, Data Evaluation 또는 Data Curation 경험
LLM API 및 Prompting/Generation Strategy에 대한 이해 또는 활용 경험
뛰어난 문제 해결 능력과 협업 및 커뮤니케이션 역량

Preferred Qualifications

LLM Pre-training, Supervised Fine-tuning(SFT), Preference Optimization(DPO/RLHF/RLAIF) 등 LLM 대규모 학습 데이터 구축 경험
LLM Evaluation Framework(OpenAI Evals, LM Evaluation Harness, DeepEval 등) 또는 자체 평가 시스템 구축 경험
멀티턴 대화, Tool Calling, Agent, Reasoning, Code Generation 등 고난도 LLM 데이터 설계 경험
Python 기반 데이터 파이프라인(Airflow, Ray, Spark 등) 또는 대규모 데이터 처리 환경 구축 경험
Generative AI, LLM, NLP 관련 오픈소스 프로젝트 기여 또는 논문·기술 발표 경험