Filter

직군/직무

법인

고용형태

경력

근무지

[NAVER Cloud] 대규모 GPU 클러스터 기반 MLOps Platform 개발 (경력)

모집 부서
NAVER Cloud
모집 분야
Tech
모집 분야
Backend
모집 경력
경력
근로 조건
정규
모집 기간
2025.11.12 ~ 2025.11.28 (17:00)

입사지원은 PC를 이용해주세요.



부서소개

저희 조직은 팀네이버 AI/ML의 핵심인 MLOps Platform을 개발하고 운영하며, 대규모 GPU Cluster를 효율적으로 활용하는 일을 담당하고 있습니다. 저희는 데이터 준비, 대규모 분산 학습, 그리고 모델 서빙에 이르는 ML 라이프사이클 전반을 지원하는 플랫폼을 제공합니다. 팀네이버의 다양한 서비스에서 검증된 저희 플랫폼은 네이버클라우드의 대규모 컴퓨팅 환경을 기반으로 한 다양한 GPUaaS 서비스의 코어 플랫폼으로서 글로벌 시장으로 나아가고 있습니다.


[데이터] ML 엔지니어와 연구자들이 대규모 데이터를 효율적으로 관리하고 활용할 수 있도록, Hugging Face 인터페이스 기반의 데이터 플랫폼과 대규모 병렬 처리를 지원하는 관리형 ETL 시스템을 개발하고 제공합니다.

[학습] 국내 최고 수준의 GPU 인프라에서 대규모 ML 분산 학습 워크로드가 안정적으로 수행될 수 있도록, Kubernetes 기반의 MLOps 플랫폼 핵심 구성 요소를 개발하고 고도화합니다.

[서빙] AI/ML 모델의 안정적인 서빙을 지원하고, 모델 서빙에 특화된 기능을 제공하는 확장 가능한 플랫폼을 개발하고 운영합니다.


궁극적으로 ML 엔지니어와 연구자들이 인프라의 복잡성에서 벗어나 핵심 모델의 실험과 배포에만 집중할 수 있는 환경을 제공하는 것을 목표로 합니다.


[참고자료]

[DAN 24] HyperCLOVA X, MLOps로 Hyperscale AI 개발의 새로운 장을 열다

https://dan.naver.com/24/sessions/599

[DAN 25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼

https://dan.naver.com/25/sessions/679


담당업무

 Kubernetes 기반 MLOps 플랫폼(데이터, 학습, 서빙) 설계, 개발 및 고도화 (Operator, Scheduler 등 핵심 구성 요소 개발 포함)

 대규모 데이터 저장, 처리, 관리를 위한 데이터 플랫폼 및 병렬 데이터 처리(Spark, Ray), ETL 파이프라인(Kubeflow pipeline, Airflow) 구축 및 최적화

 ML 학습 프레임워크(PyTorch, DeepSpeed, etc.) 기반 대규모 분산 학습 효율 최적화/디버깅/프로파일링 도구 개발, 고속 네트워크 기술(InfiniBand, RoCE, etc.) 연구 및 플랫폼 적용

 안정적이고 확장 가능한 ML 모델 서빙 시스템 및 추론 환경(vLLM, Kserve, llm-d, etc.) 개발, LLM Gateway(K8s Gateway API 기반 품질/비용 최적화 라우팅, 자동 모델 Fallback 등) 기능 구현, 모델 배포 자동화 파이프라인 구축

 SRE 관점에서 MLOps Platform의 안정적 운영을 위한 시스템 고도화 (MLOps Observability 구축, 모니터링, CI/CD, 장애 탐지 및 복구, 가용성 개선 등)

 ML 엔지니어와 연구자들이 쉽게 사용할 수 있는 SDK 및 API, Event-driven 자동화 시스템 개발

 네이버클라우드의 대규모 컴퓨팅 환경 기반 GPUaaS 서비스의 코어 플랫폼 개발 및 글로벌 서비스화

자격요건

 관련 업무(백엔드, 데이터 엔지니어링 등) 또는 소프트웨어 개발 경력을 3년 이상 보유하신 분

분산 시스템에 대한 기본적인 이해와 경험이 있으신 분

Container 기술(Docker 등) 및 Kubernetes에 대한 기본적인 이해와 사용 경험이 있으신 분

원활한 커뮤니케이션 능력과 동료와의 협업을 중시하시는 분

우대사항

 Golang, Python, Kotlin, Java, Rust 중 하나 이상의 언어에 능숙하시거나 빠른 학습 역량을 보유하신 분

Kubernetes 기반 시스템 또는 대규모 GPU 클러스터 구축·운영 경험을 보유하신 분

MLOps, 데이터 엔지니어링(ETL, Spark, etc.), ML 모델링, 각종 최적화 경험을 보유하신 분

SRE/DevOps (CI/CD, 모니터링, 자동화) 및 클라우드/온프레미스 운영 경험을 보유하신 분

분산 환경에서의 로깅, 트레이스, 디버깅 경험을 보유하신 분

시스템(SW, 네트워크, OS) 전반에 대한 깊은 이해가 있으신 분

복잡한 분산 시스템 환경의 문제 원인을 구조적으로 분석하고 해결하는 역량을 보유하신 분

기술 원리에 대한 깊은 관심, 적극적인 협업 및 공유 자세를 보유하신 분

조직구성원 Talk

 저희 조직에서는 인프라 계층부터 어플리케이션 계층까지, End-to-End 기술에 대해 넓고 깊이 있게 기여하며 성장할 수 있습니다.

나아가, 팀 네이버 전체 ML 엔지니어, 연구자 분들 뿐만 아니라, 글로벌 기업, 국가 단위로도 ML 플랫폼을 제공해주는 경험을 해볼 수 있습니다!


저희 조직은 AI / ML 서비스를 제공하기 위한 전 과정에 대해서 필요한 기능들을 고민하고, 일반화하여 개발합니다. 그렇기에 새로운 트렌드에 대해서 누구보다도 빠르게 접하고 이해하며 구현해야 합니다. 또한 대규모 GPU 클러스터를 운용하는 만큼 효율적인 로직으로 많은 사용자에게 GPU를 효율적으로 제공해야하고, 주어진 GPU를 100% 발휘할 수 있도록 최적화 연구를 진행합니다. 직접적인 모델 개발을 하진 않지만, 그 누구보다도 깊이 있게 알 수 있어야 하기에 다양한 성장 기회와 경험을 가질 수 있는 팀이라 생각합니다. 각 팀마다 각자의 업무에 목표가 있지만 어느 때는 한 팀처럼 함께 일하며, 팀 문화에 중요성을 알기에, 구성원 한 분 한 분이 문화를 만들어나갈 수 있는 분위기입니다.

전형절차 및 기타사항

[전형절차]

서류전형(기업문화적합도 검사 및 직무 테스트 포함) ▶ 1차 인터뷰 ▶ 레퍼런스체크 및 2차 인터뷰 ▶ 처우협의 ▶ 최종합격

※ 전형 절차는 일정 및 상황에 따라 변동 될 수 있으며, 전형 별 결과에 따라 절차(추가 인터뷰 등)가 추가될 수 있습니다.

※ 정해진 결과 발표 일정은 없으며, 지원서 검토 후 면접 일정은 대상자에게 개별로 안내 드릴 예정입니다.


[근무지]

경기 성남시 분당구 불정로 6 (그린팩토리)

※ 근무지는 회사 내부 사정에 따라 변동될 수 있습니다.


[기타사항]

• 본 공고는 타 공고와 중복지원이 불가능하며, 기진행한 포지션에 대한 전형이 모두 마무리 되면 다른 포지션으로 지원이 가능합니다.

• 해외 출장에 결격 사유가 없는 분만 지원 가능합니다.

• 병역 의무를 필한 자 혹은 면제된 자에 한 해 입사지원이 가능합니다.

• 지원서 상 허위 기재가 있거나 제출 서류가 허위인 경우 합격이 취소될 수 있습니다.

• 제출된 지원서는 [My page- 지원현황]에서 확인 가능하며, 공고 마감 전까지 홈페이지에서 수정 및 지원 철회가 가능합니다.

• 본 공고는 인재 선발 완료 시 조기 마감될 수 있으며, 필요 시 모집 기간이 연장 될 수 있습니다.

• 국가유공자 및 장애인 등 취업보호 대상자는 관계법령에 따라 우대합니다.

• 국가유공자의 가산점 부여를 받기 위해서는 본인이 '취업지원 대상자 증명서'를 회사에 제출해야 합니다.

• 제출해 주신 지원서의 검토 결과 발표는 지원서에 등록하신 이메일로 개별 안내 드립니다.

• 입사 후 3개월의 수습 기간을 적용하며 평가에 따라 수습 기간이 연장되거나 채용이 취소될 수 있습니다.

• 문의사항은 NAVER Cloud 채용 홈페이지 1:1 문의로 접수해주시기 바랍니다.