•"측정할 수 없다면, 개선할 수 없다"라는 핵심 철학을 가지고 네이버 주요 서비스들의 신뢰성을 높이는데 기여하고 있습니다.
•2016년 국내 최초로 SRE 업무 영역을 개척하여 선진적으로 도입한만큼 SRE 업무 영역에 대한 확고한 철학과 비전으로 발전합니다.
• 네이버 전사 Metric&Monitoring 플랫폼 개발
•- 네이버 주요 서비스에 대한 Metric&Monitoring 플랫폼 구축을 진행
•- 대용량 지표, 로그, 트레이스 수집 및 처리를 위한 Metric&Monitoring 플랫폼 아키텍처 설계, 개발 및 운영
• 안정적인 서비스 운영을 위한 자동화 도구 및 SRE 관제도구 개발
•- 사람의 개입 없이도 빠르고 일관되며, 신뢰성 높은 장애 관제가 가능한 LLM 기반의 Chat-Ops 시스템 개발
•- 서비스 및 시스템 지표를 통계적으로 분석해 장애 상황 시 인사이트를 직관적으로 제공하는 통합 대시보드를 개발
•- 네이버 주요 서비스에 대한 이상 감지 및 경보 시스템 개발
• 네이버 주요 서비스 장애 대응
•- 서비스 장애 및 주요 이벤트 발생 시, 장애 예방과 신속한 복구를 위한 모니터링 및 대응 활동 수행
• Python 언어에 능숙하신 분
•Linux, k8s, docker, Prometheus 관련 기술에 능숙하신 분
• 대규모 모바일/온라인 서비스에서 SRE 관련 개발 경험을 3년 이상 보유하신 분
• Javascript 언어에 능숙하신 분
• VictoriaMetrics, Grafana, n8n, Agentic AI 관련 기술에 능숙하신 분