people video thumbnail

기술의 생명을 지키는 일

18년 차 서버 인프라 엔지니어 김병국은 네이버의 기반 기술을 탄탄하게 쌓아 올리며 네이버의 크고 작은 성장에 버팀목이 되어 왔다. 2022년 데이터센터에 화재가 나는 절체절명의 순간에도 네이버의 서비스가 막힘없이 돌아가고, AI가 부상하자마자 이를 위한 초거대 슈퍼컴퓨팅 클러스터를 발빠르게 구축할 수 있었던 것도 네이버에 서버 인프라 기술이 오랫동안 축적되어 있었던 덕분. "서버 엔지니어는 기술과 서비스의 생명을 책임지는 의사와 같습니다." 서버를 돌보는 의사의 마음, 네이버의 서비스와 기술들이 안전하게 지켜지고 있는 이유다. 

김병국님 이미지1
네이버와는 어떤 계기로 함께하게 되셨나요.

안녕하세요. 네이버 클라우드 Server Infra Engineering 팀의 김병국입니다. 18년 차 서버 엔지니어로, 네이버에서만 16년을 함께해 왔습니다.
제가 입사했던 2008년쯤이 네이버가 폭발적으로 성장을 하던 시기였어요. 전지현 배우가 날개모자를 쓰고 나왔던 TV 광고로 네이버가 각인되던 시기였는데, 그때까지만 해도 네이버가 아직은 사람들에게 익숙하지 않은 이름이었죠. 그런데 곧 검색부터 해서 지식인, 카페 같은 서비스로 IT 시장을 뒤흔드는 모습을 보면서 ‘아, 정말 사업성이 좋은 회사구나’라는 걸 느꼈고, 그렇게 네이버에서 엔지니어로서의 성장을 기대하면서 지원했던 기억이 납니다.
이전 회사에서도 서버 일을 했는데요. 네이버에 합류하고서는 기존에 해오던 서버 관리뿐만 아니라 기술 연구와 같은 테크니컬한 업무들을 하게 되면서 좀 더 기술적으로 깊이 파고 들 기회들이 많아졌어요. 제가 할 수 있는 업무 영역들이 굉장히 넓어지면서 다양한 성장 경험을 했던 것 같습니다. 현재는 서비스가 안정적으로 운영될 있도록 기반 시스템을 아키텍처링하고 성능을 최적화하는 역할을 책임지고 있습니다. 그중에서도 전사 x86 서버*의 표준을 만들고 운영 과정에서 발생하는 다양한 문제를 해결하는 것이 제가 무게감 있게 다루고 있는 영역입니다.

*x86 서버: 서버의 한 종류로, 주로 인텔과 AMD사에서 생산한 중앙처리장치(CPU)를 기반으로 작동하며 맥이나 윈도우를 운영체제로 사용하는 서버로 범용성이 좋아 IT 업계 전반에서 사용되고 있음

서버 엔지니어가 하는 일을 간단히 소개해 주세요.

서버는 기술의 기반이 되는 것이다 보니, 새로운 기술적 시도를 위해선 선제적으로 서버 인프라가 받쳐줘야 합니다. 서버 엔지니어는 그를 위해 서버의 설계, 구축, 운영 및 유지보수 역할을 담당하고 있는데요. 서버의 성능을 최적화하기 위한 아키텍처를 설계하고, 문제 발생 시 진단/분석하고 복구를 위한 후속조치를 하는 일, 그리고 지속적인 업데이트 작업을 통해 서버가 효율적으로 작동하도록 하는 일을 수행하고 있습니다.
궁극적으로는 서버가 문제 없이 안정적으로 운영될 수 있도록 하는 것이 저희 일의 목표 지점입니다.

“어떤 새로운 기술이든 결국 탄탄한 서버 인프라가 뒷받침해줘야 하는 것이니까요.
저희가 오랜 시간 쌓아온 노력들이 빛을 발했던 순간이라 생각합니다.”

네이버 데이터센터 각에 있는 엄청난 규모의 서버 운영 관리도 담당하고 계신다고요.

저희 데이터센터는 내부 기술부터 시설까지 모두 네이버의 자체 기술로 이뤄져 있는데요. 다른 어떤 IDC(Internet Data Center)를 가더라도 춘천이나 세종 각보다 더 잘 되어 있는 IDC를 본 적이 없습니다. 보통 해외에 더 잘되어 있을 거라고 생각을 많이들 하실 텐데, 실제로 선진 사례라 꼽히는 데이터센터를 가 봐도 저희가 훨씬 잘하고 있다는 생각이 듭니다.
저희 춘천 데이터센터 각에만 10만 대, 세종 데이터센터에도 60만 대로 총 70만 유닛의 어마어마한 규모의 서버를 운영하고 있습니다. 이렇게 한두 대가 아니라 수십만 대의 서버들을 운영하고 있기 때문에 효율적인 관리 방식을 찾아 내는 것이 중요한데, 저희 팀에서는 서버 하드웨어 인프라 운영에 필요한 자동화 전반과 수십만 대의 서버를 어떻게 하면 더 잘 모니터링하고 관리할 수 있을지 고민하고 최적화하는 일을 하고 있습니다. 그리고 웹 서비스, DB, 클라우드 등 어떤 목적/형태로 사용하느냐에 따라서 아키텍처 설계도 굉장히 달라지는데요. 각각의 서버가 네이버 서비스 플랫폼 성격에 최적화된 스펙으로 구축될 수 있도록 전사 표준 아키텍처를 만드는 것 또한 저희가 맡고 있는 중요한 미션 중 하나입니다.
매해마다 서버 기술도 변화하고 있기 때문에 선행 기술을 끊임없이 연구하고 검증하고 있어요. 속도감 있게 안정적인 시스템을 구축할 수 있도록 준비하는 역할을 저희 팀에서 수행하고 있는데요. 기술을 네이버 표준에 맞는 환경으로 재정의하고 성능을 최대한 끌어올려서 수백, 수천 대의 시스템이라도 국내/해외 관계없이 원격으로 최적화된 운영 관리를 할 수 있다는 것이 자랑이라 생각합니다.
그리고 저희 데이터센터에는 저희 서버 엔지니어링뿐만 아니라 건물, 시설 등의 물리적 환경을 구축하는 인프라 퍼실리티 기술도 집약되어 있어요. 에너지에 대한 고민을 담은 친환경적인 설계부터 최근 세종 각에는 서버를 관리하는 로봇과 드넓은 데이터센터에서 이동을 도와주는 자율주행 버스도 운행되고 있을 정도니까요. 서버 엔지니어로서 이런 훌륭한 자원을 바탕으로 일할 수 있다는 사실이 뿌듯한 마음입니다.

김병국님 이미지2
대규모 서버를 운영하며 내부적으로 기술력도 많이 다져졌을 것 같습니다.

2022년 판교 IDC에 화재가 난 적이 있었죠. 화재 초반부터 상황을 인지하고 있었기 때문에 어떻게 대응할지 준비하고 있었는데, 결과적으로는 예상한 수준을 넘어서 화재가 너무 커져 버렸었어요. 전기가 부족해져서 서버 전원을 전부 다 내리는, 정말 엄청나게 긴급한 상황까지 갔었죠. 화재 복구가 되기 전까지 교대로 돌아가면서 거의 철야를 했던 기억이 납니다.
그런데 그 상황 속에서도 다행히도 저희 네이버 서비스는 문제 없이 무사히 돌아갈 수 있었는데요. 결과적으로 우리가 운영하고 있는 IDC에 문제가 생기더라도 서비스에는 문제가 없도록 아키텍처를 설계하고 완결성 있는 체계적 운영을 하고 있었기 때문에, 긴급 상황에서도 당황하지 않고 각자의 영역에서 차분하게 복구를 해 나갈 수 있었던 것 같습니다.
저희가 여러 거점 IDC를 나눠서 운영을 하고 있고, 또 데이터를 이원화하는 등 안정성을 담보하기 위한 기술적인 고민을 끊임없이 해왔고, 또 네이버가 꾸준하게 인프라적인 투자를 아끼지 않았던 것. 이런 것들이 다 시너지가 났던 순간이지 않을까 싶습니다. 저희가 오랜 시간 쌓아온 노력들이 빛을 발했던 순간이었던 것 같아요.

오랜 경력 동안 많은 일들을 해오셨을 텐데요. 그중 가장 기억에 남는 프로젝트가 있다면 소개해 주세요.

아무래도 최근 진행하고 있는 AI 프로젝트가 가장 인상적인 프로젝트이지 않나 생각합니다. AI에 대해서 이렇게 일상적으로 이야기를 하고, AI 사업을 하지 않으면 시장에서 도태된다는 이야기하기 시작한 지가 불과 몇 년이 안된 것 같은데요. 그럼에도 네이버는 아주 미리부터 AI를 굉장히 중요하게 생각하고 준비하고 있었기 때문에, 실제로 하이퍼클로바X를 시장에 내놓기로 했을 때, 저희가 서버 단에서 구축하고 지원하는 것도 굉장히 속도감 있게 진행할 수 있었습니다. 이 시기를 지나고 나면 우리가 시장에 대한 주도권을 잃을 수도 있다는 생각으로 빠르게 진행을 했던 프로젝트였어요.
지금 저희 하이퍼클로바X의 기반이 되는 거대언어모델(LLM, Large Language Model)을 만드는 것도 그 프로젝트에서 시작했었죠. 인공지능이 점점 고도화되면서 서버 기술력이 더욱 중요해졌는데, 이 프로젝트를 통해 이전에는 경험해보지 못했던 거대한 GPU(Graphic Processing Unit, 그래픽 처리 장치), 머신러닝을 위한 슈퍼컴퓨팅 클러스터를 구축했고, 이걸 만들어 내면서 AI에 대한 우리 회사의 노하우가 많이 생겨났습니다.슈퍼컴퓨터라는 건 단순하게 생각해보면 우리가 보통 일상에서 한두 개 정도의 단위 시스템을 사용하고 있는 건데, 수십, 수백 단위의 시스템을 하나처럼 유기적으로 작동하도록 만드는 일이라 할 수 있는데요. AI 머신러닝에 가장 최적화된 최고 성능의 자원들로 구성을 해서, 그 자원들 하나하나의 컴퓨팅 파워도 엄청납니다. 사람도 100명이 머리를 맞대고 같이 하면 시간이 줄어드는 것처럼, 결과적으로 이렇게 고성능의 많은 시스템들을 하나로 엮으면 저희가 원하는 학습을 시켰을 때, 그걸 수행하는 절대적인 시간을 줄일 수 있어요. 일을 나눠서 하니까 속도도 빨라지고 결과의 품질도 높일 수 있게 되는 것인데요. 하나의 자원을 스케일업 한다고 해도 그 하나로 할 수 있는 것들은 아무래도 한계가 있으니까, 그걸 옆으로 펼쳐서 거대한 네트워크로 하나로 뭉치는 작업을 진행하는 겁니다.

AI 성장에도 서버 기술이 핵심적인 역할을 하는군요.

기술이라는 영역은 다 하나로 연결된다고 생각합니다. 어떤 새로운 기술이든 결국 서버 인프라를 시작으로 프론트엔드까지 하나로 이어져 완성되어야 세상에 나올 수 있는 것이니까요. 이렇게 탄탄한 인프라가 받쳐 줄 수 있을 때 AI의 지능도 발전할 수 있게 되는 것이죠.
그렇게 성공적으로 하이퍼클로바X가 나온 후에 AI 시장에서도 네이버가 AI와 인프라에 대해서 투자도 많이 하고 노력도 많이 하고 있구나라는 것들이 어필이 되기도 했고요. 현재는 소버린 AI*와 같은 독립적인 인공지능 역량을 갖추고 AI 주권을 당당히 이야기할 수 있는 위치에 설 수 있다는 것 자체가 굉장히 잘 나아가고 있다는 생각을 합니다.

*소버린 AI (Sovereign AI): 자주성과 보안성을 강화하기 위해 특정 국가나 지역에 자체 데이터센터를 구축함으로써 클라우드 서비스를 지원하는 공공 클라우드 컴퓨팅 인프라

김병국님 이미지3
검색 서비스 서버 운영도 오래 담당하셨다고요. 재밌는 데이터 흐름들도 많이 보셨을 것 같습니다.

네이버가 메인의 통합검색 외에도 이미지 검색, 인물 검색, 지식인, 쇼핑, 사전, 카페, 블로그 등등 엄청나게 다양한 검색 서비스를 제공하고 있는데, 그만큼 거기서 탐지할 수 있는 흐름들이 다양합니다.
사회적인 이슈가 있을 때 뉴스 트래픽이 올라가는 건 물론이고요. 1년의 사이클을 딱 돌고 나면 어떤 시점에는 어떤 일들이 발생을 하겠구나 하는 사회적인 이벤트들이 보여요. 저희는 그런 것들을 뒤에서 보고 어떤 지원들이 필요하겠구나 하는 것들을 파악합니다. 방학이 되면 지식인 트래픽이 쭉 올라가고, 명절 같은 경우는 지도 서비스 사용자들이 굉장히 더 많이 늘어나겠네, 특히 올해는 명절이 좀 기니까 지도를 사용을 하실 분들이 더 많아질 것 같다, 가용량을 더 늘립시다 해서 미리 준비를 하는 식인데요.
저희가 하는 일들 자체가 문제가 생기기 전에 미리 대비를 하는 것이에요. 미리 준비해서 문제가 발생하지 않는 것이 가장 좋은 시나리오가 되는 것이고요. 그렇게 검색 트렌드가 어떻게 되는지 늘 신경 써서 지켜보고, 서비스들이 막힘없이 정확하게 돌아갈 수 있도록 서버 단에서 미리 챙기는 작업들을 계속해서 해 나가고 있어요. 또, 늘어나는 사용량만큼 서버를 증설해야 하다 보니, 우리 서비스들이 점점 성장해 나가는 모습들을 뒤편에서 흐뭇하게 지켜볼 수 있는 것 또한 서버 엔지니어로서의 소소한 기쁨인 것 같습니다.

“네이버 기술과 서비스의 생명을 책임지는 의사와 같다는 마음으로 임하고 있습니다.”

서버 ‘인프라’라는 이름에서도 알 수 있듯 기반 기술로서 없어서는 안될 존재이지만, 동시에 수면 위로 잘 드러나지 않는 일이기도 한 것 같습니다.

어쩌면 조금 묵묵한 마음가짐을 갖는 것 또한 서버 엔지니어로서의 역량이지 않을까 하고 생각합니다. 서버 운영 업무는 사실 인프라라는 특성 상 앞에서 조명받는 일이기 보다는, 어딘가 이슈가 발생했을 때 특히 부각되는 일이기도 합니다. 문제상황을 방지하기 위해 시스템을 이중화하는 것부터 시작해서 인프라 구축을 위한 여러가지 많은 노력을 기울이고 있지만, 그런 작업들 자체가 사실 밖으로 표가 나는 일들은 아니다 보니까요. 어떤 프로젝트를 하고 났을 때 결과물에 대해서 ‘우리가 이런 것들을 했다’라고 이야기하기는 다른 영역들보다 어려운 부분도 있다 보니, 솔직한 마음으로 가끔은 조금 아쉬운 마음이 드는 때도 있는 것 같아요.
하지만 결국엔 모든 밑바탕에는 저희의 인프라가 있기 때문에 네이버의 기술과 서비스가 안정적으로 제공될 수 있는 것이고, 또 수천만 사용자들이 그걸 누릴 수가 있는 것이니까요. 그 자부심만큼은 누구보다도 모자라지 않다고 생각하고, 그게 제가 할 일을 묵묵하고 꾸준하게 일궈 나갈 수 있도록 하는 동력이 되지 않나 싶습니다.

서버 인프라 엔지니어로서 일을 잘한다는 것은 어떤 것일까요.

서버 운영을 하다 보면 실시간으로 이슈 상황을 많이 마주하게 됩니다. 저희가 담당하는 서버의 규모가 엄청나다 보니, 그만큼 대비해야 하는 이슈의 폭과 규모도 커지게 됩니다. 그 속에서 인프라 엔지니어로서 ‘적시성’이 굉장히 중요하다고 생각해요. 수천만 유저들이 사용하는 서비스가 끊어지지 않도록 해야 하는 것은 저희의 숙명이기 때문에 적확한 타이밍에 필요한 기술을 적용하고 문제에 대응하는 것이 필수적입니다. 인프라 운영을 하다 보면 물론 서버에서 문제가 발생할 수 있거든요. 중요한 건 그 문제가 ‘왜’ 발생했는지에 대한 명확한 원인을 파악하고 그에 맞는 조치를 취해서 재발하지 않도록 하는 것이 인프라 엔지니어로서의 몫이라 생각합니다.
저희가 하는 일이 어쩌면 의사의 일과도 닮아 있는 것 같아요. 병의 원인을 찾아 진단하고, 골든타임 내에 필요한 조치를 취해서 치료하고, ‘2주 뒤에 한번 다시 보시죠’하듯 병이 잘 치료됐는지, 상처가 잘 아물었는지 지속적으로 살펴보는 사이클이 마치 저희가 서버 인프라를 운영하는 사이클과 비슷하다고 생각해요. 그리고 나아가서 ‘진짜로 다 나은 거 맞나요?’하는 질문에 ‘믿으셔도 됩니다.’라는 답을 자신 있게 내어 놓을 수 있는, 믿음직한 의사 같은 서버 엔지니어가 되고 싶단 생각을 합니다.
서버가 다운되면 서비스 자체가 되질 않으니까요. 네이버의 모든 서비스와 기술이 건강하게 살아 숨쉴 수 있도록 하는 일이란 생각으로, 늘 제가 하는 일에 대해서 묵직한 사명감을 안고 있습니다.

김병국님 이미지4

Published Feb. 2025

Board the Navership

지원하기 자원하기