국가생명연구자원정보센터(KOBIC)

KOBICian’s Story

[39호] 슈퍼컴퓨터 이야기

작성자 윤종철 (KOBIC 연구기사)
작성일2024-12-09 09:11:49
조회수1361
댓글수0

슈퍼컴퓨터(Supercomputer)는 "현존하는 가장 빠르고 고성능의 컴퓨터 시스템"으로 정의합니다(출처: Oxford Languages). 이 용어는 1960년대 초반부터 사용되기 시작되었으며, 과학 연구, 기후 모델링, 군사 시뮬레이션 등 복잡한 계산 작업에 사용되면서 더욱 대중화되었습니다. 현재 "슈퍼컴퓨터"란 용어는 그 시대의 최첨단 기술을 적용한 컴퓨터 시스템을 의미하며, 성능 기준은 시간이 지나면서 계속 변화하고 있습니다.

최초의 슈퍼컴퓨터는 Stretch라는 별칭으로도 잘 알려진 IBM 7030(1960년)으로 성능은 약 1 MFlop/s(초당 메가플롭)입니다. 1 MFlop/s는 이론 성능이며, 1초 동안 1,000,000번의 부동소수점 계산을 할 수 있는 성능을 의미합니다. 여기서 이론 성능은 "(코어) × (클럭 속도) × (부동소수점 연산 개수)"로 계산됩니다. 1989년 발표되어 PC에서 널리 쓰인 인텔 80486 프로세서의 성능이 이미 1 MFlop/s를 넘겼고, 2010년 출시된 삼성 갤럭시 S 스마트폰에 쓰인 허밍버드 S5PC110이 200 MFlop/s의 연산 속도를 달성할 수준이 되었으니 기술의 발전 속도는 정말 빠릅니다.

2024년 11월 기준 현재 가장 빠른 슈퍼컴퓨터는 2,746.38 PFlop/s(초당 페타플롭)로 최초 슈퍼컴퓨터보다 3조 배 이상 빨라졌습니다. 이러한 급격한 성능 향상은 CPU 제조 기술 발전, 병렬처리 기술도입, 복합 프로세서(FPGA, GPU 등) 사용 등 다양한 기술 발전의 결과입니다.

전 세계 슈퍼컴퓨터 성능 순위는 매년 두 차례 발표됩니다. 첫 번째는 매년 6월 독일에서 개최되는 ISC(International Supercomputer Conference)이고, 두 번째는 11월 미국에서 개최되는 SC(Supercomputing Conference)입니다. 이때 이론 성능(Rpeak)뿐만 아니라 실측 성능(Rmax)도 같이 포함됩니다. 실측 성능은 LINPACK 벤치마크 프로그램을 사용하여 측정합니다. LINPACK이란 컴퓨터에서 수치 선형 대수를 처리하기 위한 소프트웨어 라이브러리(포트란으로 작성)로서 1970~1980년대에 만들어졌습니다. LINPACK 수행 시 파라미터 값(문제 크기(N), 블록 크기(NB), 프로세스 수(P,Q) 등)에 따라 성능이 달라지기에 최적의 값을 찾아 수행해야 합니다. 실측 성능은 이론 성능의 약 50% ~ 80% 수준이며, CPU가 아닌 복합 프로세서(FPGA, GPU 등)가 많이 장착된 시스템일수록 이론대비 실측 성능도 낮아집니다. 또한 메모리 대역폭, 네트워크 속도, LINPACK 벤치마크 최적화 등으로 실측 성능값은 달라질 수 있습니다.

슈퍼컴퓨터의 공식 순위는 TOP500 사이트(https://top500.org/)에서 확인할 수 있으며, 올해 우리나라에서는 13개의 시스템이 리스트에 등재되었습니다. 11월 발표된 리스트에 의하면 세종(네이버, 40위), 카카오클라우드(카카오, 41위 및 87위), SSC-21(삼성전자, 48위), 타이탄(SK텔레콤, 63위), 구루와 마루(기상청, 73위 및 74위), 누리온(KISTI, 91위) 등입니다.

TOP500 사이트에는 LINPACK 벤치마크로 수행한 성능 측정 리스트뿐만 아니라, HPCG(High-Performance Conjugate-Gradient) 벤치마크로 수행한 리스트도 존재합니다. LINPACK 벤치마크의 경우 슈퍼컴퓨터의 부동소수점 연산 성능을 측정하는데 적합하여 1993년도부터 널리 사용되어 왔습니다. 그러나 과학 및 공학 응용 프로그램에서는 희소 행렬과 메모리 대역폭, 데이터 접근 패턴 분석이 더 중요한 경우가 많고, 그에 적합한 슈퍼컴퓨터를 구축하였을 것입니다.

LINPACK과는 달리 HPCG 벤치마크는 메모리 대역폭, 데이터 접근 패턴, 통신 성능 등 실질적인 HPC(Hardware Performance Computing) 문제를 평가하는 방식을 사용하기 때문에 LINPACK 벤치마크 한계를 보완하고 있습니다. 또한 HPCG 벤치마크를 수행하여 나온 성능 측정값을 2017년도부터 TOP500에 별도로 발표하고 있습니다. 이에 따르면 2024년 11월 현재 KISTI의 누리온(38위) 한국 슈퍼컴퓨터 중에서는 가장 빠릅니다. 향후 TOP500 성능 측정 기준이 LINPACK 벤치마크에서 HPCG 벤치마크로 변경 가능성이 있습니다.

KOBIC에서 보유하고 있는 시스템은 어느 정도 성능을 가지고 있는지 알아보겠습니다. 2015년에 측정 했을 때 이론 성능 65TFlop/s, 실측 성능 48TFlop/s이 나왔습니다. 참고로 2015년 TOP 500에 500위 시스템은 160TFlop/s이며, 당시 우리나라가 보유한 9개의 시스템이 등록되었습니다. 2024년에는 이론성능 113TFlop/s, 실측 성능 85TFlop/s 이라는 값을 얻었습니다. 이는 2015년 대비 약 1.73배 향상된 수치입니다.

KOBIC에 슈퍼컴퓨터와 스토리지는 ISC(International Supercomputer Conference)와 SC(Supercomputing Conference)에서 발표된 시스템을 참고하여 시스템 성능과 안정성을 향상시키고 있으며, 기회가 된다면 슈퍼컴퓨터 순위 TOP500(https://top500.org/) 또는 스토리지 성능 순위 IO500(https://io500.org)에 등재하도록 노력하겠습니다.

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

[66호] 클러스터 이야기

컴퓨터 분야에서 “클러스터(Cluster)”라는 개념은 1980년대 후반에 본격적으로 등장했습니다. 당시 슈퍼컴퓨터는 고가의 전용 시스템이어서 일부 국가 기관이나 대형 연구소만 사용이 가능했습니다. 하지만 과학 기술과 산업이 발전하면서 더욱 정밀하고 복잡한 계산을 감당할 수 있는 고성능 컴퓨터에 대한 수요가 점점 높아졌고, 과학자와 엔지니어들은 이러한 문제를 해결할 방법을 모색했습니다.

고가의 슈퍼컴퓨터 대신 과학자와 엔지니어들이 고안한 해결책은 바로 범용 컴퓨터 여러 대를 네트워크로 연결하여 하나의 거대한 컴퓨터처럼 작동하게 만드는 것, 즉 클러스터 컴퓨팅이었습니다. 이 방식은 상대적으로 저렴한 서버나 워크스테이션을 여러 대 묶어 단일 고성능 시스템(슈퍼컴퓨터)을 대신하는 것입니다. 각 컴퓨터(노드)는 개별적으로 작동할 수 있지만, 클러스터 관리 소프트웨어를 통해 전체 자원이 통합 관리되면서 하나의 연산 시스템처럼 작동하게 됩니다.

클러스터 시스템은 하나의 큰 계산 작업을 여러 개의 작은 단위로 나누고, 이를 여러 노드에서 동시에 처리한 뒤 결과를 종합하는 병렬 처리와 분산 처리를 기반으로 작동합니다. 이 과정이 원활하게 이루어지려면 다음과 같은 구성 요소들이 유기적으로 연동되어야 합니다.

- 작업 스케줄러(Scheduler): 어떤 작업을 어느 노드에서 언제 실행할지 결정하고 자원을 효율적으로 분배해 시스템 활용도를 높입니다. Slurm, PBS, SGE(Sun Grid Engine) 등이 대표적인 스케줄러입니다.

- 고속 네트워크: 노드 간 빠른 통신은 필수적입니다. 특히 MPI(Message Passing Interface) 기반의 병렬 연산에서는 데이터 전송 속도와 지연 시간이 성능에 직접적인 영향을 미치므로, InfiniBand, Omni-Path, RoCE 같은 초고속 기술이 사용됩니다.

- 병렬 파일 시스템: 수많은 노드가 동시에 데이터에 접근하고 입출력을 수행할 수 있도록 지원합니다. Lustre, BeeGFS, IBM Spectrum Scale(GPFS) 등이 있으며, I/O 병목 현상을 해소하는 데 필수적인 역할을 합니다.

참고로 작업을 분할하고 전송한 뒤 모든 노드의 계산 완료를 기다린 후 결과물을 모으는 데에는 시간과 자원이 소모되는 것은 사실입니다. 예를 들어 전체 프로그램 중 90%는 병렬 처리 가능하고 10%는 직렬로만 처리할 수 있다고 가정하면 10개의 노드 사용 시 이론상 최대 속도 향상은 약 5.27배에 그친다고 합니다(Amdahl의 법칙)

Amdahl의 법칙은 전체 작업 중 병렬화가 불가능한 부분이 전체 성능 향상의 한계를 결정한다는 이론으로, 다음과 같은 식으로 표현됩니다.

Speedup(N) = 1 / (S + (1 - S)/N)

S는 직렬 처리 비율 (예: 0.1),

N은 사용한 프로세서(또는 노드) 수입니다.

클러스터 컴퓨팅의 가장 큰 장점은 비용 대비 성능에 있습니다. 고가의 전용 하드웨어를 사용하지 않고, 범용 장비를 조합해 시스템을 구성하기 때문에 초기 구축 비용이 낮고, 유지 관리가 상대적으로 간단합니다. 또한, 필요에 따라 노드를 쉽게 추가하거나 제거할 수 있는 확장성과, 다양한 목적에 따라 자원을 유연하게 재 구성할 수 있는 유연성도 클러스터의 중요한 특징 중 하나입니다.

슈퍼컴퓨터와 클러스터는 모두 대규모 연산과 대용량 데이터 처리를 위해 설계된 시스템이라는 점에서는 공통점이 있지만, 구성 방식에는 차이가 있습니다.

전통적인 슈퍼컴퓨터는 전용으로 설계된 고성능 하드웨어와 통합된 아키텍처를 기반으로 구축되며, 시스템 전반이 일체형으로 동작하도록 최적화되어 있습니다. 반면, 클러스터는 범용 서버나 워크스테이션을 네트워크로 연결하여 하나의 연산 시스템처럼 구성하는 방식으로, 부품이나 기술의 접근성이 높고 유연성이 뛰어난 것이 특징입니다. 하지만 최근 들어서는 슈퍼컴퓨터 역시 내부적으로는 수천~수만 개의 노드로 구성된 클러스터 형태로 설계되는 경우가 많아졌으며, 범용 컴포넌트와 오픈소스 소프트웨어를 적극 활용하는 추세입니다.

그 결과, 두 시스템의 물리적 구조와 운영 방식은 점점 닮아가고 있으며, 오늘날에는 슈퍼컴퓨터와 클러스터의 경계가 사실상 흐려지고 있는 상황입니다.

KOBIC에서는 클러스터 시스템을 기반으로 다양한 생명정보 데이터 분석 연구를 수행하고 있습니다. 각 클러스터 노드는 최신 CPU와 대용량 메모리를 탑재하고 있어, 대규모 유전체 분석, AI 기반 모델 학습, 복잡한 생물정보 시뮬레이션 등 다양한 작업도 안정적이고 효율적으로 처리할 수 있습니다.

또한, 모든 노드와 스토리지는 이더넷(10/100 Mbps)이나 기가비트 이더넷(≥>1Gbps)보다 매우 빠른 최대 200 Gps의 InfiniBand와 같은 고속 네트워크로 연결되어 있어 지연 시간이 매우 짧으며, 대용량 I/O 작업 환경에서도 높은 성능과 안정성을 유지합니다. 이러한 인프라를 바탕으로 KOBIC은 방대한 생명정보 데이터를 빠르고 정밀하게 분석할 수 있는 고성능 컴퓨팅 환경을 갖추고 있으며, 국내 생명정보 연구의 발전에 기여하고자 지속적으로 노력하고 있습니다.

작성자윤종철
작성일2025-08-08
조회수59
댓글수1

[65호] 보이는 것 너머를 비추는 거울, 만족도 조사

만족도 조사는 현대 사회의 수많은 서비스와 정책 속에서 사용자의 목소리를 담아내는 중요한 도구입니다. 이는 서비스 제공자와 수요자 간의 간극을 좁히고, 실질적인 변화를 이끌어냅니다. 정책, 제도, 서비스는 운영자 입장에서 설계되지만, 실제 효과는 사용자만이 판단할 수 있으며, 만족도 조사는 사용자의 경험을 수치와 언어로 표현하여 보이지 않던 불편을 드러나게 합니다. 이러한 피드백은 개선 전략 수립, 자원 재분배, 서비스 방향 전환의 핵심 자료로 활용됩니다.

예를 들어, 공공기관 복지 서비스의 만족도 조사는 단순히 예산 집행률이나 이용자 수로는 알 수 없는 담당자의 응대 태도, 접근성, 이용 절차의 간편성 등을 밝혀냅니다. 이를 통해 기관은 서비스 질을 정량 및 정성적으로 점검하고 성과를 평가할 수 있습니다. 만족도 조사는 또한 성과 중심 행정 및 경영 체계를 강화하는 데 기여하며, 조직은 내부 지표만으로는 파악하기 어려운 외부 반응을 이용자 평가를 통해 점검하게 됩니다. 높은 만족도는 올바른 방향성을, 낮은 만족도는 변화의 필요성을 시사하며 이는 공공부문뿐 아니라 기업, 교육기관, 의료기관 등 다양한 조직에 보편적으로 적용됩니다.

만족도 조사는 조직 내부 구성원에게도 의미 있는 영향을 미칩니다. 높은 만족도는 서비스 제공자에게 자긍심과 동기를 부여하고, 낮은 만족도는 개선의 필요성을 자각하게 합니다. 이는 단순한 질책이 아닌 데이터 기반의 객관적인 피드백이므로 더욱 설득력 있고 수용되기 쉬우며 결과적으로 조직 전체의 학습과 성장을 돕습니다.

무엇보다 중요한 것은 만족도 조사가 '경청의 문화'를 정착시키는 데 기여한다는 점입니다. 사용자의 의견을 경청하는 조직은 신뢰를 얻고, 신뢰는 참여로 이어져 더 나은 정책과 제도를 만듭니다. 특히 공공기관은 이용자의 참여와 신뢰 없이는 지속 가능한 발전을 기대하기 어렵고, 만족도 조사는 이러한 사회적 신뢰를 형성하는 데 중요한 역할을 합니다.

물론 만족도 조사는 응답자의 일시적인 감정에 따른 왜곡된 평가나 낮은 응답률로 인한 대표성 부족 등의 한계를 가질 수 있습니다. 그러나 이러한 한계는 조사 설계의 정교함과 후속 조치의 진정성으로 극복 가능하며, 조사 결과를 형식적인 통계로 끝내지 않고 실제 변화로 연결하려는 의지가 중요합니다. 결국 만족도 조사는 단순한 설문이 아니라 소통, 변화, 그리고 더 나은 사회를 위한 집단적 성장의 도구입니다. 우리는 질문하고 더 잘 들어야 하며, 그 안에 우리가 바라는 미래가 숨어 있습니다.

KOBIC 역시 매년 바이오 분야의 정보시스템 이용자를 대상으로 만족도 조사를 실시하고 있습니다. 만족도 조사가 형식적인 절차로 끝나지 않도록 조사 결과를 적극적으로 분석하고 개선하며, 이를 위해 전담 인력을 배치하고 정책 반영에 적극적으로 활동하고 있습니다. 이처럼 이용자들의 평가와 의견이 완성도 높은 시스템을 만드는 데 기여합니다. 상대방의 의견에 귀 기울이고 적극적으로 해결하려는 노력은 바이오 정보 분야에서 KOBIC의 성장을 이끌 것입니다.

결론적으로, 만족도 조사는 단순한 피드백 수집을 넘어, 기관의 운영 및 성과 개선, 고객과 직원의 만족도를 동시에 높이는 선순환 구조를 구축하는 핵심 도구입니다. 앞으로도 더 나은 서비스를 제공하기 위해 만족도 조사에 참여하는 이용자들의 냉정한 평가와 진심 어린 조언을 당부드립니다.

작성자전용진
작성일2025-08-04
조회수122
댓글수0

[64호] 데이터 대항해시대

데이터의 바다에서 보물을 찾는 항해를 상상해 보십시오. 넘실거리는 데이터의 파도 속에서 필요한 정보를 찾아내는 일은 마치 광활한 대양에서 보석을 건져 올리는 것처럼 쉽지 않은 도전입니다. 오늘날 생명과학 분야에서는 실로 방대한 양의 바이오 데이터가 생산되고 있습니다. 이 귀중한 데이터들은 곳곳에 흩어져 있어, 연구자나 기업이 자신에게 필요한 '보물'을 찾기 위해서는 많은 시간과 노력이 필요합니다.

이러한 문제를 해결하기 위해 탄생한 것이 바로 국가 바이오 데이터 스테이션(K-BDS)입니다. K-BDS는 국가연구개발사업을 통해 생산된 바이오 연구 데이터를 한데 모아 보관하고, 이를 연구자들에게 공유하기 위해 구축된 거대한 플랫폼입니다. 즉, K-BDS는 우리나라 바이오 연구자들에게는 일종의 광활한 데이터 바다와 같습니다. 그러나 아무리 바다가 넓고 보물이 많아도, 필요한 것을 제때 찾아내지 못하면 소용이 없습니다. 실제로 K-BDS에 방대한 데이터가 축적되어 있음에도 불구하고, 원하는 정보를 빠르게 찾아 활용하는 데에는 여전히 어려움이 있습니다. 이는 마치 지도가 없는 채로 바다에서 보물을 찾는 항해와도 같습니다.

그렇다면 어떻게 해야 거대한 데이터 바다 속에서 효율적으로 보물을 찾아낼 수 있을까요? K-BDS의 데이터 활용도를 높이기 위해 두 가지 전략을 제안합니다. 첫째, 데이터를 연구 목적별로 카테고리화하여 체계적으로 분류하는 것입니다. 둘째, 인공지능(AI) 기반 자연어 검색 기능을 도입하여 사용자가 일상 언어나 전문 용어로 질문해도 원하는 데이터를 찾아줄 수 있도록 하는 것입니다.

우선, 목적별 데이터 카테고리화에 대해 살펴보겠습니다. 현재 K-BDS에는 유전체, 대사물질, 광학영상 등 다양한 종류의 바이오 데이터가 담겨 있습니다. 그러나 이 데이터들은 주로 데이터 유형별로 정리되어 있을 뿐, 특정 샘플이나 연구 주제별로 쉽게 묶여 있지 않습니다. 예를 들어 어떤 연구자가 폐암과 관련된 유전체 데이터를 찾으려 할 때, '유전체 데이터' 항목에 가서 일일이 폐암과 관련된 항목을 찾아내야 할지도 모릅니다. 데이터가 너무 많다 보니 원하는 정보를 발견하는 데 시간이 걸리고, 경우에 따라서는 해당 데이터의 존재조차 알지 못한 채 지나칠 수도 있습니다. 만약 폐암, 알츠하이머, 감염병 등 주요 질환별로 데이터가 카테고리화되어 제공된다면 어떨까요? 연구자는 관심 질환 카테고리를 클릭하는 것만으로 관련된 데이터 목록을 한눈에 살펴볼 수 있을 것입니다. 또한 연구 목적에 따라 신약 개발, 진단 기술, 유전 연구 등으로 분류가 이루어진다면, 사용자는 자신의 프로젝트 목적에 부합하는 자료들을 더욱 손쉽게 탐색할 수 있습니다. 이러한 분류 체계는 거대한 데이터 바다에 지도를 그려주는 셈이며, 연구자들이 자신의 여정에서 목표 지점까지 효율적으로 도달할 수 있게 도와줄 것입니다. 이렇게 되면 연구자들이 일일이 방대한 자료를 뒤지느라 허비하는 시간을 줄이고, 그만큼 본연의 연구에 더 집중할 수 있게 됩니다.

다음으로, AI 기반 자연어 검색 기능의 도입입니다. 방대한 데이터 속에서 원하는 정보를 찾는 또 다른 핵심 도구는 바로 검색 기능입니다. 기존의 검색은 주로 정확한 키워드나 일치하는 용어에 의존하기 때문에, 사용자가 어떤 표현을 써야 할지 모르면 원하는 결과를 얻기 어려울 때가 있습니다. 그러나 인공지능 기술을 접목한 자연어 검색은 사용자의 질문을 사람이 대화하듯이 이해하고, 그 의도에 맞는 데이터를 찾아줄 수 있습니다. 예를 들어 연구자가 "국내 알츠하이머 환자의 유전체 돌연변이 데이터를 찾아줘"라고 자연스럽게 질문한다면, AI 검색 엔진은 이 문장을 이해하고 K-BDS에 저장된 알츠하이머 환자 관련 프로젝트들의 유전체 원시데이터(fastq) 와 돌연변이 분석기법들을, 또는 이미 분석된 데이터(vcf) 결과파일을 찾아 보여줄 수 있을 것입니다. 별도로 전문 용어나 복잡한 검색 조건을 몰라도, 연구자가 질문만 던지면 AI가 맥락을 파악해 방대한 데이터 속에서 알맞은 정보를 주는 것입니다. 이는 마치 항해자의 나침반과 별자리가 되어 목적지를 찾아가는 것과 같습니다.

이 두 가지 전략이 도입된다면, K-BDS는 거대한 바이오 데이터의 바다이자 진정한 보물 찾기의 항해를 지원하는 든든한 동반자가 될 것입니다. 체계적인 데이터 카테고리화는 정돈된 지도가 되고, 자연어 검색은 탐험에 나선 연구자들이 방향을 잃지 않도록 이끌어 줄 것입니다. 그 결과 더 많은 연구자들이 K-BDS를 적극 활용하여 귀중한 데이터를 빠르게 찾아내고, 새로운 과학적 발견이나 혁신적인 생명공학 성과를 이루어낼 수 있을 것입니다. 방대한 데이터의 바다에 뛰어든 항해자들이 안전하고 효율적으로 보물을 발견하도록 돕는 것, 그것이 바로 K-BDS가 나아가야 할 방향입니다. 우리 모두 이 항해를 통해 얻은 보물로 대한민국 바이오 연구의 지평을 한층 넓혀 나가길 기대합니다. 또한 오랜 시간과 비용을 들여 확보한 소중한 연구 데이터들이 사장되지 않고 활발히 활용됨으로써, 국가 연구개발 투자에 대한 가치도 더욱 높아질 것입니다.

(출처: ChatGPT로 생성)

※다음 글에서는 생성형 AI가 구현하는 자동 분석 파이프라인, 연구 가이드, 실시간 Q&A 챗봇 등 K-BDS의 한층 스마트해진 모습을 소개할 예정입니다. 많은 기대 부탁드립니다!

작성자장기원
작성일2025-07-28
조회수115
댓글수0