국가생명연구자원정보센터(KOBIC)

KOBICian’s Story

데이터 거버넌스의 여러 모델

작성자 정해영 (KOBIC 센터장/책임연구원)
작성일2025-06-23 00:00:00
조회수57

요즘 거버넌스(governance)라는 낱말이 심심치 않게 많이 쓰입니다. 동사 govern이 ‘지배하다, 통치하다’ 등의 뜻을 지니고 있으니 이로부터 파생된 거버넌스는 ‘통치, 지배, 관리, 운영’ 정도의 뜻을 지닐 것으로 생각하기 쉽습니다. 틀린 해석은 아니지만 최근 들어서 다른 낱말과 같이 쓰이면서 그 의미가 더욱 확장되었습니다. 예를 들자면 ‘데이터 거버넌스’와 같은 것입니다. 거버넌스의 현대적 의미는 조직이나 기관 또는 시스템을 지휘하고 관리하며 책임을 지는 방식의 틀, 절차 그리고 관행입니다. 동사 govern에서 파생된 또 다른 명사 government(정부)는 폐쇄적이고 수직적인 소통이 주류를 이루지만, 이와 대조적으로 거버넌스에서는 외부와 네트워크로 연결되는 개방적이면서도 열린 조직을 추구한다고 합니다. 그래서 어떤 사전을 찾아보면 거버넌스를 ‘협치(協治)’로 풀이합니다.

현대 지능정보사회에서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 양질의 데이터를 확보하여 효율적으로 사용하고, 법령을 준수하며, 나아가서는 미래 경쟁력 확보를 위해 데이터를 전략적 자산으로 만들기 위해서는 잘 설계되고 실행 가능성을 갖춘 데이터 거버넌스가 필요합니다.

1990년대에 접어들면서 과학 논문이 유료 저널에 게재되는 일이 흔해지고 데이터 접근도 어려워지자, 오픈 사이언스 재단에서는 2002년 부다페스트에 모여서 과학 및 학술 연구 결과물을 누구나 자유롭게 접근하고 사용할 수 있도록 하자는 원칙을 제시하였습니다. 2021년 UNESCO에서는 194개 회원국이 만장일치로 오픈 사이언스 권고안을 채택하였습니다. 여기에서는 오픈 액세스, 오픈 데이터, 오픈 인프라, 시민 참여 및 전통 지식 체계와의 대화 등 오픈 사이언스의 핵심 요소를 구성하고 실행을 위한 우선 과제를 제시하게 되었습니다. 이 권고안의 탄생 배경에는 역설적으로 COVID-19 팬데믹이라는 대재앙이 매우 중요하게 작용하였습니다. 병원체 게놈 정보의 신속한 공개 덕분에 빠른 진단과 백신·치료제 개발이 가능하였고, 데이터 공유를 통해 신속하고 동시다발적인 연구 협력을 할 수 있었습니다. 이 사실은 UNESCO의 오픈 사이언스 관련 문서에도 실려 있습니다.

오픈 사이언스 원칙의 올바른 실행 측면에서도 데이터 거버넌스는 큰 의미를 갖습니다. 단지 연구 데이터를 개방한다고 해서 이를 모두가 신뢰하고 쓸 수 있는 것은 아닙니다. 데이터의 품질을 일정 수준으로 끌어 올리고, 그 사용에 대한 책임 소재를 명확히 하며, 접근 권한을 정교하게 설계하는 것은 모두 데이터 거버넌스의 영역입니다. FAIR(Findable·Accessible·Interoperable·Reusable) 원칙은 오픈 사이언스와 동일한 것은 아니지만 상호 보완 관계에 있으며, 오픈 사이언스를 실현하는 도구가 될 수 있습니다. 현재 KOBIC의 국가바이오데이터스테이션은 외부 기관과 협력하여 FAIR 성숙도를 점검하는 일에 착수하였습니다.

오픈 사이언스는 얼핏 생각하면 데이터의 자산화 경향과 충돌하는 것처럼 보입니다. 데이터를 생산한 주체는 이를 소유물로 인식하고 배타적 권리를 주장하려는 경향이 있습니다. 산업계에서는 당연히 이를 보호하고자 합니다. 정부 연구개발과제로 생성된 연구 데이터를 국가적 전략 자산으로 여겨서 통제하려는 것도 어찌 보면 자연스러운 현상입니다. 특히 유전체 정보나 보건의료 정보는 개인 차원에서 보호해야 하는 민감정보이자 기업·국가 차원의 경제적 자원이지만, 새로운 연구 성과로 이어질 수 있는 중요한 재료이므로 공공적 활용을 더욱 촉진하기 위해 개방해야 한다는 목소리도 높습니다.

이러한 요구사항을 전부 충족시키는 것은 어차피 불가능하니 적절한 중간 지점에서 타협해야 합니다. 데이터 거버넌스의 한 형태라고 볼 수 있는 데이터 커먼즈(data commons)가 해결책이 될 수 있습니다. 커먼즈(commons), 즉 공유지는 본래 모두가 함께 공유하고 관리하는 자원을 뜻합니다. 1960년대 말 사이언스에 발표된 유명한 논문 ‘공유지의 비극(Tragedy of the Commons)’에서 지적했듯이, 공유 자원은 개인의 합리적인 이기심에 의해 철저히 파괴되고 고갈된다고 하였습니다. 그러나 엘리너 오스트롬은 ‘커먼즈의 거버넌스(원제는 'Governing the Commons: The Evolution of Institutions for Collective Action’)’라는 책을 통해서 이를 반박했습니다. 즉 공동체가 공통의 규칙과 책임 아래 자원을 개방하고 공동으로 관리하여 이를 지속적으로 지켜 나갈 수 있음을 주장하였습니다. 경제학에는 시장과 국가만 존재한다는 이분법을 깨뜨린 공로로 오스트롬은 2009년 노벨 경제학상을 수상하였으며, 현대적 의미의 거버넌스 개념을 제창하고 정립하였다고 평가해도 무방할 것입니다.

요즘은 이로부터 한발 더 나아가서 신뢰 기반의 커먼즈(trusted commons) 개념이 등장하였습니다. 이는 전통적 커먼즈 모델에 신뢰, 안전성 및 책임의 요소를 더한 것입니다. 경제적 활용 가치가 매우 높지만 함부로 공개될 경우 정보 주체에게 피해를 줄 수 있는 보건·유전체 정보의 안전하고도 책임 있는 활용을 선도해 나갈 수 있는 것이 바로 신뢰 기반 커먼즈입니다. 미국 NIH의 dbGaP(The database of Genotypes and Phenotypes)이나 유럽의 EGA(European Genome Archive), 그리고 KOBIC의 인체유래데이터은행이 바로 이러한 신뢰 기반 커먼즈의 사례입니다.

신뢰기반 커먼즈의 핵심 요소를 간단히 설명하자면 다음과 같습니다.

접근 통제(access control): 데이터를 누가 어떤 조건에서 사용할 수 있는지를 명확히 정함
책임성(accountability): 데이터를 사용하는 사람은 그 사용 내역과 목적에 대해 책임을 져야 하며 기록을 남겨야 함
투명성(transparency): 데이터가 어떻게 수집되고 누구에게 공유되며 어떻게 사용되는지 공개해야 함
형평성과 포용성(equity & inclusion): 데이터 기여자나 소외된 집단도 공정하게 혜택을 누릴 수 있어야 하며, 차별 없이 접근할 수 있도록 배려해야 함
상호성(reciprocity): 데이터를 사용하는 사람은 그 결과나 혜택을 다시 커뮤니티에 돌려줘야 함

지난 4월 미국 신생명공학 국가안보위원회(National Security Commission on Emerging Biotechnology)가 발간한 보고서 ‘Charting the Future of Biotechnology’에 따르면, 미국은 생명공학 분야에서 중국의 급부상을 경계하면서 유전체, 인공지능(AI) 및 바이오제조 등에서 자국의 지속적인 우위를 유지하기 위한 새로운 모델인 Web of Biological Data를 구축할 것을 제안하였습니다. 이는 신뢰 기반 커먼즈의 확장판으로서 FAIR + 신뢰 기반 + AI-ready 상태의 국가적 디지털 인프라에 해당하며, 하나의 통합된 창구(single access point)를 제공한다는 점이 핵심입니다. 부연하자면 분절되어 존재하는 데이터 리포지토리에 대한 검색 및 활용을 한 곳에서 제공함으로써 사용자의 편의성을 높일 수 있게 한 것이지만. 신뢰할 수 있는 국가 또는 동맹국 중심의 국제 협력을 유도하기 위한 밑그림일 수도 있습니다.

새 정부가 들어서면서 모두가 국정과제를 수립하기 위한 바쁜 움직임에 들어갔습니다. AI는 이미 우리 주변에 깊숙하게 자리 잡았고, 머지않아 바이오 경제 시대에 진입하게 될 것입니다. KOBIC이 정성스럽게 모은 양질의 바이오 연구 데이터가 안전하게 널리 활용되어 공공의 이익에 기여하고, 아울러 글로벌 바이오 데이터 저장소의 모범이 되기를 기대해 봅니다.

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

[58호] 복잡한 생명과학 데이터를 하나로: 데이터베이스 모델링

디지털 생명과학 시대에 접어들면서 우리는 다양한 형식과 규모의 바이오 데이터를 데이터베이스 내에 쌓아가고 있습니다. 유전체, 전사체, 단백체, 대사체, 바이오이미징, 전임상, 화합물 등 서로 다른 분야의 생명연구자원은 이제 함께 연결되어 통합적으로 해석되어야 할 대상으로 주목받고 있습니다. 이러한 데이터를 하나의 통합된 데이터베이스 안에 정리하고 연계하는 일은 단순한 저장을 넘어 복잡한 설계가 필요한 일이자, 생명현상을 깊이 이해하기 위한 필수적인 과정입니다.

바이오 데이터는 개별적으로 존재하는 것이 아니라 유기적으로 연결되어 있습니다. 예를 들어, 하나의 유전자가 활발히 작동하면 단백질이 만들어지고, 이는 대사 반응에 영향을 주며, 그 결과는 실험 이미지나 화합물 반응에서도 나타날 수 있습니다. 하나의 사건이 여러 데이터로 확산되는 이 구조를 이해하려면 단편적인 정보의 나열이 아니라 관계 중심의 데이터 연결이 필요합니다.

또한 생명과학 데이터는 표 형식뿐 아니라 이미지, 3D 구조, 그래프 등 다양한 형태로 존재합니다. 단백질만 해도 서열 정보, 3차 구조, 기능 정보 등이 모두 서로 다른 방식으로 저장됩니다. 이를 하나의 시스템에 담기 위해서는 다양한 형식을 수용할 수 있도록 유연하게 설계되어야 합니다.

이처럼 복잡하고 다양한 데이터를 효과적으로 다루고 서비스 하기 위해서는 기존의 관계형 데이터베이스만으로는 한계가 있을 수 있습니다. 관계형 데이터베이스는 명확한 테이블 구조와 고정된 스키마를 기반으로 동작하기 때문에, 데이터의 형태가 유동적인 비정형 데이터를 다루기 어렵고, 유전자와 단백질, 대사산물, 화합물 사이처럼 복잡하게 얽힌 다대다(M:N) 관계나 계층적 데이터 구조를 표현하는 데도 제약이 큽니다. 이러한 이유로 정형/비정형 문서중심의 NoSQL, 관계 구조를 표현하기 쉬운 그래프 데이터베이스 등 다양한 기술을 함께 활용해야 하며, 각각의 장점을 살려 통합적으로 설계하는 것이 중요합니다.

이러한 기술적 고려 외에도 데이터베이스를 설계할 때 무엇보다 중요한 것이 있습니다. 데이터베이스의 설계 및 모델링은 단지 기술로만 완성되지 않습니다. 누가 데이터를 만들고, 어떻게 분석하며, 어떤 방식으로 활용되는지를 이해하고, 그 흐름에 맞게 구조화되어야 진정으로 활용 가능한 시스템이 됩니다. 업무 흐름이 명확하면 데이터도 자연스럽게 정돈되고, 문제 발생시 빠르게 대응할 수 있으며, 새로운 작업이 추가되더라도 유연하게 적용할 수 있습니다.

여기서 중요한 개념이 데이터 모델링과 데이터베이스 모델링입니다. 데이터 모델링은 분석할 대상의 개념과 의미를 정의하고 그 관계를 추상적으로 설계하는 과정이며, 데이터베이스 모델링은 이를 실제 시스템에 구현 가능한 형태로 구체화하는 작업입니다. '무엇을 담을 것인가'를 정의하는 것이 데이터 모델링이라면, '어떻게 담을 것인가'를 결정하는 것이 데이터베이스 모델링입니다. 두 과정은 생명과학 데이터의 통합과 활용을 위한 기반입니다.

이러한 철학은 K-BDS(Korea BioData Station)가 추구하는 방향과도 일치합니다. K-BDS는 유전체, 전임상, 단백질, 대사체, 영상/이미지 등 다양한데이터를 통합하여 연구자들이 효율적으로 활용할 수 있도록 지원하는 국가 바이오데이터 플랫폼입니다. 현재 K-BDS는 데이터 간 연계성을 점진적으로 확장하며, 다양한 생명과학 데이터가 유기적으로 연결되는 구조로 발전하고 있습니다. 단일 유형의 데이터 제공을 넘어, 다양한 데이터 간 의미 있는 관계를 표현하고 공유할 수 있는 환경을 구축하고자 합니다.

우리가 만들고자 하는 바이오 데이터베이스는 단순한 저장소가 아닌, 다양한 사람들이 데이터를 생성하고 다듬고 활용하는 하나의 '업무 생태계'입니다. 이 생태계가 원활히 돌아가기 위해서는 기술적인 설계와 더불어, 업무 흐름과 역할, 절차가 명확히 정의되어야 하며, 그것이 데이터 구조 안에 반영되어야합니다. K-BDS가 단순한 데이터 모음이 아닌, 사람과 업무 중심의 구조로 구현될 때 그 가치는 더욱 커질 것으로 기대합니다.

작성자장인수
작성일2025-06-16
조회수321

[57호] 예산의 블랙홀 - 세금고지서에서 3색 볼펜까지의 무한루프

한국 국적의 여러분들은 대한민국헌법 제38조에 따라 납세의 의무를 부담합니다. 한편, KOBIC에서 근무하는 여러분들은 원활하고 효율적인 업무를 위해 3색 볼펜을 구매·사용할 권리를 가진다고 말할 수도 있겠습니다. 이하에서는 예산 실무 지원 전임(前任) 담당자로서 예산 업무의 이관을 기념(?)하여 우리가 부과하는 세금이 어떤 과정을 거쳐 3색 볼펜의 사용까지에 이르는지 그 과정을 살펴보고자 합니다.

예산은 납세를 통해 모아진 국가의 재원을 배분하여 집행하기 위한 계획으로, 그 시작은 정부의 예산안 편성에서 시작됩니다. 연초가 되면 우선 각 정부부처는 매년 1월 31일까지 한국의 곳간 열쇠를 가지고 있다고 표현되는 기획재정부에 향후 5년간(=5회계연도)의 주요 계속사업에 대한 중기사업계획서를 제출해야 합니다. 그 이후에는 그 사업계획을 기획재정부의 사업 담당자가 판단할 수 있도록 ‘중기 심의’ 과정을 거치게 되는데, 이 과정에 대한 심의 양식 작성이 필요하며, 그 이후에는 기획재정부에 대한 사업설명회도 진행합니다(대체로 3월 중).

각 부처에서 사업계획서를 제출받은 기획재정부는 향후 5년간 적용할 재정운용의 기본방향, 경제성장률, 세입규모 전망 등을 고려하여 국가재정운용계획을 수립하고 매년 3월 31일까지 각 부처에 이를 통보합니다. 실무적으로는 이 과정에서 각 부처에 ‘지출한도’를 통보합니다. 쉽게 말하면 가정 내에서 각 구성원이 다음 달에 지출할 비용에 대한 계획을 제출하라고 하면 각자가 필요한 계획을 제출했을 때, 결정권자가 ‘닌텐도 스위치 구입은 고장난 세탁기 수리보다 급하지 않으니 제외(한도외 편성-추가 예산이 발생하면 집행 검토)’, ‘발목 부상으로 인해 다음 달 필라테스 강습을 못 받게 되었으니(불용예산), 이 비용으로 외식비를 집행(예산전용)’ 등의 결정을 하게 되는데, 이렇게 각 부처가 지출할 수 있는 한도를 설정해주는 것이지요.

그런데 일반적인 국가 예산의 집행과는 다르게 ‘국가연구개발사업(=R&D)’의 예산은 절차가 조금 다릅니다. 위에서 설명한 과정은 「국가재정법」에 따른 것인데, 과학기술분야의 R&D 예산을 규정하는 「과학기술기본법」은 국가 사업 중 국가연구개발사업과 관련해서는 중기사업계획서를 1월 31일까지 과학기술정보통신부장관에게, 국가연구개발투자의 방향은 중기사업계획서 검토 후 과학기술자문회의의 심의를 거쳐 기획재정부장관 및 관계 중앙행정기관의 장에게, 예산요구서도 5월 31일까지 과학기술정보통신부장관에게, 예산요구서 심의 결과를 6월 30일까지 기획재정부장관에게 알리라고 하고 있습니다. 다시 말하면 R&D 예산의 심의는 일부 그 역할이 과학기술정보통신부, 그 중에서도 과학기술혁신본부(중에서도 연구개발투자심의국)에 맡겨져 있습니다. 이 단락에서의 과학기술정보통신부는 이 혁신본부를 말하는 것입니다.

본론으로 돌아와서, 통보받은 지출한도를 기반으로 해서 4~5월에는 부처 내에서 예산안을 편성하게 됩니다. 부처 내에는 차관→실→국→과 등의 위계가 있고 과별로 사업이 편성되어 있기 때문에 부처 내에서도 통보받은 지출한도를 어떻게 나누어 지출할 것인지에 대한 협의가 필요합니다. 그 협의를 거쳐서 이른바 부처 내에서의 ‘실링(ceiling, 상한을 뜻하는 말)’이 통보되고, 이 실링에 따라 한도내 예산액을 정하여 예산요구서를 제출하게 됩니다. 예를 들어 중기사업계획에서 어느 사업에 대해 26년에 500억을 지출하겠다고 제출을 했는데, 지출한도 통보 이후, 부처 내에서 실링액이 결정되어서 해당 사업에 대해 400억 실링을 통보받으면, 예산요구서에는 “400억(한도내), 100억(한도외)”로 기재하여 심의를 받게 되는 것이지요. 실링은 대체로 4월 말 정도에 통보되어 예산요구서를 작성하게 되고, 해당 예산요구서가 혁신본부에 제출되면 그것을 근거로 대체로 5월 초에 해당 사업의 분과별 위원회에서 심의를 받게 됩니다. 5월 중에는 이 심의를 거쳐 혁신본부의 조정안이 결정되고, 조정의 과정은 3~4차까지도 진행되며, 그 과정을 거쳐 조정안이 6월 30일까지 기획재정부에 통보되는 것입니다. 즉, 4~6월은 혁신본부의 시간입니다.

7~8월은 기획재정부의 시간입니다. 기획재정부가 본래적 의미의 예산 심의 담당 부처이기 때문에 기획재정부 역시 예산 검토를 수행해야 합니다. 혁신본부에서 통보한 예산요구서 심의 결과를 토대로 기재부 예산심의가 진행되며, 이 과정에서 기재부 대응을 위한 예산요구서 작성 및 예산의 적절성을 설명하는 등의 대응 절차를 거칩니다. 이 과정을 거쳐서 정부의 예산안이 기획재정부를 통해 확정되면 해당 예산안이 국회에 제출됩니다. 회계연도 개시 120일 전까지 국회 제출이기 때문에 9월 초 정도로 생각하면 됩니다.

9~12월은 국회의 시간입니다. 헌법에 따라 회계연도 개시 30일 전까지 국회 의결이 있어야 하므로, 법적으로는 12월 2일에 국회 확정 의결이 있어야 합니다. 그 전까지는 국회 상임위, 예결위 등의 심사가 진행되며, 해당 심사에 활용될 예산 공통요구자료 등을 작성하고, 필요한 경우 각 의원실 또는 각 정당에서의 요구자료에 대응해야 합니다.

통상 12월 초에 국회 의결을 거쳐, 각 사업의 차년도 집행을 준비해야 합니다.(정치상황에 따라 그렇지 않은 경우도 왕왕 있습니다) 일반적으로 사업을 집행할 연구관리전문기관에서 사업 집행의 근거가 되는 사업시행계획(안)을 마련하고, 각 사업의 추진위원회를 통해 심의·의결을 하게 됩니다. 이 과정 또한 저희 KOBIC에서 운영을 지원해왔습니다. 이제 사업 추진위원회 심의를 거쳐 1월이 되었으니 각 과제의 협약을 하고 연구비를 집행할 수 있게 되었습니다. 이 과정을 거쳐서 제 책상 위에는 3색 볼펜이 자리할 수 있게 되었습니다. 예산 업무도 한숨 돌리게 되었겠군요.

그럴까요? 아닙니다. 이제 1월이 되었으니, 차년도 중기재정계획을 준비해야지요. 더욱이 여기에서는 예산 업무만 설명했을 뿐, 결산 업무는 지면상 말도 꺼내지 못했습니다. 그리고 사업의 필요성에 따라 4~6월에는 추가경정예산인 이른바 ‘추경’ 예산편성도 진행될 가능성이 있습니다. 때에 따라서는 감사원에서 자료 요구가 오기도 하며, 지출구조조정 대응, 고용영향평가 대응 등의 과정이 필요하기도 합니다.

여러분께 이와 같은 지난한 과정에 대한 응원을 부탁드리겠습니다.

작성자조근형
작성일2025-06-09
조회수271

[56호] 내가 원하는 것과 다른 검색 결과, 왜 그럴까 ?

현대의 우리는 흔히 정보의 홍수 속에 살고 있다고 합니다. 하지만 너무 많은 정보는 우리가 문제를 이해하고 결정을 내리는데 더욱 어려움을 겪게 할 수도 있습니다. 이런 상황 속에서 내가 필요로 하는 정보를 효과적으로 찾을 수 있는 방법은 매우 중요합니다.

검색은 수많은 데이터에서 꼭 필요한 것만을 정확히 찾아내는 데 필수적인 수단입니다. 사람들은 자연스럽게 자신이 찾고자 하는 내용의 키워드를 고민하여 고르고 그 키워드를 입력하여 검색을 수행합니다. 이 글에서는 대표적인 검색 기법의 원리와 그 특징을 소개해 드리고자 합니다.

▪키워드 검색(Keyword Search)

키워드 검색은 사용자가 입력한 키워드를 기반으로 관련된 콘텐츠를 찾아주는 방법입니다. 이 방식은 사용자의 니즈를 빠르게 파악하고 관련된 정보만 노출하도록 도와줍니다.

우리가 일반적으로 사용하는 구글이나 네이버 등의 검색 방식은 키워드 검색이라 할 수 있습니다. 키워드를 입력하면 검색엔진은 수많은 웹페이지 중 해당 키워드가 포함된 웹페이지를 찾고 내부적인 연산을 통해 연관도를 계산한 다음 키워드와 가장 관련이 많을 것 같은 페이지를 순서대로 제공합니다. 이때, 연관도가 높은지 판단하는 기준은 "웹페이지 내에 키워드가 얼마나 많이 등장 하는가"라고 할 수 있습니다. 초창기 구글은 페이지랭크 알고리즘을 사용하여 웹 페이지의 중요도에 따라 검색 결과의 순위를 결정하였지만 나중에 알고리즘을 비공개로 전환하였습니다.

예를 들어 오픈소스 검색 및 분석 알고리즘인 Elasticsearch에서는 아래 수식과 같이 TF/IDF기반의 BM25알고리즘을 사용하여 연관도를 측정합니다.

복잡해 보이는 이 계산에는 크게 TF, IDF 그리고 Field Length 총 3가지 요소가 연관도를 나타내는 스코어에 영향을 줍니다. 예를 들어, 구글 등에서 “쥬라기 공원”이라는 검색어로 검색을 한다고 가정해보면, 해당 키워드가 5번 들어있는 웹 페이지보다는 10번 들어있는 웹페이지가 내가 찾고 싶어 하는 내용일 확률이 높을 것 입니다. 문서 내에서 검색된 키워드가 더 많을수록 점수가 높아지는 것을 TF(Term Frequency)라고 합니다. 그리고 동일한 검색에서 “쥬라기” 또는 “공원” 중 어떤 단어든지 포함하고 있는 페이지들은 검색 결과에 포함될 수 있습니다. 이때 “쥬라기”가 포함된 결과는 10개, “공원”이 포함된 결과는 100개라고 가정한다면 흔한 “공원” 보다는 희소한 “쥬라기”가 더 중요한 키워드일 가능성이 높습니다. 검색한 키워드를 포함하고 있는 문서 개수가 많을수록 그 키워드의 가중치가 감소하는 것을 IDF(Inverse Document Frequency)라고 합니다. 그리고 문서에서 필드길이(Field Length)가 큰 필드보다는 짧은 필드에 있는 키워드의 비중이 클 것입니다. 제목과 내용필드에 검색어가 모두 있는 경우 텍스트 길이가 긴 내용필드보다는 짧은 제목 필드의 키워드의 점수가 더 높게 나타납니다. 이처럼 키워드 검색 방식에서는 검색어에 대한 종합적인 스코어 계산을 통해 연관성이 높은 순서로 결과를 나타내줍니다.

하지만 이런 검색방식에는 여러 가지 문제점들이 나타날 수 있습니다. 실제 Elasticsearch를 사용하고 있는 바이오소재 정보 통합플랫폼(BioOne)에서도 초기에는 "liver cancer"에 대한 논문 검색 시 내용의 관련성 보다는 "Liver Cancer"저널의 논문이 주요 결과로 검색되는 등 검색 의도와는 다른 결과들이 도출되는 경우도 있었습니다.

이밖에도 키워드 검색 방식은 정확하지 않은 키워드를 입력할 경우 관련된 콘텐츠를 찾을 수 없으며, 동일한 의미를 가지는 용어들에 대해 결과가 다르게 나타날 수 있습니다. 예를 들어 “밤”과 “야간”은 같은 의미이지만 사용하는 키워드에 따라 다른 결과가 나올 수 있습니다. 반면 “밤”, “눈” 등과 같이 여러 가지의 의미를 가지는 용어를 키워드로 선택할 경우 사용하는 의미가 다르지만 이를 구분할 수 없어 서로 의도와 다른 검색 결과를 얻을 수도 있습니다.

▪의미 기반 검색(Semantic Search)

이런 문제를 보완할 수 있는 기술이 바로 의미기반 검색(Semantic Search)입니다. 의미 기반 검색은 단순히 키워드를 찾는 것이 아니라, 사용자 검색의 의도와 문맥적 의미를 이해하고 유사한 내용을 찾는 방식입니다.

이러한 의미 기반 검색을 가능하게 하는 것이 바로 벡터 검색 기술입니다. 먼저 질문과 문서의 내용을 숫자 형태의 벡터로 변환하는 임베딩(Embedding)과정을 수행합니다. 임베딩(Embedding)은 텍스트를 “실수 벡터 형태”로 표현한 결과를 의미합니다. 특정한 단어, 문장 또는 문서를 임베딩 생성 모델에 입력하면, 일정 수의 실수로 구성된 벡터가 출력됩니다. 임베딩의 결과는 사람이 직접 관찰하고 그 의미를 파악하기는 어렵지만, 컴퓨터는 서로 다른 단어 또는 문서에서 추출된 임베딩 간의 거리를 계산하여 이들 간의 의미적 관계를 이해할 수 있습니다.

(출처 : Elasticsearch Relevance Engine™(ESRE))

일반적으로 고차원 벡터인 이러한 임베딩은 데이터의 본질적 의미를 포함하는 개념적 위치로 표현할 수 있습니다. 비슷한 의미, 개념 또는 맥락을 가진 항목은 이 벡터 공간에서 서로 가깝게 배치됩니다. 이 벡터들 사이의 관계를 측정해서 서로 얼마나 가까운지를 계산하여 가장 유사한 내용을 가진 문서를 우선적으로 보여주는데, 이때 유사도를 측정하는 방법으로 ‘코사인 유사도’라는 수학적 계산을 사용합니다. 결론적으로 의미 기반 검색은 벡터 검색을 기반으로 사용자의 의도에 맞는 직관적인 검색결과를 얻을 수 있어 활용도가 높고 보다 관련성이 높은 정확한 결과를 제공할 수 있습니다.

최근에는 단어나 문장을 벡터로 추출하는데 활용할 수 있는 기술로 언어 모델(Language Model)이 이용되고 있으며, 2019년 이후 BERT, GPT 등 다양한 대형 언어 모델이 많이 활용되고 있습니다.

이런 흐름에 따라, 향후 BioOne에서도 단순 키워드 검색의 다양한 문제점들을 보완하기 위해 의미기반 검색방식의 장점을 도입하고 접목하여 검색의 정확성을 높이고 효율적인 검색이 가능하도록 고도화할 계획입니다.

작성자강태호
작성일2025-06-02
조회수290