메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

KOBIC 공지

공개 분석 파이프라인

#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier
KOBICian's Story
현대의 우리는 흔히 정보의 홍수 속에 살고 있다고 합니다. 하지만 너무 많은 정보는 우리가 문제를 이해하고 결정을 내리는데 더욱 어려움을 겪게 할 수도 있습니다. 이런 상황 속에서 내가 필요로 하는 정보를 효과적으로 찾을 수 있는 방법은 매우 중요합니다. 검색은 수많은 데이터에서 꼭 필요한 것만을 정확히 찾아내는 데 필수적인 수단입니다. 사람들은 자연스럽게 자신이 찾고자 하는 내용의 키워드를 고민하여 고르고 그 키워드를 입력하여 검색을 수행합니다. 이 글에서는 대표적인 검색 기법의 원리와 그 특징을 소개해 드리고자 합니다.▪키워드 검색(Keyword Search) 키워드 검색은 사용자가 입력한 키워드를 기반으로 관련된 콘텐츠를 찾아주는 방법입니다. 이 방식은 사용자의 니즈를 빠르게 파악하고 관련된 정보만 노출하도록 도와줍니다. 우리가 일반적으로 사용하는 구글이나 네이버 등의 검색 방식은 키워드 검색이라 할 수 있습니다. 키워드를 입력하면 검색엔진은 수많은 웹페이지 중 해당 키워드가 포함된 웹페이지를 찾고 내부적인 연산을 통해 연관도를 계산한 다음 키워드와 가장 관련이 많을 것 같은 페이지를 순서대로 제공합니다. 이때, 연관도가 높은지 판단하는 기준은 "웹페이지 내에 키워드가 얼마나 많이 등장 하는가"라고 할 수 있습니다. 초창기 구글은 페이지랭크 알고리즘을 사용하여 웹 페이지의 중요도에 따라 검색 결과의 순위를 결정하였지만 나중에 알고리즘을 비공개로 전환하였습니다. 예를 들어 오픈소스 검색 및 분석 알고리즘인 Elasticsearch에서는 아래 수식과 같이 TF/IDF기반의 BM25알고리즘을 사용하여 연관도를 측정합니다. 복잡해 보이는 이 계산에는 크게 TF, IDF 그리고 Field Length 총 3가지 요소가 연관도를 나타내는 스코어에 영향을 줍니다. 예를 들어, 구글 등에서 “쥬라기 공원”이라는 검색어로 검색을 한다고 가정해보면, 해당 키워드가 5번 들어있는 웹 페이지보다는 10번 들어있는 웹페이지가 내가 찾고 싶어 하는 내용일 확률이 높을 것 입니다. 문서 내에서 검색된 키워드가 더 많을수록 점수가 높아지는 것을 TF(Term Frequency)라고 합니다. 그리고 동일한 검색에서 “쥬라기” 또는 “공원” 중 어떤 단어든지 포함하고 있는 페이지들은 검색 결과에 포함될 수 있습니다. 이때 “쥬라기”가 포함된 결과는 10개, “공원”이 포함된 결과는 100개라고 가정한다면 흔한 “공원” 보다는 희소한 “쥬라기”가 더 중요한 키워드일 가능성이 높습니다. 검색한 키워드를 포함하고 있는 문서 개수가 많을수록 그 키워드의 가중치가 감소하는 것을 IDF(Inverse Document Frequency)라고 합니다. 그리고 문서에서 필드길이(Field Length)가 큰 필드보다는 짧은 필드에 있는 키워드의 비중이 클 것입니다. 제목과 내용필드에 검색어가 모두 있는 경우 텍스트 길이가 긴 내용필드보다는 짧은 제목 필드의 키워드의 점수가 더 높게 나타납니다. 이처럼 키워드 검색 방식에서는 검색어에 대한 종합적인 스코어 계산을 통해 연관성이 높은 순서로 결과를 나타내줍니다. 하지만 이런 검색방식에는 여러 가지 문제점들이 나타날 수 있습니다. 실제 Elasticsearch를 사용하고 있는 바이오소재 정보 통합플랫폼(BioOne)에서도 초기에는 "liver cancer"에 대한 논문 검색 시 내용의 관련성 보다는 "Liver Cancer"저널의 논문이 주요 결과로 검색되는 등 검색 의도와는 다른 결과들이 도출되는 경우도 있었습니다. 이밖에도 키워드 검색 방식은 정확하지 않은 키워드를 입력할 경우 관련된 콘텐츠를 찾을 수 없으며, 동일한 의미를 가지는 용어들에 대해 결과가 다르게 나타날 수 있습니다. 예를 들어 “밤”과 “야간”은 같은 의미이지만 사용하는 키워드에 따라 다른 결과가 나올 수 있습니다. 반면 “밤”, “눈” 등과 같이 여러 가지의 의미를 가지는 용어를 키워드로 선택할 경우 사용하는 의미가 다르지만 이를 구분할 수 없어 서로 의도와 다른 검색 결과를 얻을 수도 있습니다. ▪의미 기반 검색(Semantic Search) 이런 문제를 보완할 수 있는 기술이 바로 의미기반 검색(Semantic Search)입니다. 의미 기반 검색은 단순히 키워드를 찾는 것이 아니라, 사용자 검색의 의도와 문맥적 의미를 이해하고 유사한 내용을 찾는 방식입니다. 이러한 의미 기반 검색을 가능하게 하는 것이 바로 벡터 검색 기술입니다. 먼저 질문과 문서의 내용을 숫자 형태의 벡터로 변환하는 임베딩(Embedding)과정을 수행합니다. 임베딩(Embedding)은 텍스트를 “실수 벡터 형태”로 표현한 결과를 의미합니다. 특정한 단어, 문장 또는 문서를 임베딩 생성 모델에 입력하면, 일정 수의 실수로 구성된 벡터가 출력됩니다. 임베딩의 결과는 사람이 직접 관찰하고 그 의미를 파악하기는 어렵지만, 컴퓨터는 서로 다른 단어 또는 문서에서 추출된 임베딩 간의 거리를 계산하여 이들 간의 의미적 관계를 이해할 수 있습니다.(출처 : Elasticsearch Relevance Engine™(ESRE))일반적으로 고차원 벡터인 이러한 임베딩은 데이터의 본질적 의미를 포함하는 개념적 위치로 표현할 수 있습니다. 비슷한 의미, 개념 또는 맥락을 가진 항목은 이 벡터 공간에서 서로 가깝게 배치됩니다. 이 벡터들 사이의 관계를 측정해서 서로 얼마나 가까운지를 계산하여 가장 유사한 내용을 가진 문서를 우선적으로 보여주는데, 이때 유사도를 측정하는 방법으로 ‘코사인 유사도’라는 수학적 계산을 사용합니다. 결론적으로 의미 기반 검색은 벡터 검색을 기반으로 사용자의 의도에 맞는 직관적인 검색결과를 얻을 수 있어 활용도가 높고 보다 관련성이 높은 정확한 결과를 제공할 수 있습니다. 최근에는 단어나 문장을 벡터로 추출하는데 활용할 수 있는 기술로 언어 모델(Language Model)이 이용되고 있으며, 2019년 이후 BERT, GPT 등 다양한 대형 언어 모델이 많이 활용되고 있습니다. 이런 흐름에 따라, 향후 BioOne에서도 단순 키워드 검색의 다양한 문제점들을 보완하기 위해 의미기반 검색방식의 장점을 도입하고 접목하여 검색의 정확성을 높이고 효율적인 검색이 가능하도록 고도화할 계획입니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,133

사용자

1,057

워크스페이스

88,814

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,107

    바이오프로젝트
  • 107,736

    바이오샘플
  • 2,376,130

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP