국가생명연구자원정보센터(KOBIC)

KOBIC 소식

KOBIC, 2025 출연(연) AI 통합교육 바이오(유전체) 빅데이터 분석 강의 진행 2025. 06. 11. ~ 06. 13. KOBIC은 국가과학기술인력개발원(KIRD)에서 주관하는 출연(연) AI 통합교육 과정에 참여하여 강의를 진행하였습니다. KIRD에서는 글로벌 기술패권 경쟁의 핵심이 되는 국가전략기술 인재양성을 위해 인공지능(AI) 분야 특화 교육을 제공하고 있으며, KOBIC에서는 해당 교육 과정 중 바이오(유전체) 빅데이터 분석 강의를 진행하였습니다. 본 과정은 NST 소관 출연(연) 및 과학기술 유관기관 재직자를 대상으로 진행되었으며, 총 3일 동안 (6.11~6.13) 한국과학기술정보연구원(KISTI)의 과학데이터교육센터에서 진행되었습니다. 강의 내용은 주로 차세대 시퀀싱 데이터(NGS)의 생산 원리 및 데이터 구조, 전사체(RNA-seq) 데이터 분석 이론 및 실습, 전장유전체(WGS) 데이터 분석 이론 및 실습 과정으로 진행되었습니다. 2025-06-17

KOBIC, 2025년도 INSDC 연례회의에 게스트로 참가
2025-06-16
바이오소재 뉴스레터(2025년 6월호) 발행
2025-06-10
국가통합바이오빅데이터구축사업 관련 소식 (게시글 내 수요 기초조사QR)
2025-05-12
바이오소재 뉴스레터(2025년 5월호) 발행
2025-05-09

KOBIC 공지

27 2025.05

GBox 2.1.0 버전 업데이트 안내

안녕하세요,KOBIC에서 제공하는 GBox 서비스의 2.1.0 버전이 배포되었습니다.이번 업데이트를 통해 사용자 편의성이 크게 향상되었으며, 다양한 기능 개선 및 안정화 작업이 포함되었습니다.✅ 주요 업데이트 내용- 애플리케이션 실행 시 자동으로 최신 버전 확인 및 무중단 업데이트 적용- 국문 및 영문 인터페이스 자동 전환을 지원하는 다국어 사용자 환경 구현- 메인 메뉴 구조를 기능 그룹 중심으로 재편하여 접근성과 직관성 강화- 파일 트리 새로고침 시 탐색 중인 경로 자동 복원 기능 도입- 파일 복사 후 붙여넣기 버그 개선✅ 해결된 주요 문제- 구버전에서 수동 설치가 요구되던 업데이트 방식을 자동화하여 사용자 불편 해소- 인터페이스 언어가 OS 언어와 불일치 시 발생하던 UI 로딩 오류를 개선- 기능이 중첩된 메뉴 구조를 간소화하고 사용 목적별 정렬로 UX 혼란 해소- 파일 탐색 및 관리 기능 버그 개선GBox 2.1.0 버전은 Windows, Mac, Linux 환경에서 모두 사용하실 수 있으며,보다 안정적 데이터 전송 환경을 제공합니다.지속적인 기능 개선과 사용자 편의 향상을 위해 노력하겠습니다.감사합니다.🔗 GBox 다운로드 바로가기📩 문의: cloud_team@kobic.re.kr

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.

#Whole Genome Sequencing

#WGS

#Genomics

#Next Generation Sequencing

#Precision Medicine

#Clinical Genomics

#noncoding genome

#GATK

#fastp

#Cutadapt

#BWA

#SortSam

#MarkDuplicates

#CountBase

#BaseRecalibrator

#ApplyBQSR

#HaplotypeCaller

#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.

#Single-cell RNA sequencing

#Next-generation sequencing

#Bioinformatics

#Single-cell genomics

#Human Cell Atlas

#Cell_Biology

#Genomics

#transcriptome

#Biotechnology

#heterogeneity

#Multiomics

#scRNA-seq

#scATAC-seq

#Epigenetics

KOBICian's Story

데이터 거버넌스의 여러 모델 정해영

요즘 거버넌스(governance)라는 낱말이 심심치 않게 많이 쓰입니다. 동사 govern이 ‘지배하다, 통치하다’ 등의 뜻을 지니고 있으니 이로부터 파생된 거버넌스는 ‘통치, 지배, 관리, 운영’ 정도의 뜻을 지닐 것으로 생각하기 쉽습니다. 틀린 해석은 아니지만 최근 들어서 다른 낱말과 같이 쓰이면서 그 의미가 더욱 확장되었습니다. 예를 들자면 ‘데이터 거버넌스’와 같은 것입니다. 거버넌스의 현대적 의미는 조직이나 기관 또는 시스템을 지휘하고 관리하며 책임을 지는 방식의 틀, 절차 그리고 관행입니다. 동사 govern에서 파생된 또 다른 명사 government(정부)는 폐쇄적이고 수직적인 소통이 주류를 이루지만, 이와 대조적으로 거버넌스에서는 외부와 네트워크로 연결되는 개방적이면서도 열린 조직을 추구한다고 합니다. 그래서 어떤 사전을 찾아보면 거버넌스를 ‘협치(協治)’로 풀이합니다. 현대 지능정보사회에서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 양질의 데이터를 확보하여 효율적으로 사용하고, 법령을 준수하며, 나아가서는 미래 경쟁력 확보를 위해 데이터를 전략적 자산으로 만들기 위해서는 잘 설계되고 실행 가능성을 갖춘 데이터 거버넌스가 필요합니다. 1990년대에 접어들면서 과학 논문이 유료 저널에 게재되는 일이 흔해지고 데이터 접근도 어려워지자, 오픈 사이언스 재단에서는 2002년 부다페스트에 모여서 과학 및 학술 연구 결과물을 누구나 자유롭게 접근하고 사용할 수 있도록 하자는 원칙을 제시하였습니다. 2021년 UNESCO에서는 194개 회원국이 만장일치로 오픈 사이언스 권고안을 채택하였습니다. 여기에서는 오픈 액세스, 오픈 데이터, 오픈 인프라, 시민 참여 및 전통 지식 체계와의 대화 등 오픈 사이언스의 핵심 요소를 구성하고 실행을 위한 우선 과제를 제시하게 되었습니다. 이 권고안의 탄생 배경에는 역설적으로 COVID-19 팬데믹이라는 대재앙이 매우 중요하게 작용하였습니다. 병원체 게놈 정보의 신속한 공개 덕분에 빠른 진단과 백신·치료제 개발이 가능하였고, 데이터 공유를 통해 신속하고 동시다발적인 연구 협력을 할 수 있었습니다. 이 사실은 UNESCO의 오픈 사이언스 관련 문서에도 실려 있습니다. 오픈 사이언스 원칙의 올바른 실행 측면에서도 데이터 거버넌스는 큰 의미를 갖습니다. 단지 연구 데이터를 개방한다고 해서 이를 모두가 신뢰하고 쓸 수 있는 것은 아닙니다. 데이터의 품질을 일정 수준으로 끌어 올리고, 그 사용에 대한 책임 소재를 명확히 하며, 접근 권한을 정교하게 설계하는 것은 모두 데이터 거버넌스의 영역입니다. FAIR(Findable·Accessible·Interoperable·Reusable) 원칙은 오픈 사이언스와 동일한 것은 아니지만 상호 보완 관계에 있으며, 오픈 사이언스를 실현하는 도구가 될 수 있습니다. 현재 KOBIC의 국가바이오데이터스테이션은 외부 기관과 협력하여 FAIR 성숙도를 점검하는 일에 착수하였습니다.오픈 사이언스는 얼핏 생각하면 데이터의 자산화 경향과 충돌하는 것처럼 보입니다. 데이터를 생산한 주체는 이를 소유물로 인식하고 배타적 권리를 주장하려는 경향이 있습니다. 산업계에서는 당연히 이를 보호하고자 합니다. 정부 연구개발과제로 생성된 연구 데이터를 국가적 전략 자산으로 여겨서 통제하려는 것도 어찌 보면 자연스러운 현상입니다. 특히 유전체 정보나 보건의료 정보는 개인 차원에서 보호해야 하는 민감정보이자 기업·국가 차원의 경제적 자원이지만, 새로운 연구 성과로 이어질 수 있는 중요한 재료이므로 공공적 활용을 더욱 촉진하기 위해 개방해야 한다는 목소리도 높습니다. 이러한 요구사항을 전부 충족시키는 것은 어차피 불가능하니 적절한 중간 지점에서 타협해야 합니다. 데이터 거버넌스의 한 형태라고 볼 수 있는 데이터 커먼즈(data commons)가 해결책이 될 수 있습니다. 커먼즈(commons), 즉 공유지는 본래 모두가 함께 공유하고 관리하는 자원을 뜻합니다. 1960년대 말 사이언스에 발표된 유명한 논문 ‘공유지의 비극(Tragedy of the Commons)’에서 지적했듯이, 공유 자원은 개인의 합리적인 이기심에 의해 철저히 파괴되고 고갈된다고 하였습니다. 그러나 엘리너 오스트롬은 ‘커먼즈의 거버넌스(원제는 'Governing the Commons: The Evolution of Institutions for Collective Action’)’라는 책을 통해서 이를 반박했습니다. 즉 공동체가 공통의 규칙과 책임 아래 자원을 개방하고 공동으로 관리하여 이를 지속적으로 지켜 나갈 수 있음을 주장하였습니다. 경제학에는 시장과 국가만 존재한다는 이분법을 깨뜨린 공로로 오스트롬은 2009년 노벨 경제학상을 수상하였으며, 현대적 의미의 거버넌스 개념을 제창하고 정립하였다고 평가해도 무방할 것입니다. 요즘은 이로부터 한발 더 나아가서 신뢰 기반의 커먼즈(trusted commons) 개념이 등장하였습니다. 이는 전통적 커먼즈 모델에 신뢰, 안전성 및 책임의 요소를 더한 것입니다. 경제적 활용 가치가 매우 높지만 함부로 공개될 경우 정보 주체에게 피해를 줄 수 있는 보건·유전체 정보의 안전하고도 책임 있는 활용을 선도해 나갈 수 있는 것이 바로 신뢰 기반 커먼즈입니다. 미국 NIH의 dbGaP(The database of Genotypes and Phenotypes)이나 유럽의 EGA(European Genome Archive), 그리고 KOBIC의 인체유래데이터은행이 바로 이러한 신뢰 기반 커먼즈의 사례입니다. 신뢰기반 커먼즈의 핵심 요소를 간단히 설명하자면 다음과 같습니다.접근 통제(access control): 데이터를 누가 어떤 조건에서 사용할 수 있는지를 명확히 정함책임성(accountability): 데이터를 사용하는 사람은 그 사용 내역과 목적에 대해 책임을 져야 하며 기록을 남겨야 함투명성(transparency): 데이터가 어떻게 수집되고 누구에게 공유되며 어떻게 사용되는지 공개해야 함형평성과 포용성(equity & inclusion): 데이터 기여자나 소외된 집단도 공정하게 혜택을 누릴 수 있어야 하며, 차별 없이 접근할 수 있도록 배려해야 함상호성(reciprocity): 데이터를 사용하는 사람은 그 결과나 혜택을 다시 커뮤니티에 돌려줘야 함지난 4월 미국 신생명공학 국가안보위원회(National Security Commission on Emerging Biotechnology)가 발간한 보고서 ‘Charting the Future of Biotechnology’에 따르면, 미국은 생명공학 분야에서 중국의 급부상을 경계하면서 유전체, 인공지능(AI) 및 바이오제조 등에서 자국의 지속적인 우위를 유지하기 위한 새로운 모델인 Web of Biological Data를 구축할 것을 제안하였습니다. 이는 신뢰 기반 커먼즈의 확장판으로서 FAIR + 신뢰 기반 + AI-ready 상태의 국가적 디지털 인프라에 해당하며, 하나의 통합된 창구(single access point)를 제공한다는 점이 핵심입니다. 부연하자면 분절되어 존재하는 데이터 리포지토리에 대한 검색 및 활용을 한 곳에서 제공함으로써 사용자의 편의성을 높일 수 있게 한 것이지만. 신뢰할 수 있는 국가 또는 동맹국 중심의 국제 협력을 유도하기 위한 밑그림일 수도 있습니다. 새 정부가 들어서면서 모두가 국정과제를 수립하기 위한 바쁜 움직임에 들어갔습니다. AI는 이미 우리 주변에 깊숙하게 자리 잡았고, 머지않아 바이오 경제 시대에 진입하게 될 것입니다. KOBIC이 정성스럽게 모은 양질의 바이오 연구 데이터가 안전하게 널리 활용되어 공공의 이익에 기여하고, 아울러 글로벌 바이오 데이터 저장소의 모범이 되기를 기대해 봅니다.

K-BDS 국가바이오데이터스테이션
BIO-EXPRESS
국가 바이오 빅데이터 구축
감염병 연구정보포털

Bio-Express 사용방법 바로가기

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

프로그램 누적 실행 통계
파이프라인 누적 실행 통계

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

Bio-Express CLOSHA Workbench

Bio-Express GBox

Bio-Express GBox-CLI

6,208명

사용자

1,090건

워크스페이스

89,776건

실행 태스크

국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

2,119건
바이오프로젝트
109,028건
바이오샘플
2,369,672건
등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)

국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

데이터 현황

유전체 데이터 25,000

변이분석 데이터 25,000

임상 정보 25,000

코호트 7

감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열

1,354 국내 단백질 서열

19,685,177 국외 유전체 서열

35,837,682 국외 단백질 서열

19,764,289 코로나 유전체 서열

35,333,179 코로나 단백질 서열

바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

교육지원

042-879-8582
bkbaik@kribb.re.kr

제 51회 차세대 생명정보학 교육 워크샵 - 고해상도 공간 전사체 분석 워크샵

일시25. 07. 17(목) 12:30 ~ 25. 07. 17(목) 17:30
장소한국생명공학연구원 KOBIC동 3층 교육실

[종료] 제 50회 차세대 생명정보학 교육 워크샵 - 공간 전사체 분석 워크샵 (Advanced course)

일시24. 08. 21(수) 13:00 ~ 24. 08. 21(수) 17:00
장소한국생명공학연구원 KOBIC동 3층 교육실

교육지원 누적 실적(건)

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

042-879-8544
swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기

042-879-8582
bkbaik@kribb.re.kr