바이오자바

바이오자바
원본 작성자	안드레아스 프릴리치
개발자	Amr ALHOSARI, Andreas Prlic, Dmytro Guzenko, Hannes Brandstetter-Müler, Jose Manuel Duarte, Thomas Down, Michael L Hueer, Peter Troshin, Gean Jiong Gao, Aleix Lafita, Peter Rose, Spenz, Spence Bl.
초기 릴리즈	2002년; 20년전(
안정적 해제	6.0.3 / 2021년 12월 19일; 53일 전
리포지토리	github.com/biojava
기록 위치	자바
플랫폼	Java SE가 포함된 웹 브라우저
다음에서 사용 가능	영어
유형	생물정보학
면허증	소형 GPL 2.1
웹사이트	biojava.org

바이오자바는 생물학적 데이터를 처리하기 위한 자바 도구를 제공하는 오픈소스 소프트웨어 프로젝트다.^[1]^[2]^[3]BioJava는 시퀀스, 단백질 구조, 파일 파서, CORBA(Common Object Request Broker Architecture) 상호운용성, 분산 주석 시스템(DAS), AceDB 접근성, 동적 프로그래밍 및 간단한 통계 루틴을 조작하기 위해 프로그래밍 언어 Java로 작성된 라이브러리 함수 모음입니다.바이오자바는 DNA와 단백질 서열부터 3D 단백질 구조 수준까지 방대한 데이터를 지원한다.BioJava 라이브러리는 PDB(단백질 데이터 뱅크) 파일 구문 분석, Jmol 등 일상적이고 일상적인 생물정보학 작업을 자동화하는데 유용하다.^[4]이 응용프로그래밍 인터페이스(API)는 표준 데이터 포맷으로 작업을 용이하게 할 수 있도록 다양한 파일파서, 데이터 모델, 알고리즘을 제공하고 신속한 응용 프로그램 개발 및 분석이 가능하다.null

바이오자바의 추가 프로젝트로는 rcsb-시퀀스뷰어, biojava-http, biojava-spark, rcsb-뷰어 등이 있다.null

특징들

BioJava는 생물정보학 프로그래밍의 많은 일반적인 작업에 소프트웨어 모듈을 제공한다.여기에는 다음이 포함된다.

로컬 및 원격 데이터베이스에서 뉴클레오티드 및 펩타이드 시퀀스 데이터 액세스
데이터베이스/파일 레코드의 형식 변환
단백질 구조 파싱 및 조작
개별 시퀀스 조작
유사한 시퀀스 검색
시퀀스 선형 작성 및 조작

역사 및 출판물

바이오자바 프로젝트는 토마스 다운(Thomas Down)과 매튜 포콕(Matthew Pocock)이 자바 기반의 생물정보학 도구의 개발을 단순화하는 API를 만들기 위해 작업에서 벗어났다.바이오자바는 12년 이상, 60여 명의 개발자가 참여해 개발한 액티브 오픈소스 프로젝트다.BioJava는 코드 중복을 줄이기 위해 고안된 다수의 Bio* 프로젝트 중 하나이다.^[5]바이오자바 외에 바이오*에 해당하는 프로젝트의 예로는 바이오피톤,^[6] 바이오펄,^[7] 바이오루비,^[8] 엠보스^[9] 등이 있다.null

2012년 10월, 바이오자바에 관한 첫 논문이 발표되었다.^[10]이 논문은 바이오자바의 모듈, 기능 및 목적을 상세히 기술했다.null

2018년 11월 현재 구글 스콜라(Google Scholar)는 130개 이상의 인용 부수를 기록하고 있다.^[11]null

바이오자바에 대한 가장 최근의 논문은 2017년 2월에 작성되었다.^[12]이 논문은 BioJava-ModFinder라는 이름의 새로운 도구를 상세히 기술했다.이 도구는 단백질 데이터 뱅크(PBD)의 3D에 대한 단백질 수정의 식별 및 후속 매핑에 사용할 수 있다.또한 패키지는 RCSB PDB 웹 애플리케이션과 통합되어 시퀀스 다이어그램과 구조 표시에 단백질 수정 주석을 추가하였다.단백질이 변형된 구조물은 BioJava-ModFinder를 사용해 3만 개 이상이 확인되었으며 RCSB PDB 웹사이트에서 확인할 수 있다.null

2008년, 바이오자바의 첫 번째 어플리케이션 노트가 발표되었다.^[2]그것은 2013년 4월에 원래의 CVS 저장소에서 GitHub로 이전되었다.^[13]프로젝트는 별도의 리포지토리인 바이오자바 레거시(BioJava-legacy)로 옮겨졌고, 사소한 변화와 버그 수정에도 여전히 유지되고 있다.^[14]null

버전 3은 2010년 12월에 발매되었다.그것은 이전 버전에 대한 중요한 업데이트였다.이 릴리스의 목적은 BioJava를 다시 작성하여 작고 재사용 가능한 부품으로 모듈화할 수 있도록 하는 것이었다.이를 통해 개발자들은 보다 쉽게 기여하고 의존성을 줄일 수 있었다.BioJava 3에서 볼 수 있는 새로운 접근법은 Apache Commons를 본떠서 만들었다.null

버전 4는 2015년 1월에 발매되었다.이 버전은 바이오자바-코어, 바이오자바-구조, 바이오자바-구조-귀, 바이오자바-필로 패키지의 많은 새로운 특징과 개선점을 가져왔다.바이오자바 4.2.0은 메이븐 센트럴의 메이븐을 사용해 출시한 첫 번째 출시였다.null

버전 5는 2018년 3월에 발매되었다.이것은 그 프로젝트의 중요한 이정표를 나타낸다.바이오자바 5.0.0은 자바 8을 기반으로 람다 기능과 스트리밍 API 호출의 활용을 도입한 첫 출시작이다.바이오자바 구조 모듈에도 큰 변화가 있었다.또한 매크로 분자 구조에 대한 이전 데이터 모델은 mmCIF 데이터 모델을 보다 가깝게 표현하도록 조정되었다.이는 2년여 만에 나온 개봉작이다.다른 개선 사항으로는 대칭 감지를 개선하기 위한 바이오자바 구조 모듈의 최적화 및 MMTF 형식에 대한 추가 지원이 있다.다른 일반적인 개선사항으로는 자바독 업데이트, 종속성 버전 등이 있으며, 모든 테스트는 현재 Junit4이다.이 발표에는 19명의 기여자들로부터 받은 1,170건의 약속이 포함되어 있다.null

모듈

2014~2015년에는 오리지널 코드 베이스의 큰 부분이 다시 작성되었다.바이오자바 3은 버전 1 시리즈에서 확실히 벗어난다.현재 아파치 메이븐이라는 자동화 도구를 사용하여 구축된 몇 개의 독립 모듈로 구성되어 있다.^[15]이 모듈들은 DNA와 단백질 서열, 아미노산 특성 분석, 단백질 변형 검출, 단백질의 흐트러진 부위 예측, 생물학적으로 의미 있는 데이터 모드를 이용한 공통 파일 형식에 대한 파서 등 단백질 구조 비교, 쌍방향 및 다중 시퀀스 정렬을 위한 최첨단 도구를 제공한다.el. 원본 코드는 별도의 바이오자바 레거시 프로젝트로 옮겨졌으며, 이 프로젝트는 여전히 역호환성이 가능하다.^[16]null

바이오자바 5는 바이오자바 얼라인먼트와 바이오자바 구조라는 두 모듈에 새로운 기능을 도입했다.null

다음 섹션에서는 몇 가지 새로운 모듈을 설명하고 최신 버전의 BioJava에 포함된 몇 가지 새로운 기능을 강조한다.null

코어모듈

이 모듈은 아미노산 또는 뉴클레오티드 시퀀스를 모델링하기 위한 자바 클래스를 제공한다.이 수업은 생물학자들에게 이름이 친숙하고 의미가 있도록 고안되었으며, 컴퓨터 과학자와 프로그래머들을 위해 유전자 배열에서 단백질 서열로 이동하는 단계를 구체적으로 표현하였다.null

레거시 바이오자바 프로젝트와 바이오자바3의 주요한 변화는 자바에서 당시 새로운 혁신을 이용하기 위해 프레임워크가 설계된 방식에 있다.시퀀스는 나머지 모듈들이 모든 시퀀스에서 작동하는 유틸리티를 만들 수 있는 일반적인 인터페이스로 정의된다.생물학자의 사용성을 개선하기 위해 DNA와 단백질과 같은 공통 시퀀스에 대한 특정 클래스가 정의되었다.번역 엔진은 DNA, RNA, 아미노산 시퀀스 사이의 변환을 허용함으로써 정말로 이 작업을 활용한다.이 엔진은 코돈 테이블 선택, 출발 코돈을 메티오닌으로 변환, 정지 코돈 트리밍, 판독 프레임 지정, 모호한 시퀀스 처리 등의 세부 사항을 처리할 수 있다.null

공간 필요를 최소화하기 위해 시퀀스 저장 설계에 특별한 주의를 기울였다.Proxy 패턴과 같은 특수 설계 패턴은 개발자가 시퀀스를 메모리에 저장하거나 UniProt와 같은 웹 서비스에서 요청 시 가져오거나 필요에 따라 FASTA 파일에서 읽을 수 있는 프레임워크를 만들 수 있도록 했다.후자의 두 가지 접근방식은 애플리케이션에서 참조될 때까지 시퀀스 데이터를 로드하지 않음으로써 메모리를 절약한다.이 개념은 NCBI GenBank 또는 독점 데이터베이스와 같은 매우 큰 유전자 데이터 세트를 처리하도록 확장될 수 있다.null

단백질 구조 모듈

이 창에는 ID가 "4hb"인 두 개의 단백질이 보인다.A와 4hb.B"가 서로 정렬되어 있다.코드는 왼쪽에 주어진다.이것은 바이오자바 라이브러리를 사용하여 제작되며, 차례로 Jmol 뷰어를 사용한다.^[4]여기서 FATCAT^[17] 강체 알고리즘은 정렬을 위해 사용된다.

단백질 구조 모듈은 3D 생체 분자 구조를 표현하고 조작할 수 있는 도구를 제공한다.그들은 단백질 구조 비교에 초점을 맞춘다.null

다음과 같은 알고리즘이 구현되어 바이오자바에 포함되었다.null

유연하고 견고한 차체 정렬을 위한 ^[17]FATCAT 알고리즘
표준 CE(Combinatorial Extension) 알고리즘.^[18]
단백질에서 원형 순열을 감지할 수 있는 새로운 버전의 CE.^[19]

이러한 알고리즘은 RCSB 단백질 데이터 뱅크(PDB)^[20] 단백질 비교 도구를 제공하고 PDB의 모든 단백질을 매주 체계적으로 비교하는 데 사용된다.^[21]null

PDB^[22] 및 mmCIF^[23] 파일 형식의 파서를 사용하면 재사용 가능한 데이터 모델에 구조 데이터를 로드할 수 있다.이 기능은 STENS 프로젝트에서 UniProt 시퀀스와 PDB 구조 사이를 매핑하기 위해 사용된다.^[24]RCSB PDB의 정보는 데이터를 수동으로 다운로드할 필요 없이 동적으로 가져올 수 있다.시각화를 위해 3D 뷰어 Jmol에 대한 인터페이스가 제공된다.^[4]null

게놈 및 시퀀싱 모듈

이 모듈은 핵심 모듈에서 유전자 염기서열 객체를 생성하는 것에 초점을 맞추고 있다.이는 오픈 소스 유전자 예측 어플리케이션에 의해 생성된 다음과 같은 인기 있는 표준 파일 형식의 파싱을 지원함으로써 실현된다.

GeneMark에서^[25] 생성한 GTF 파일
Gene에 의해 생성된 GFF2 파일아이디^[26]
Glimer가^[27] 생성한 GFF3 파일

그리고 유전자 시퀀스 물체는 GFF3 형식으로 작성되어 GMOD로 수입된다.^[28]이러한 파일 형식은 잘 정의되어 있지만 파일에 쓰여지는 것은 매우 유연하다.null

차세대 시퀀서로부터 FASTQ 파일 형식의 몇 가지 일반적인 변형에 대한 입출력 지원을 제공하기 위해 별도의 시퀀싱 모듈이 제공된다.^[29]이 모듈의 사용 방법에 대한 샘플은 이 링크로 이동하십시오.null

정렬 모듈

이 모듈에는 사용자가 쌍과 다중 시퀀스 정렬을 수행할 수 있는 몇 가지 클래스 및 방법이 포함되어 있다.시퀀스는 단일 및 다중 스레드 방식으로 정렬할 수 있다.BioJava는 최적의 글로벌 정렬을 위해 Needleman-Wunsch^[30] 알고리즘과 로컬 정렬을 위한 Smith 및 Waterman 알고리즘을^[31] 구현한다.로컬 및 전역 정렬의 출력은 모두 표준 형식으로 사용할 수 있다.이 두 알고리즘 외에도 선형 메모리만을 사용하기 때문에 글로벌 시퀀스 정렬을 매우 효율적으로 수행하는 Guan-Uberbacher 알고리즘의^[32] 구현이 있다.null

다중 시퀀스 정렬의 경우 위에서 설명한 모든 방법을 사용하여 연속적으로 다중 시퀀스 정렬을 수행할 수 있다.null

ModFinder 모듈

ModFinder 모듈 및 단백질 구조 모듈을 사용한 예제 애플리케이션.단백질 수정은 페레독신 I(PDB ID 1GAO)의 순서와 구조에 매핑된다.^[33]단백질 시퀀스에 두 개의 가능한 철-황색 군집이 표시된다(3Fe–4S(F3S): 주황색 삼각형/선, 4Fe–4S(SF4): 보라색 다이아몬드/선.4Fe–4S 클러스터가 시퀀스 디스플레이 위의 Jmol 구조 창에 표시됨

ModFinder 모듈은 단백질 3D 구조에서 단백질 변형을 식별하고 분류하는 새로운 방법을 제공한다.PSI-MOD,^[34] 잔류물^[35] 및 RCSB PDB의 주석을 기반으로 인산화, 글리코실화, 이황화 결합 금속 첼화 등과 같은 400여 가지 이상의 단백질 수정사항을 수집하고 큐레이션했다.^[36]또한 이 모듈은 단백질 구조 내에서 사전, 공동, 사후 변환 단백질 변형을 감지하기 위한 API를 제공한다.또한 이 모듈은 인산화를 식별하고 구조물에 사전 탑재된 모든 수정사항을 인쇄할 수 있다.null

아미노산 특성 모듈

이 모듈은 단백질의 정확한 물리 화학적 특성을 제공하려고 시도한다.이 모듈을 사용하여 계산할 수 있는 속성은 다음과 같다.

분자질량
소멸계수
불안정지수
앨리파틱 지수
수력 총평균
이소전기점
아미노산성분

공통 동위원소 라벨 아미노산에 대한 정확한 분자 중량은 이 모듈에 포함되어 있다.또한 단순한 XML 구성 파일을 사용하여 분자량으로 새로운 아미노산 분자를 정의할 수 있는 유연성도 존재한다.이것은 질량분석 실험과 같이 정확한 질량이 매우 중요한 경우에 유용할 수 있다.null

단백질 장애 모듈

이 모듈의 목적은 사용자에게 단백질 분자의 장애를 발견하는 방법을 제공하는 것이다.BioJava는 RONN 예측기의 자바 구현을 포함한다.BioJava 3.0.5는 Java의 멀티스레딩 지원을 활용하여 기존 C 구현에 비해 현대적인 쿼드코어 머신에서 ^[37]성능을 최대 3.2배 향상시켰다.null

이 모듈을 사용하는 방법에는 두 가지가 있다.

라이브러리 함수 호출 사용
명령줄 사용

이 모듈의 몇 가지 특징은 다음과 같다.

모든 잔류물에 대해 연속적으로 무질서가 발생할 확률을 계산한다.
FASTA 입력 파일에서 모든 단백질에 대한 시퀀스의 모든 잔류물에 대한 장애 확률 계산
단일 단백질 시퀀스 또는 FASTA 입력 파일에서 모든 단백질에 대해 단백질의 정렬되지 않은 영역 가져오기

웹 서비스 액세스 모듈

생물정보학의 현재 추세에 따라 웹 기반 툴이 인기를 끌고 있다.웹 서비스 모듈은 REST 프로토콜을 사용하여 생물정보학 서비스에 접속할 수 있도록 한다.현재는 블라스트 URLAPI를 통한 NCBI 블라스트(이전의 QBlast)와 HMER 웹 서비스 등 2가지 서비스가 구현되고 있다.^[38]null

다른 대안과의 비교

생물정보학 분야에서 맞춤형 소프트웨어의 필요성은 여러 그룹과 개인에 의해 다루어져 왔다.바이오자바와 마찬가지로 바이오펄, 바이오피톤, 바이오루비 등 오픈소스 소프트웨어 프로젝트 모두 맞춤형 파이프라인이나 분석을 쉽게 만들 수 있는 다중 기능을 갖춘 툴킷을 제공한다.null

이름에서 알 수 있듯이 위에서 언급한 프로젝트들은 다른 프로그래밍 언어를 사용한다.이러한 API는 모두 유사한 툴을 제공하는데, 어떤 기준으로 선택해야 하는가?이러한 언어 중 오직 한 가지 언어에 경험이 있는 프로그래머들에게 선택은 간단하다.단, 이러한 모든 언어를 알고 있고 직업에 가장 적합한 언어를 선택하고자 하는 다재다능한 생물정보학자의 경우, 바이오* 툴킷에 대해 수행한 소프트웨어 검토에 의해 주어진 다음과 같은 지침에 따라 선택을 할 수 있다.^[5]null

일반적으로 개인이나 소그룹만 사용할 소규모 프로그램(<500줄)의 경우 펄과 바이오펄을 이기기 어렵다.이러한 제약조건은 아마도 90%의 개인 생물정보학 프로그래밍의 필요를 포함할 것이다.null

초보자에게, 그리고 특히 다른 사람들에게 공유되고 지원받을 수 있는 바이오 도메인에서 더 큰 프로그램을 쓰기 위해서는 파이썬의 명료함과 간결함이 그것을 매우 매력적으로 만든다.null

생물정보학 분야에 종사하고 있고 오직 하나의 언어만을 배우고자 하는 사람들에게 자바는 가장 넓은 일반 프로그래밍 지원을 가지고 있으며, 바이오자바와 함께 바이오 도메인에서 매우 좋은 지원을 받고 있으며, 이제 사실상의 비즈니스 언어(더 좋든 나쁘든 새로운 COBOL)가 되었다.null

이러한 바이오* 프로젝트 외에도 자바를 사용하고 유사한 목표를 목표로 하는 STACE라는 다른 프로젝트가 있다.BioJava와 유사한 TRACE-툴박스는 생물정보학 프로그램 및 스크립트 설계를 위한 자바 툴킷이기도 하다.바이오자바와 STRACE의 유사점과 차이점은 다음과 같다.

유사점들

둘 다 단백질 서열을 위한 포괄적인 방법 모음입니다.
둘 다 자바 프로그래머가 생물정보학 알고리즘을 코드화하는 데 사용한다.
Java 인터페이스를 사용하여 구현과 정의를 분리한다.
둘 다 오픈소스 프로젝트다.
둘 다 많은 시퀀스 파일 형식을 읽고 쓸 수 있다.

차이점.

바이오자바는 뉴클레오티드와 펩타이드 시퀀스에 적용되며 전체 게놈에 적용할 수 있다.STAP는 전체 염색체만큼 긴 단일 염기서열에는 대처할 수 없다.대신에 STRACE는 단일 단백질 크기의 펩타이드 시퀀스와 3D 구조를 조작한다.그럼에도 불구하고, 그것은 많은 수의 시퀀스와 구조를 메모리에 저장할 수 있다.STAP는 단백질 시퀀스를 위해 설계되었지만 코딩 뉴클레오티드 파일을 읽을 수 있으며, 이 파일은 펩타이드 시퀀스로 변환된다.
STACE는 그래픽 사용자 인터페이스가 높은 응답성을 가져야 하기 때문에 매우 빠르다.속도가 덜 중요한 곳에 바이오자바가 사용된다.
바이오자바는 유형 안전성, 온톨로지, 객체 디자인 측면에서 잘 설계되어 있다.BioJava는 시퀀스, 주석 및 시퀀스 위치에 객체를 사용한다.심지어 단일 아미노산이나 뉴클레오티드도 물체 기준이다.속도를 향상시키기 위해, STRACE는 비최종 객체-방법들의 빈번한 객체 인스턴스화 및 호출을 방지한다.null
- BioJava 펩타이드 시퀀스와 뉴클레오티드 시퀀스는 기호의 목록이다.기호는 반복기로 차례로 검색할 수 있거나 하위 시퀀스를 얻을 수 있다.장점은 전체 시퀀스가 반드시 메모리에 상주하지 않고 프로그램이 프로그래밍 오류에 덜 취약하다는 것이다.기호 오브젝트는 알파벳의 불변의 요소다.그러나 TRACE에서는 단순한 바이트 배열이 좌표를 위한 시퀀스 및 플로트 배열에 사용된다.속도 외에도 낮은 메모리 소비는 기본 데이터 유형의 중요한 장점이다.스트랩의 클래스는 내부 데이터를 노출한다.따라서 프로그래머는 세터 방법을 사용하는 대신 바이트 배열을 직접 조작하는 것과 같은 프로그래밍 오류를 범할 수 있다.또 다른 단점은 시퀀스의 문자가 기초 알파벳에 대해 유효한지 여부를 STRACE에서 점검하지 않는다는 것이다.
- BioJava 시퀀스 위치는 Location 등급에 의해 실현된다.Discontinuous Location 객체는 몇 개의 인접한 RangeLocation 객체 또는 PointLocation 객체로 구성된다.그러나 StraceProtein 등급의 경우, 단일 잔여 위치는 0과 countResidues()-1 사이의 정수 번호로 표시되며, 복수의 위치는 부울 배열로 지정된다.주어진 지수에서 참은 선택된 것을 의미하고 거짓은 선택하지 않은 것을 의미한다.
BioJava는 메서드가 잘못된 매개 변수로 호출될 때 예외를 발생시킨다.TRACE는 투척 가능한 물체의 생성에 시간이 걸리는 것을 방지한다.대신에 방법의 오류는 반환 값 NaN, -1 또는 null로 표시된다.그러나 프로그램 설계의 관점에서 보면 던질 수 있는 개체는 더 좋다.
바이오자바에서 시퀀스 물체는 펩타이드 시퀀스 또는 뉴클레오티드 시퀀스 중 하나이다.끈 단백질은 코딩 뉴클레오티드 염기서열을 읽고 단백질로 번역하면 두 가지를 동시에 지탱할 수 있다.둘 다, 뉴클레오티드 순서와 펩타이드 순서는 동일한 스트랩 단백질의 물체에 포함되어 있다.코딩 또는 비코딩 영역을 변경할 수 있으며 그에 따라 펩타이드 시퀀스가 변경된다.