정보

적중당 로컬 BLAST 복사 수

적중당 로컬 BLAST 복사 수


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

나는 metagenomic 데이터의 makeblastdb를 사용하여 일련의 로컬 BLAST 데이터베이스를 생성하고 특정 유전자의 존재를 검색하고 있습니다. e-value, % 동일성 등을 확인하는 일반적인 BLAST 분석을 수행할 수 있지만 데이터베이스에 주어진 시퀀스가 ​​몇 번 존재하는지 확인하는 방법을 알아낼 수 없었습니다.

그래서: 특정 유전자가 여러 번 존재할 수 있는 메타게놈 데이터의 BLAST 데이터베이스가 주어지면 주어진 BLAST 히트의 사본 수를 어떻게 결정합니까?

미리 감사드립니다.


  • "적중" 정의(일부 컷오프 값, 점수 등을 기반으로 함)
  • 표 형식으로 출력 가져오기
  • 쿼리당 적중 횟수 계산 - 일반적으로 헤더에 제공됩니다. 선택한 조회수를 찾으려면 (일부 컷오프를 기반으로 한 다음 파일을 구문 분석하고 찾을 수 있음)

예제 파일(헤더):

# BLASTN 2.2.27+ # 쿼리: TCONS_00036712 gene=XLOC_017996 # 데이터베이스:… /nt_db/nt # 필드: 쿼리 ID, 주제 ID, % 동일성, 정렬 길이, 불일치, 간격 열림, q. 시작, q. 끝, s. 시작, s. end, evalue, 비트 점수 # 1014 조회수를 찾았습니다.

헤더를 구문 분석하여 히트 수를 찾으려면 터미널에서 이 명령을 실행할 수 있습니다(awk가 있는 경우 기본적으로 Linux 및 기타 유닉스 기반 시스템에 있습니다. Windows의 경우 gnuwin32 설치).

awk -v OFS="	" '/^# 쿼리/{q=$3 FS $4} /^# .* 조회 수/{h[q]=$2} END{for(i in h){print i, h[i]}}' blastoutput.txt

주어진 기준에 대한 적중 수를 얻으려면(예: 방금 비트스코어 [12번째 열]을 >400으로 정의했습니다)

awk -F "	" '!/^#/ && $12>400{a[$1]++} END{for(i in a){print i,a[i]}}' blastoutput.txt

BLAST는 많은 수의 다른 히트 대신 단일 히트에 최적화되어 있기 때문에 게놈의 특정 영역에 매핑되는 읽기 수를 결정하기 위한 메타유전체학 분석에 사용하는 올바른 프로그램이 아닙니다.

(많은 양의 중복 데이터를 포함하는) 메타유전체학 데이터베이스 내의 히트 수는 가능한 모든 히트의 감지가 필요할 때 비효율적인 확장 및 높은 메모리 사용량을 유발할 수 있습니다.

필요한 히트 수가 적으면 해당 히트를 반환하도록 할 수 있지만 >1000 히트를 보고 있는 경우 BWA 또는 Bowtie와 같은 매퍼 프로그램을 사용하는 것이 좋습니다. 그들은 (RNASeq 실험과 같은) 판독을 게놈에 매핑하기 위한 명시적인 목적을 위해 설계되었습니다.


소환: Kerfeld CA, Scott KM(2011) BLAST를 사용하여 "E-value-tionary" 개념을 가르칩니다. PLoS Biol 9(2): e1001014. https://doi.org/10.1371/journal.pbio.1001014

시리즈 에디터: Cheryl A. Kerfeld, University of California Berkeley/JGI, 미국

게시됨: 2011년 2월 1일

저작권: © 2011 커펠드, 스콧. 이것은 크리에이티브 커먼즈 저작자 표시 라이선스의 조건에 따라 배포되는 오픈 액세스 기사로, 원본 저자와 출처가 명시되어 있는 경우 모든 매체에서 무제한 사용, 배포 및 복제를 허용합니다.

자금: CAK 및 KMS의 커리큘럼 개발 활동은 USDA 고등 교육 챌린지 보조금, MOE-2008-02036 및 KMS의 NSF MCB-0643713에 의해 부분적으로 지원됩니다. JGI에서 CAK의 작업은 미국 에너지부의 과학, 생물학 및 환경 연구 프로그램 사무소와 계약 번호 DE-AC02-05CH11231, Lawrence Livermore National에 따라 캘리포니아 대학 Lawrence Berkeley 국립 연구소의 후원하에 있습니다. 계약 번호 DE-AC52-07NA27344에 따른 실험실입니다. 자금 제공자는 연구 설계, 데이터 수집 및 분석, 출판 결정 또는 원고 준비에 아무런 역할도 하지 않았습니다.

경쟁 관심: 저자는 경쟁 이익이 존재하지 않는다고 선언했습니다.

약어: aa, amino acid BLAST, Basic Local Alignment Search Tool NCBI, National Center for Biotechnology Information nt, nucleotide


전자가치란?

유전자 서열의 1차 상동성을 평가하기 위한 표준 관행은 입력 서열(“query”)이 특정 서열(“hit” ) 시퀀스 데이터베이스에서. 쿼리와 적중 간의 정렬의 중요성을 결정하는 데 가장 일반적으로 사용되는 메트릭은 e-value입니다. 이 매개변수의 편재성을 감안할 때 이것이 무엇이며 어떻게 사용되는지 설명하는 짧은 안내서입니다.

전자가치란?
E-값(기대 값의 약어)은 무작위 검색에서 우연히 발견된 적중보다 쿼리에 동일하거나 더 크게 정렬될 것으로 예상되는 데이터베이스의 시퀀스 수를 계산한 것입니다. 쿼리 시퀀스에 대해 데이터베이스에서 같거나 더 나은 일치 항목을 찾는 빈도를 반영합니다. 실제로 e-value는 무작위 배경 잡음으로 인해 선택된 적중의 추정치입니다.

값은 무엇을 의미하며 가능한 e-값의 범위는 무엇입니까?
e-값이 1.0이면 데이터베이스의 한 시퀀스가 ​​쿼리와 일치하거나 발견한 적중보다 더 우수할 것으로 예상한다는 의미입니다. e-값이 0.0이면 0개의 시퀀스가 ​​일치할 수 있거나 일치할 것으로 예상되거나 e-값이 0에 가까울수록 일치가 더 중요하고 잠재적인 오탐지가 더 적은 것으로 간주됩니다.

전자 값의 범위는 0에서 이론적으로 무한대일 수 있지만 대부분의 전자 값은 과학적 표기법(예: 1e-05 = 0.00001)으로 표시되는 0과 1 사이의 소수입니다. 1.0 이상의 일치는 대부분 중요하지 않은 것으로 간주됩니다(가장 포괄적인 NCBI BLAST 검색인 blastn의 기본 컷오프는 10.0임). 이것은 그것들이 잠재적으로 상동성 시퀀스가 ​​아니라는 것을 의미하지 않으며, 단지 무작위 검색이 여러 더 나은 후보를 찾을 것으로 예상된다는 것을 의미합니다.

전자 가치를 계산하는 데 필요한 것은 무엇입니까?
E-값 = K*m*n*e(-λ*S)
K,λ = 점수 매트릭스 기반 상수 m,n = 두 시퀀스의 길이 S = 정렬 점수, 생성된 정렬(일치, 불일치, 간격 등 통합)을 기반으로 계산됩니다.

따라서 e-value는 대부분 시퀀스의 길이, 데이터베이스의 크기 및 파생된 정렬 점수에 따라 달라집니다. 이것은 특히 복잡성이 낮은 더 짧은 시퀀스가 ​​크게 일치할 가능성이 낮음을 의미합니다(그리고 종종 필터링됨). 또한, 서로 다른 크기의 데이터베이스 검색에서 파생된 e-값은 비교할 수 없습니다. 소규모 데이터베이스에 대한 검색의 e-값 6e-32는 데이터베이스가 성장함에 따라 대규모 데이터베이스의 e-값 6e-32보다 덜 중요합니다. 결과적으로 위양성 가능성이 감소합니다.

e-value는 p-value와 동일한가요?
아니요. E-값은 빈도 메트릭인 반면 p-값은 확률 메트릭입니다. 두 메트릭 모두 쿼리 적중 정렬의 중요성을 반영하지만 e-값은 우연히 발생할 것으로 예상되는 더 나은 정렬의 수를 나타내는 반면 p-값은 해당 일치가 우연히 발생했을 가능성을 나타냅니다. (통계적으로 e-값은 p-값의 다중 테스트 수정입니다.)

NCBI는 더 명확하고 세분성을 제공하기 때문에 e-값을 표준으로 사용합니다. 예를 들어 0.993과 0.99995의 p-값보다 e-값 5와 10의 차이를 이해하는 것이 더 쉽습니다.” 둘 다 할 수 있습니다. 사용되지만 서로 다른 것을 나타내므로 사용하는 것과 그 이유를 알고 있어야 합니다.


지도 시간

소개
자연의 많은 생화학적 경로와 시스템, 특히 원핵생물과 균류는 염색체, 오페론 또는 유전자 클러스터에서 물리적으로 서로 가깝게 위치한 유전자에 의해 암호화됩니다. MultiGeneBlast는 여러 예측 단백질에 대한 BLAST(Basic Local Alignment Search Tool) 검색을 결합하고 해당 히트를 상위 뉴클레오티드 스캐폴드에 매핑합니다. 이것은 알려진 오페론 또는 유전자 클러스터와 상동성인 오페론 또는 유전자 클러스터를 찾거나(상동성 검색 모드 사용), 특정 사용자 지정 유전자 조합을 포함하는 새로운 게놈 유전자좌를 찾는 데 사용할 수 있습니다(아키텍처 검색 모드 사용). . MultiGeneBlast는 그래픽 사용자 인터페이스를 사용하거나 명령줄에서 실행할 수 있습니다. 이 튜토리얼의 첫 번째 섹션에서는 그래픽 사용자 인터페이스를 사용하여 도구를 사용하는 방법을 설명합니다. 마지막 섹션에서는 명령줄에서 사용하는 방법을 설명합니다.


개요: 입력, 데이터베이스 및 출력

상동성 검색의 입력은 쿼리 영역의 시작 및 끝 좌표 또는 검색 쿼리를 구성할 항목의 유전자 목록(좌표 태그 또는 등록 번호)과 함께 표준 GenBank 또는 EMBL 뉴클레오티드 항목 파일로 구성됩니다. 아키텍처 검색의 경우 입력은 여러 아미노산 서열 항목을 포함하는 FASTA 파일로 구성됩니다. 검색을 설정할 때 '파일' 메뉴에서 '입력 파일 열기'를 선택하여 입력 파일을 로드할 수 있습니다. MultiGeneBlast가 검색하는 데이터베이스는 일반 NCBI Blast+ 단백질 데이터베이스의 특수 버전으로, 각각의 상위 뉴클레오티드 항목에 대한 정보가 포함된 파일(*.cords.tar, *.pinfo.tar, *_all_descrs.txt)도 포함합니다. 이 뉴클레오티드 항목에서 단백질 및 해당 유전자의 위치. '파일' 메뉴에서 '데이터베이스 선택'을 클릭하여 데이터베이스를 로드할 수 있습니다. 다음 단락에서는 검색을 위한 입력 파일을 얻는 방법과 적절한 검색 데이터베이스를 얻는 방법에 대해 설명합니다.


입력 파일 준비
시스템의 기존 EMBL 또는 GenBank 파일 사용 시스템의 뉴클레오티드 EMBL 또는 GenBank 파일에 포함된 게놈 영역으로 상동성 검색을 수행하려는 경우 이 파일에 해당 영역의 DNA 서열과 CDS 기능의 주석이 모두 포함되어 있으면 준비가 필요하지 않습니다. (코딩 영역). 파일에서 DNA 시퀀스 또는 CDS 주석이 누락된 경우 아래에 설명된 대로 대체 모드 중 하나를 사용하여 파일의 적절한 버전을 얻을 수 있습니다.

원하는 GenBank 항목 다운로드
선택한 게놈 영역이 GenBank 데이터베이스의 뉴클레오티드 항목에 있는 경우(예를 들어, 모든 공개된 게놈 서열이 아닌 대부분의 경우에 해당), 다음에서 'Download GenBank entry'를 클릭하여 항목을 검색할 수 있습니다. '다운로드' 메뉴. 예를 들어, 클로닝 및 시퀀싱된 Bacillus subtilis에서 메나퀴논 오페론의 상동체를 검색하려면 키워드로 'menaquinone'을, 기원 유기체로 'Bacillus subtilis'를 입력하고 숫자를 입력할 수 있습니다. 일치하는 항목이 검색 창에 나타납니다. 선택한 항목(이 경우 완전한 B. subtilis 게놈 시퀀스일 수 있음)을 선택한 후 '다운로드' 버튼을 클릭하여 다운로드할 수 있습니다.

주석이 없는 시퀀스 데이터 및 주석 테이블에서 EMBL 파일 생성(전문가 사용자) GenBank 또는 EMBL 형식으로 아직 주석 처리되지 않은 고유한 서열 데이터 및 유전자 주석이 있는 경우, 게놈 서열 또는 contig를 포함하는 뉴클레오티드 FASTA 파일에서 EMBL 파일을 생성하기 위해 Python 스크립트(format_embl.py)가 제공됩니다. 및 해당 유전자의 위치와 주석을 포함하는 하나의 TXT 파일. 스크립트는 'format_embl' 폴더에 있습니다.
스크립트는 다음과 같이 사용할 수 있습니다.
1. 1) contig FASTA 파일 또는 게놈 서열의 이름, 2) 유전자 위치 태그(고유해야 함)로 구성된 각 엑손/유전자에 대한 정보가 포함된 테이블을 포함하는 탭으로 구분된 TXT 파일 'annotationtable.txt'를 준비합니다. , 3) 5 엑손 또는 유전자 시작, 4) 3 엑손 또는 유전자 끝, 5) 유전자 주석.
2. 'annotationtable.txt'와 contig 또는 게놈 시퀀스의 FASTA 파일을 'format_embl' 폴더에 복사합니다.
3. 명령줄에 'python format_embl.py'를 입력합니다. 이 명령이 작동하려면 컴퓨터에 Python이 설치되어 있어야 합니다. Windows 시스템을 사용하는 경우 Python 설치 디렉토리도 PATH 환경 변수에 추가해야 합니다.
4. 스크립트가 성공적으로 완료되면 게놈 시퀀스에 대한 EMBL 파일을 입력하거나 Contig가 생성되어 MultiGeneBlast의 입력으로 사용할 수 있습니다.
TXT 및 FASTA 파일의 예는 MultiGeneBlast 다운로드와 함께 제공되며 format_embl 디렉토리에 있습니다.

아키텍처 검색을 위한 다중 항목 FASTA 파일 준비
아키텍처 검색을 위한 입력으로 사용할 다중 항목 FASTA 파일은 메모장(Windows), TextPad(Windows), Notepad++(Windows), TextEdit(Mac OS X), Aquamacs( Mac OS X), Kate(Linux) 또는 gedit(Linux). 모든 FASTA 항목은 ">" 기호가 포함된 줄로 시작하고 그 아래에 설명이 와야 합니다. 그런 다음 관심 있는 유전자의 아미노산 서열을 붙여넣을 수 있습니다. 단백질 서열은 NCBI 단백질 포털에서 검색한 다음 항목 설명 아래의 'FASTA' 링크를 클릭하여 쉽게 찾을 수 있습니다. FASTA 입력 파일 생성을 마치면 확장자가 .fasta 인 파일 유형 "All Files (*.*)"로 저장합니다. 따라서 파일 이름은 'yourfastafile.fasta'와 같이 지정해야 합니다.


검색 데이터베이스 준비
MultiGeneBlast 데이터베이스를 다운로드하거나 생성하기 위해 여러 옵션을 사용할 수 있습니다. 우선, GenBank의 모든 항목이 포함된 MultiGeneBlast 데이터베이스는 GUI를 사용하거나 이 웹사이트에서 다운로드할 수 있습니다. 둘째, 컴퓨터의 로컬 파일에서 MultiGeneBlast 데이터베이스를 생성할 수 있습니다. 셋째, NCBI 서버에서 여러 GenBank 항목을 검색하여 데이터베이스를 디자인할 수 있습니다. 그런 다음 MultiGeneBlast가 해당 항목을 다운로드하고 데이터베이스를 생성합니다. 마지막으로, GenBank 사업부의 하위 집합을 지정하여 데이터베이스를 생성할 수 있습니다. 그런 다음 MultiGeneBlast가 NCBI FTP 서버에 연결하고 이 사업부를 다운로드하고 이로부터 MultiGeneBlast 데이터베이스를 구성합니다.

일반 MultiGeneBlast GenBank 데이터베이스 다운로드 편의를 위해 GenBank의 모든 아미노산 서열이 포함된 MultiGeneBlast 데이터베이스를 다운로드할 수 있습니다. 이것은 '다운로드' 메뉴에서 'MGB Genbank 데이터베이스 다운로드'를 클릭하여 간단히 다운로드할 수 있습니다. 당연히 이 데이터베이스를 사용하면 사용 가능한 전체 시퀀스 공간을 철저하게 검색할 수 있다는 장점이 있지만, 실행하는 데 시간이 오래 걸리고 시스템 메모리가 많이 필요하다는 단점이 있습니다.

로컬 EMBL / GenBank 파일에서 검색 데이터베이스 생성
특정 오페론이나 유전자 클러스터를 검색하려는 자체 시퀀스 데이터가 있는 경우 자체 시퀀스 파일에서 데이터베이스를 쉽게 만들 수 있습니다. 그렇게 하려면 '데이터베이스' 메뉴에서 '파일에서 데이터베이스 생성'을 클릭합니다. 그런 다음 나타나는 창에서 '파일 추가' 버튼을 클릭하여 선택 항목에 추가할 파일을 선택할 수 있습니다. 선택에 만족하면 '데이터베이스 만들기' 버튼을 클릭하여 데이터베이스를 생성합니다. 주석이 달린 유전자의 상동성을 검색하기 위해 blastp 알고리즘을 사용하는 대신 데이터의 원시 뉴클레오티드 서열에 직접 tblastn 알고리즘을 사용하려면 하단의 확인란을 선택하십시오. tblastn 검색을 위한 원시 뉴클레오티드 데이터베이스 만들기 . 이렇게 하면 원시 뉴클레오티드 FASTA 서열을 추가할 수도 있습니다. 다른 데이터베이스 구성 창에서도 동일한 옵션을 사용할 수 있습니다.

NCBI 서버의 GenBank 항목에서 검색 데이터베이스 만들기
데이터베이스를 디자인하려는 GenBank 항목이 컴퓨터에 로컬로 존재하지 않는 경우가 많습니다. '데이터베이스' 메뉴에서 '온라인 GenBank 항목에서 데이터베이스 생성'을 클릭하면 GenBank 항목을 검색하고 관심 있는 항목을 창 하단에 표시되는 선택 항목으로 이동할 수 있는 창이 나타납니다. 선택에 만족할 때까지 항목을 계속 검색하고 추가할 수 있습니다. 그런 다음 '데이터베이스 다운로드 및 생성' 버튼을 클릭하여 MultiGeneBlast를 NCBI 서버에 연결하고 항목을 다운로드하여 데이터베이스로 컴파일할 수 있습니다.

GenBank 사업부의 하위 집합에서 검색 데이터베이스 만들기
경우에 따라 사전 구성된 GenBank MultiGeneBlast 데이터베이스가 귀하의 요구에 완전히 맞지 않을 수 있지만 상대적으로 글로벌한 검색 공간 내에서 검색하기를 원할 수 있습니다. 예를 들어, 박테리아에 대해 연구하는 경우 식물 게놈과 먼 상동성을 찾는 데 거의 관심이 없을 수 있습니다. 따라서 MultiGeneBlast를 사용하면 GenBank 부서의 특정 하위 집합에서 데이터베이스를 만들 수 있습니다. Create database from GenBank subdivisions 을 클릭하면 관심 있는 해당 부문을 선택할 수 있는 선택 창이 나타납니다. Make database 를 클릭하면 MultiGeneBlast가 NCBI FTP 서버의 GenBank 디렉토리에 연결하고 해당하는 파일을 다운로드합니다. 파일을 만들고 데이터베이스를 만듭니다.


MultiGeneBlast 실행 설정
데이터베이스를 생성하거나 다운로드하고 입력 파일을 준비했으면 검색을 시작할 준비가 된 것입니다. 먼저 해당 라디오 버튼을 클릭하여 수행할 검색 유형을 선택해야 합니다. 그런 다음 '파일' 메뉴에서 해당 옵션을 사용하여 입력 파일과 데이터베이스를 로드할 수 있습니다.
상동성 검색을 설정하는 경우 입력 파일에서 검색 쿼리를 구성할 영역을 선택하는 시간입니다. 뉴클레오타이드 시작 위치 및 뉴클레오타이드 끝 위치에 대한 눈금 막대를 사용하거나 그 아래의 유전자 선택 위젯을 사용하여 원하는 영역을 선택할 수 있습니다. 게놈 위치를 사용하여 쿼리 영역을 지정할 때 온라인에서 입력의 GenBank 항목을 검사하거나 텍스트 편집기에서 입력 파일을 열어 이를 찾을 수 있습니다. 검색이 구체적이고 불필요한 계산 리소스를 소비하지 않도록 시작 위치와 끝 위치를 정확하게 찾아내도록 주의하십시오. 의도한 쿼리 영역을 포함하는 유전자 이름 또는 유전자좌 태그를 알고 있는 경우 '유전자 선택' 버튼을 클릭하여 쿼리 영역을 선택하는 것이 더 쉬운 경우가 많습니다. 그러면 원하는 유전자를 선택할 수 있는 창이 열립니다. 선택하는 동안 Shift 키를 누르고 있으면 전체 유전자 배열을 한 번에 선택할 수 있고 Control 키를 누르고 있으면 여러 선택을 결합할 수 있습니다. 검색 쿼리를 지정하기 위해 유전자 선택을 사용하면 오페론 또는 유전자 클러스터의 중간에 있지만 관심이 덜한 유전자를 "건너뛸" 수 있다는 이점이 있습니다.
마지막으로, 결과가 저장될 출력 디렉토리의 이름을 입력한 후(MultiGeneBlast 설치 폴더 내), 여러 검색 매개변수의 기본값을 변경할 수 있습니다.

- 사용할 CPU 코어 수: MultiGeneBlast 작업에 할당하려는 시스템의 프로세서 코어 수를 변경할 수 있습니다. 실행하는 동안 다른 용도로 컴퓨터를 사용하려면 최소한 하나의 프로세서를 여유 공간으로 두는 것이 좋습니다.
- 매핑할 유전자당 Blast 히트 수: 상위 게놈 영역에 매핑될 유전자당 최대 Blast 히트 수를 지정할 수 있습니다. 대부분의 경우 250이면 충분합니다. 그러나 검색이 철저하다는 것을 절대적으로 확인하려면 500 또는 1000을 선택할 수 있습니다. 반면에 가장 가까운 상동체에만 관심이 있는 경우 50으로 충분할 수 있으므로 실행 계산 시간이 단축됩니다. 프로세스.
- hit 분류에서 synteny 보전 가중치: hit 유전자 클러스터를 분류할 때 synteny 보전이 가지는 가중치를 결정하는 인자. 0.5의 점수는 보존된 합성력을 가진 인접한 유전자의 각 쌍에 0.5점을 제공하는 반면, 유전자 자체의 상동체가 존재하면 유전자당 1점을 얻습니다.
- BLAST 적중의 최소 시퀀스 적용 범위: 이 옵션을 사용하면 분석에서 고려할 Blast 적중에 대한 Blast 적중과 관련된 쿼리 유전자의 최소 백분율에 대한 임계값을 지정할 수 있습니다.
- BLAST 적중의 최소 % 동일성: 이 옵션을 사용하면 분석에서 고려할 BLAST 적중의 최소 백분율 동일성에 대한 임계값을 지정할 수 있습니다.
- 유전자좌에 있는 유전자 사이의 최대 거리: 이것은 Blast 히트가 있는 유전자가 결과에서 단일 게놈 유전자좌로 계산될 수 있는 거리를 지정할 수 있게 합니다. 밀접하게 전사적으로 결합된 오페론을 찾는 경우 이 값을 낮은 값으로 설정하고 일반 게놈 영역을 찾는 경우 높은 값으로 설정하십시오.
- 표시할 적중 위치 수: 최대 출력 페이지 수를 결정합니다(페이지당 50개 적중).
- 쿼리가 있는 상동체의 근육 정렬: 이 상자를 선택하면 검색된 모든 상동체와 각 쿼리 유전자의 근육 정렬이 생성됩니다. 이것은 서열 수준에서 유전자 사이의 유사성을 보기 위한 좋은 참조가 될 수 있으며, 계통수를 생성하기 위해 MEGA와 같은 도구에 쉽게 로드될 수 있습니다.


실행 설정이 완료되면 'MultiGeneBlast 실행'을 클릭하여 검색을 시작합니다. 검색 프로세스의 현재 상태를 정기적으로 업데이트하는 창이 나타납니다.


출력 읽기 및 해석
검색이 완료되면 검색 결과가 시각화된 브라우저 창이 열리고 쿼리에 가장 잘 맞는 게놈 영역에 대한 개요가 정렬됩니다. 브라우저 창이 표시되지 않으면 브라우저를 사용하여 결과 폴더(MultiGeneBlast 디렉토리 내)에서 'displaypage1.xhtml' 파일을 수동으로 열 수도 있습니다.

모든 적중에 대해 출력은 누적 BLAST 비트 점수뿐만 아니라 총 MultiGeneBlast 점수(임계값 세트와 일치하는 BLAST 적중 수 및 보존된 합성을 갖는 연속 유전자 쌍 수로 구성됨)를 표시합니다. 유전자 화살표의 색상은 Blast 상동성을 나타냅니다. 여러 쿼리 유전자가 서로 상동인 경우 히트 유전자와 함께 동일한 색상의 단일 상동 그룹으로 그룹화됩니다. 흰색 유전자 화살표는 쿼리에 대한 Blast 히트가 없는 (주변) 유전자를 나타냅니다.
유전자를 클릭하면 유전자의 주석, 위치 및 쿼리 유전자에 의한 Blast 히트의 세부 정보를 제공하는 패널이 나타납니다. 또한 NCBI 서버에서 단일 유전자 BlastP 검색에 대한 검색 양식에 이 유전자를 쿼리로 입력하기 위해 새 브라우저 탭을 여는 링크가 제공됩니다.

쿼리 유전자 클러스터와 히트 유전자 클러스터의 유사점을 자세히 살펴보기 위해 상단의 선택 상자를 사용할 수 있습니다. 유전자 클러스터를 선택하면 쿼리 유전자 클러스터의 SVG가 이 유전자 클러스터와 함께 확대되어 브라우저 창에 표시됩니다. 전체 검색 결과로 돌아가려면 오른쪽의 '모두 표시' 버튼을 클릭하세요. 더 많은 결과가 있는 결과 페이지 사이를 탐색하려면 출력 창 상단에 있는 링크를 사용할 수 있습니다.


결론

이 초기 버전의 HMMER 웹 서버는 속도와 응답 시간 최소화에 중점을 두었습니다. 대부분의 검색은 가장 큰 대상 데이터베이스에 대해서도 검색하는 데 1-2초가 걸립니다. 우리의 장기적인 목표는 일반적인 검색 시간이 100–200ms 범위에 있도록 검색 시간을 더욱 단축하는 것입니다. 이를 통해 사용자는 단백질 서열 공간을 대화식으로 탐색할 수 있습니다.

우리는 또한 네 번째 단백질 검색 알고리즘에 대한 지원을 추가할 계획이며, 잭머 , 가까운 미래에. 이를 통해 PSI-BLAST(10)와 유사한 단일 쿼리 시퀀스에서 시작하는 반복 검색이 가능합니다.

앞으로 해결해야 할 가장 중요한 문제는 검색 결과의 시각화라고 생각합니다. 대부분의 검색이 0, 1 또는 몇 개의 적중을 반환했던 시절에는 배치 모드 표 형식의 출력이 적절했습니다. 오늘날 수천 개의 게놈 시퀀싱을 통해 일반적인 검색은 수백 수천 개의 히트를 반환합니다. 가장 유익한 일치 항목은 접근 가능성이 낮은 유기체에서 주석이 덜 달린 시퀀스에 대한 수많은 일치 항목으로 인해 종종 가려집니다. 우리의 주요 미래 목표는 계통 발생 나무에 구성된 결과를 보여주는 그래픽 시각화의 개발입니다. 이를 통해 사용자는 다른 결과를 일시적으로 숨기면서 가장 관련성이 높은 계통군 및 유기체를 탐색할 수 있습니다. 이러한 패러다임은 검색 시간을 다른 차원으로 줄이려는 우리의 목표와 시너지 효과를 낼 것입니다. 왜냐하면 우리는 계통 발생적 라인을 따라 검색 및 대상 데이터베이스 자체를 구성할 수 있기 때문입니다. 초기 검색은 초기 결과 표시에서 더 잘 알려져 있거나 특징이 있는 대표적인 유기체의 하위 집합으로 구성된 표준 '프레임워크' 계통 발생에 대해 수행할 수 있습니다. 모든 시퀀스로 확장된 후속 심층 검색은 사용자가 특정 계통군에 대한 심층 조사를 요청하기 위해 클릭한 경우에만 수행할 수 있습니다. 이 패러다임은 또한 시퀀스 데이터베이스의 기하급수적인 증가를 관리하는 방법을 제공합니다. 프레임워크 계통 발생은 천천히 성장하는 완전한 참조 프로테옴 세트가 될 것으로 예상되는 반면, 추가 시퀀스 데이터의 기하급수적인 폭발은 해당 트리의 더 작고 고해상도의 가지에 숨겨져 있습니다.


적중당 로컬 BLAST 복사 수 - 생물학

HiPR-FISH 프로브 설계 및 이미지 분석

이 코드 모음은 numpy , pandas , biopython , bioformats , javabridge , scikit-image , scikit-learn 및 scipy 를 포함한 오픈 소스 패키지를 사용합니다.

HiPR-FISH 실험을 위한 이미지 분석 파이프라인 및 스크립트

이 파이프라인은 미생물 군집에 대한 고도로 다중화된 FISH 실험을 위한 자동화된 이미지 분석을 가능하게 합니다. 대부분의 경우 주요 파이프라인은 snakemake 워크플로입니다. 우리 논문에 제시된 특정 분석에 사용되는 독립 실행형 스크립트도 있습니다.

파이프라인을 실행하기 전에

  1. 미니콘다를 설치하고,
  2. 다음 명령을 실행하여 환경을 설치합니다.
    conda env 생성 hiprfish python=3.5
    콘다 설치 판다
    conda install -c 아나콘다 바이오파이썬
    콘다 설치 자바 브릿지
    conda install -c bioconda python-bioformats

HiPR-FISH 실험을 위한 프로브 설계 파이프라인

프로브 설계 파이프라인 테스트에 도움을 준 Jakob Wirbel에게 감사드립니다.

이 파이프라인을 통해 미생물 군집에 대한 고도로 다중화된 FISH 실험에 사용되는 복잡한 올리고 프로브 세트를 설계할 수 있습니다. 주요 파이프라인은 snakemake 워크플로입니다. 파이프라인에는 두 가지 버전이 있습니다. hiprfish-probe-design-consensus 버전은 각 분류군에 대한 분류군 합의 시퀀스에서 프로브를 설계하여 합의 접근 방식을 사용합니다. hiprfish-probe-design-molecule 버전은 PacBio 시퀀싱 데이터 세트의 각 개별 16S 분자에서 프로브를 설계하고 후속 평가를 위해 모든 고유 프로브를 풀링합니다. 프로브 평가 및 선택은 두 버전에서 동일합니다.

파이프라인에는 NCBI의 16SMicrobial 데이터베이스의 로컬 복사본이 필요합니다.


논의

이 작업에서 우리는 orthogroups의 새로운 추론 방법인 OrthoFinder를 제시했습니다. 우리의 방법은 orthogroup의 명확한 정의에 초점을 맞추고 있습니다. 즉, orthogroup은 유전자가 분석되고 있는 종의 마지막 공통 조상에 있는 단일 유전자에서 파생된 모든 유전자를 포함합니다. 이 정의는 공유 조상을 기능적 보존과 같이 동등하지 않은 다른 기준과 혼동하는 것을 방지합니다. 우리의 방법은 orthogroup 내의 개별 유전자 사이에서 발생하는 이질적인 관계를 분류하기보다는 orthogroup 추론의 문제를 해결하도록 설계되었습니다. 이러한 관계는 먼저 OrthoFinder를 사용하여 orthogroup을 유추한 다음 이러한 orthogroup에 대해 여러 시퀀스 정렬 및 계통 발생 방법을 사용하여 가장 잘 해결됩니다.

우리 방법의 두 가지 주요 새로운 기능은 (1) 서열 유사성 점수에서 유전자 길이 편향 및 계통 발생적 거리를 자동으로 제거하는 방법과 (2) 오르소그룹의 서열 유사성 한계를 정의하는 새로운 방법입니다. 공개적으로 사용 가능한 유일한 orthogroup 벤치마크 데이터 세트(OrthoBench)에 대해 수행된 테스트에서 OrthoFinder는 일반적으로 사용되는 모든 orthogroup 할당 방법보다 8%에서 33% 사이의 성능을 보였습니다. 더욱이 우리는 OrthoFinder가 불완전한 게놈의 전형적인 누락 유전자에 대해 확장 가능하고 강력하다는 것을 보여주었습니다. 드 노보 전사체 어셈블리. 이 소프트웨어는 무료로 사용할 수 있으며 미리 계산된 BLAST 점수를 입력으로 사용할 수 있으므로 미리 계산된 BLAST 점수를 사용할 수 있는 새로 개발된 벤치마크에서 쉽게 테스트할 수 있습니다.

우리는 Phytozome V9에 존재하는 사용 가능한 완전 시퀀싱된 식물 게놈에서 모든 전사 인자의 새로운 분류를 제공함으로써 OrthoFinder의 유용성을 추가로 보여줍니다. 이 분석은 52,744개의 추정 전사 인자 중 97.6%를 오르소그룹으로 묶습니다. 이 새로운 분석은 이전에 보고되지 않은 수백만 개의 관계를 식별하여 식물에서 전사 인자 유전자 패밀리의 관계 및 진화에 대한 새로운 통찰력을 제공합니다.

오르토로그를 추론하는 것은 현대 생물학 연구의 많은 부분을 뒷받침하며 게놈 및 전사체 시퀀싱 프로젝트의 주석 및 분석의 첫 번째 단계 중 하나입니다. 시퀀싱 기술이 이제 대부분의 연구 그룹의 예산 범위 내에서 이루어짐에 따라 이러한 데이터 리소스의 수가 빠르게 증가하고 있습니다. 따라서 정확하고 강력하며 확장 가능하고 기존 컴퓨팅 리소스에 대한 독립적인 연구 그룹에서 쉽게 실행할 수 있는 직교군 추론 방법에 대한 요구 사항이 있습니다. 많은 orthogroup 추론 방법은 일반적으로 사용할 수 없지만 정적 데이터베이스(예: EggNog 및 TreeFam)로 제공됩니다. 따라서 가장 널리 사용되는 방법은 연구자가 자신의 데이터 리소스를 분석할 수 있도록 하는 방법입니다. 이를 염두에 두고 OrthoFinder는 사용하기 쉽도록 개발되었습니다. 이 방법은 단일 명령으로 실행되고 최소한의 종속성을 가지며 클러스터링되는 각 종에 대한 개별 단백질 시퀀스 FASTA 파일만 입력으로 필요합니다. 알고리즘은 모든 계산(BLAST 검색 및 MCL 클러스터링 포함)을 수행하고 일반 탭으로 구분된 텍스트 파일과 OrthoXML 커뮤니티 형식으로 orthogroup을 출력합니다. 알고리즘 자체는 작고 빠르며 메모리 효율적이어서 Linux 데스크톱 컴퓨터에서 사용하기에 적합합니다. 알고리즘에 대한 추가 정보는 [19]에서 찾을 수 있으며 알고리즘의 독립 실행형 구현은 [20]에서 GPLv3 라이선스에 따라 사용할 수 있습니다.


감사의 말

Jeremy Buhler와 Christopher Swope(Washington University, St. Louis)는 HMMER2에서 Viterbi 및 Forward 구현을 위한 중요한 최적화에 기여했습니다. Erik Lindahl(Stanford)은 VMX/Altivec 명령어가 있는 PowerPC 프로세서용 HMMER2의 첫 번째 SIMD 벡터 구현에 기여했습니다. Alex Coventry(Cornell), Steve Johnson(Washington Univ., St. Louis) 및 Elon Portugaly(Hebrew University)는 HMMER3 프로젝트로 이어지는 탐색 작업을 수행했습니다. Bjarne Knudsen(CLCbio, 덴마크)은 HMMER3 소스 코드의 신중한 분석을 기반으로 몇 가지 최적화 및 제안에 기여했습니다. Elena Rivas(Janelia Farm)는 마우스 발성 모델링을 위한 연속 방출 변수에 대해 HMMER3의 핵심을 다시 구현하는 과정에서 소스 코드에 대한 많은 설명과 개선에 기여했습니다. 비록 공간이 이러한 짧은 개인적인 감사만을 허용하지만, 다른 많은 사람들이 HMMER3의 개발에 기여했으며, 이 넓은 개발자 및 사용자 커뮤니티에도 감사드립니다. Goran Ceric은 Janelia Farm의 고성능 컴퓨팅 리소스를 완벽하게 지원했습니다. HHMI의 법률 고문 Heidi Henning은 오픈 소스 문제에 대해 귀중한 법률 지원을 제공했습니다. HMMER is a trademarked open source project supported by the Howard Hughes Medical Institute. I dedicate this paper to the memory of my colleague and friend Michael Farrar, principal software engineer on the HMMER3 project, who died unexpectedly in December 2010.


Local BLAST Copy Number per Hit - Biology

About FSA-BLAST

FSA-BLAST is a new version of the popular BLAST (Basic Local Alignment Search Tool) bioinformatics tool, used to search genomic databases containing either protein or nucleotide sequences. FSA stands for Faster Search Algorithm FSA-BLAST is twice as fast as NCBI-BLAST with no loss in accuracy. These speed gains are due to a range of improvements to the BLAST algorithm described in detail in recent scientific publications. The software is freely available for download and open source under the BSD license agreement.

The FSA-BLAST software is designed to be as similar as possible in usage to the NCBI-BLAST application. Results are output in an almost identical format. Most command line options are the same, and parameters such as word length, hit threshold, alignment dropoff and gapped alignment trigger are comparable to NCBI-BLAST. FSA-BLAST uses the exact same statistical analysis to evaluate E-values and normalized scores for alignments.

  • Protein vs protein (BLASTP) and nucleotide vs. nucleotide searches (BLASTN)
  • Query filtering using DUST and SEG low complexity filters
  • Reverse complement nucleotide searches
  • Karlin-Altschul alignment statistics
  • Control over a range of parameters including word length, hit threshold, multiple hit window size, ungapped and gapped dropoff, open and extend gap penalties, scoring matrix, match and mismatch penalties, number of reported/displayed alignments, and gapped alignment trigger score.
  • Protein collection clustering for faster BLASTP searches
  • XML and tabular output (New as of version 1.03)
  • Searches with multiple queries (New as of version 1.03)

Download and installing

FSA-BLAST is available for download as source code or precompiled binaries for x86 Linux and PowerMac G5 systems:

Decompress the above files using the following commands:

gzip -d fsablast105-source.tar.gz
tar -xf fsablast105-source.tar

To compile the software type:

Which will generate the following binaries:

Usage instructions

Before searching a collection, you will first need to format it using the formatdb tool provided with FSA-BLAST. Note that this tool is different from the formatdb application that comes with NCBI-BLAST which uses a different format. The tool will generate three files with extensions .data .sequences 그리고 .descriptions in the same directory as the collection. The following illustrates how to format a collection: 노트: To format a collection for use with FSA-BLAST you will need the database to be in FASTA format. To convert a database from NCBI-BLAST format (with files extensions such as nhr, nin, nsq, phr, pin, and psq) back to FASTA format you will need to use the fastacmd tool that comes with the NCBI toolkit (in the /build directory).

Once the collection has been formatted you can search it with blast using a command such as follows: Which will produce output looking like: To view a complete list of BLAST parameters simple execute: To perform faster protein BLAST searches, you can cluster the collection using the 무리 command: BLAST searches against the clustered database will then be faster. The amount of redundancy in the original collection will affect the speed increase obtained by clustering, although our experiments have shown a 22% speed increase when searching the GenBank NR database.

Also provided is a tool for converting a formatted collection back into FASTA format. The command:

will output the database to stdout in FASTA format.

서류

The following papers describe improvements to the BLAST algorithm used by FSA-BLAST to increase search speed without any loss in accuracy:

M. Cameron, H.E. Williams, and A. Cannane, ``Improved Gapped Alignment in BLAST'', IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1(3), 116-129, 2004. Download PDF

M. Cameron, H.E. Williams, and A. Cannane, ``A Deterministic Finite Automaton for Faster Protein Hit Detection in BLAST'', Journal of Computation Biology, 2005. To appear. PDF 다운로드

M. Cameron and H.E. Williams, ``Comparing Compressed Sequences for Faster Nucleotide BLAST Searches'', manuscript in preparation.

M. Cameron, Y. Bernstein, H.E. Williams, ``Clustering Near-Identical Sequences for Fast Homology Search'', Proc. International Conference on Research in Computational Molecular Biology RECOMB. To appear. PDF 다운로드

Y. Bernstein, M. Cameron, ``Fast Discovery of Similar Sequences in Large Genomic Collections'', Proc. European Conference on Information Retrieval ECIR. To appear. PDF 다운로드


작가 정보

소속

Department of Microbiology and Molecular Genetics, Michigan State University, East Lansing, MI, 48824, USA

Taylor K. Dunivin & Ashley Shade

Environmental and Integrative Toxicological Sciences Doctoral Program, Michigan State University, East Lansing, MI, 48824, USA

Institute for Cyber-Enabled Research, Michigan State University, East Lansing, MI, 48824, USA

Program in Ecology, Evolutionary Biology and Behavior, Michigan State University, East Lansing, MI, 48824, USA

Department of Plant, Soil, and Microbial Sciences, Michigan State University, East Lansing, MI, 48824, USA

Plant Resilience Institute, Michigan State University, East Lansing, MI, 48834, USA


비디오 보기: NCBI BLAST (이월 2023).