Etiquetando pacotes biomédicos com EDAM
debian/upstream/edam é um arquivo que permite uma categorização formal de um pacote com conceitos da ontologia edAM (https://bioportal.bioontology.org/ontologies/EDAM?p=classes).
O arquivo é formatado em YAML como os outros arquivos na pasta debian/upstream. Use a linha de comando YAML Lint para validação consistente. Nota: a versão de linha de comando não é tão rigorosa quanto a formatação (feia) produzida pela versão on-line!
Para pacotes-fonte com vários pacotes binários que precisam de diferentes anotações EDAM e/ou para pacotes-fonte os quais o pacote binário principal não é nomeado como o pacote-fonte, sugere-se nomear o arquivo edam nomedopacote.edam .
O contexto deste desenvolvimento é a criação do banco de dados bio.tools do projeto europeu ELIXIR. Um conjunto de scripts para um upload automatizado de uma descrição pronta para bio.tools a partir do banco de dados Debian (edam, control, copyright, changelog) já foi implementado e está disponível:
https://github.com/bio-tools/biotoolsConnect/blob/master/DebianMed/edam.sh no repositório github biotoolsConnect
https://salsa.debian.org/med-team/community/infrastructure/tree/master/edam/registry-tool.py no repositório subversion Debian Med
Esses scripts vinculam o repositório de pacotes Debian a entradas em bio.tools. Quem busca uma determinada ferramenta pode, assim, tornar-se mais rapidamente consciente dos binários fornecidos pelo Debian. Particularmente nas ciências biológicas e médicas, a confiança para usar o mesmo binário que outras pessoas usam é de um valor particular. Alternativas podem ser serviços web, mas para muitos dos dados de alto rendimento de hoje, E/S é um gargalo.
Problemas
- Ainda não há atualização automatizada de entradas em bio.tools - hoje uma segunda entrada seria criada. Isso não é o que queremos, e é por isso que não há novos uploads semanais ou, por exemplo, um gancho (hook) no repositório git Debian Med para automatizar o que já foi automatizado.
- Licenciamento - os dados em bio.tools estão sob uma licença creative commons, que precisa ser mencionada em debian/control.
O pessoal do bio.tools já estabeleceu uma série de anotações EDAM, em parte com esforços de comunidades bem conhecidas como SeqAnwers.com. Como trocamos informações corretamente? O(A) mantenedor(a) de pacotes Debian decide livremente dar uma espiada nesses recursos e descrevê-los no arquivo debian/copyright?
Descrição do formato
Emprestando-se a partir do arquivo debian/upstream/edam do aspirante a pacote Debian condetri, que por sua vez foi emprestado do pacote trimmomatic, a primeira linha identifica a ontologia e a versão a que o arquivo se refere. Típico para a ontologia EDAM, todo o pacote tem um único tópico. Esse tópico pode ter vários escopos, mas normalmente há apenas um, ou seja, um resumo.
---
ontology: EDAM (1.12)
topic:
- Sequencing
scopes:
- name: summary
function:
- Sequence trimmimg
- Sequencing quality control
inputs:
- data: Sequence
formats: [FASTQ]
outputs:
- data: Sequence
formats: [FASTQ]Para algumas suítes de softwares, como, por exemplo, EMBOSS, pode ser adequado ter vários escopos para separar binários. Um escopo tem funções, com entradas e saídas.
Examplos
Uma série de pacotes já apresenta uma anotação EDAM. Você pode adotar termos de um programa semelhante como um começo:
tophat - lost?
Esta lista não é completa.
Ferramentas para auxiliar na organização de anotações EDAM
Andreas interligou os arquivos EDAM com o UDD, e forneceu este script para acessar as informações. Execute o código seguinte para uma visão geral sobre ferramentas que apresentam uma anotação EDAM no Debian:
wget -O edam_query.sh https://raw.githubusercontent.com/bio-tools/biotoolsConnect/master/DebianMed/edam.sh chmod +x edam_query.sh # install postgresql client if not already installed [ -x /usr/bin/psql ] || sudo apt-get install postgresql-client-9.5 ./edam_query.sh
This produces a file named edam.txt with everything Debian today knows about EDAM and more - feels almost like worthy to upload to biotools
$ head -n 3 edam.txt | tail -n 1
abacas | debian | sid | main | 1.3.1 | abacas | http://abacas.sourceforge.net/ | Algorithm Based Automatic Contiguation of Assembled Sequences | ABACAS is intended to rapidly contiguate (align, order, orientate), +| | | | | 8 / 11 / 168 | 10.1093/bioinformatics/btp347 | {"Probes and primers"} | [{"name": "summary", "inputs": [{"data": "Sequence", "formats": ["FASTA"]}], "outputs": [{"data": "Sequence", "formats": ["FASTA"]}], "function": ["PCR primer design"]}]Você também pode criar uma saída json ao chamar o script com a opção -j:
$ ./edam_query.sh -j
Este script não é realmente concebido como uma ferramenta totalmente qualificada, mas sim como um exemplo para uma consulta UDD que pode ser transformada em uma ferramenta.
Veja também
UltimateDebianDatabase (UDD)
A Linguagem comum de fluxo de trabalho (Common workflow language) objetiva prover meios de ajudar ferramentas interconectadas no banco de dados bio.tools e outras.
