Etiquetando pacotes biomédicos com EDAM

debian/upstream/edam é um arquivo que permite uma categorização formal de um pacote com conceitos da ontologia edAM (https://bioportal.bioontology.org/ontologies/EDAM?p=classes).

O arquivo é formatado em YAML como os outros arquivos na pasta debian/upstream. Use a linha de comando YAML Lint para validação consistente. Nota: a versão de linha de comando não é tão rigorosa quanto a formatação (feia) produzida pela versão on-line!

Para pacotes-fonte com vários pacotes binários que precisam de diferentes anotações EDAM e/ou para pacotes-fonte os quais o pacote binário principal não é nomeado como o pacote-fonte, sugere-se nomear o arquivo edam nomedopacote.edam .

O contexto deste desenvolvimento é a criação do banco de dados bio.tools do projeto europeu ELIXIR. Um conjunto de scripts para um upload automatizado de uma descrição pronta para bio.tools a partir do banco de dados Debian (edam, control, copyright, changelog) já foi implementado e está disponível:

Esses scripts vinculam o repositório de pacotes Debian a entradas em bio.tools. Quem busca uma determinada ferramenta pode, assim, tornar-se mais rapidamente consciente dos binários fornecidos pelo Debian. Particularmente nas ciências biológicas e médicas, a confiança para usar o mesmo binário que outras pessoas usam é de um valor particular. Alternativas podem ser serviços web, mas para muitos dos dados de alto rendimento de hoje, E/S é um gargalo.

Problemas

Descrição do formato

Emprestando-se a partir do arquivo debian/upstream/edam do aspirante a pacote Debian condetri, que por sua vez foi emprestado do pacote trimmomatic, a primeira linha identifica a ontologia e a versão a que o arquivo se refere. Típico para a ontologia EDAM, todo o pacote tem um único tópico. Esse tópico pode ter vários escopos, mas normalmente há apenas um, ou seja, um resumo.

---
ontology: EDAM (1.12)
topic:
  - Sequencing
scopes:
  - name: summary
    function:
      - Sequence trimmimg
      - Sequencing quality control
    inputs:
      - data:   Sequence
        formats: [FASTQ]
    outputs:
      - data:   Sequence
        formats: [FASTQ]

Para algumas suítes de softwares, como, por exemplo, EMBOSS, pode ser adequado ter vários escopos para separar binários. Um escopo tem funções, com entradas e saídas.

Examplos

Uma série de pacotes já apresenta uma anotação EDAM. Você pode adotar termos de um programa semelhante como um começo:

Esta lista não é completa.

Ferramentas para auxiliar na organização de anotações EDAM

wget -O edam_query.sh https://raw.githubusercontent.com/bio-tools/biotoolsConnect/master/DebianMed/edam.sh
chmod +x edam_query.sh
# install postgresql client if not already installed
[ -x /usr/bin/psql ] || sudo apt-get install postgresql-client-9.5
./edam_query.sh

This produces a file named edam.txt with everything Debian today knows about EDAM and more - feels almost like worthy to upload to biotools :)

$ head -n 3 edam.txt  | tail -n 1
 abacas                              | debian       | sid     | main      | 1.3.1                     | abacas                           | http://abacas.sourceforge.net/                                                                                                                                                                                | Algorithm Based Automatic Contiguation of Assembled Sequences                   |  ABACAS is intended to rapidly contiguate (align, order, orientate),                                                      +|                         |                                      |                                                                       |                                                                                                   | 8 / 11 / 168   | 10.1093/bioinformatics/btp347                                       | {"Probes and primers"}                                 | [{"name": "summary", "inputs": [{"data": "Sequence", "formats": ["FASTA"]}], "outputs": [{"data": "Sequence", "formats": ["FASTA"]}], "function": ["PCR primer design"]}]

Você também pode criar uma saída json ao chamar o script com a opção -j:

$ ./edam_query.sh -j

Este script não é realmente concebido como uma ferramenta totalmente qualificada, mas sim como um exemplo para uma consulta UDD que pode ser transformada em uma ferramenta.

Veja também


CategoryPackaging