Percolator | Bif7002 Hiver2019

Percolator est un outil similaire à DTASelect. Il permet d’améliorer le degré de confiance des peptides identifiés. Lors de l’identification de spectres peptidiques correspondant à la protéine ou Peptide-Spectrum-Match (PSMs), le problème qui se pose est le seuil à considérer pour éviter les faux positifs. Or ces seuils varient d’un algorithme à un autre. L’utilisation des méthodes d’apprentissage automatique pour reclasser les PSMs et établir un seuil automatique pour la liste est alors intéressante, afin de faire la différence entre les vrais et faux PSMs. Cette approche donne plus de confiance dans les peptides identifiés.

Percolator utilise un algorithme d’apprentissage automatique semi-supervisé pour différencier les vraies et les fausses identifications de spectres. L’algorithme utilise un set de protéines identifiées avec un haut score de PSMs comme exemples positifs, et des PSMs issus de la base de données de protéines mélangées comme exemples négatifs. Percolator et son algorithme peuvent faire la distinction entre les PSMs positifs et les PSMs négatifs. Une valeur statistique q est déterminée pour chaque PSM, définie comme le seuil minimal de fausse découverte auquel une identification de PSM est vraie. Le seuil des valeurs q est déduit de la base d’exemples négatifs.

Percolator a été testé sur 35236 spectres, et a permis d’identifier correctement 12,691 PSMs, en 4 minutes. En utilisant les mêmes ressources et en considérant la même valeur de q, SEQUEST a mis 3 jours pour n’en identifier que 2,780 PSMs (figure 4) (Kall, Canterbury et al. 2007).

Figure 4 : comparaison entre Percolator et SEQUEST pour l’analyse de données MS/MS de protéines digérées pas trois peptidases a, trypsine, b, elastase, c , chemotrypsine (Kall, Canterbury et al. 2007)

Suite