Problématique | Bif7002 Hiver2019

L’étape d’identification des protéines contenues dans un échantillon est l’une des plus importantes. L’approche des méthodes traditionnelles est basée sur la masse de la protéine. On part du principe que chaque protéine d'une base de données est théoriquement soumise aux mêmes conditions expérimentales que la protéine à identifier. Elle produit donc un ou plusieurs spectres de masse théoriques. Les spectres de masse théoriques sont comparés au spectre expérimental. La durée d'exécution varie généralement de manière linéaire avec la taille de la base de données et de manière exponentielle avec le nombre de modifications post-traductionnelles prises en compte. Ceci rend le processus de comparaison de millions de spectres contre de nombreux peptides long et difficile (Frank et al, 2007).

Il y a également certaines difficultés à identifier des protéines d’intérêt, si elles sont peu abondantes comparativement à d’autres protéines de l’échantillon. Ce qui est souvent le cas des protéines susceptibles d’être les marqueurs biologiques pour une maladie. Un autre défi de la protéomique par spectrométrie de masse consiste à identifier sans ambiguïté les protéines des peptides identifiés, principalement en raison du manque de données de séquençage pour certaines espèces (Swan et al., 2013). Il est donc nécessaire d’améliorer les algorithmes utilisés pour l’identification et la quantification des protéines. Les méthodes d’apprentissage par machine peuvent se relever d’une grande aide, comme elles l’ont démontré pour d’autres disciplines omiques.

Suite