Exercice 1: Alignement de séquences protéiques (local contre global)
Le but de cet exercice est d'essayer d'éclaircir la différence entre alignement local et global; dans certains cas, l'utilisation de l'un n'a aucun sens, alors que l'autre donne un message biologique intéressant. Nous étudierons le cas des protéines P19525 (Interferon-induced, double-stranded RNA-activated protein kinase) et Q9Z1J2 (Serine/threonine-protein kinase Nek4). · Allez récupérer les séquences de ces deux protéines sur UniProt (ou NCBI, si UniProt ne fonctionne pas...)

· Coller les séquences protéiques au format FASTA dansvotre document Text Edit (au autre) afin de pouvoir les réutiliser par la suite. Le format Fasta est un format universel pour la manipulation des séquences biologiques. Il se compose simplement d'une ligne d'entête débutant par le caractère >, puis de la séquence elle-même.

 > nom, commentaire etc 
 acaagactagacagtatacggtatagacatagcggatcacagtaga 
 cgctagacgtcgctagcatgcgtggtacaatacatcc


1) Alignement de séquences: Comparaison de l'alignement local vs. Global

Allez sur ce site à l'European Bioinformatic Institute (EBI), et faites l'alignement global (Needleman & Wunsch) de ces deux séquences. Observez le résultat de l'alignement proposé et notez le pourcentage d'identité/similarité/gaps.
Sur le même site, faites maintenant un alignement local (Smith-Waterman) de ces deux séquences en sélectionnant Water dans Local Alignment à la place de Needle; notez le pourcentage de similarité, d'identité et de gap, le score, ainsi que la longueur de l'alignement.

2) Utilisation de l'outil DOTLET

Le dotplot est un outil graphique pour étudier la similarité entre deux séquences. Il permet également de repérer des régularités structurelles au sein d'une séquence. L'idée de base est simplement de prendre deux séquences (ou deux copies de la même séquence) en abscisse et en ordonnées d'une grille et da marquer d'un point toutes les positions identiques. Les régions similaires entre les deux séquences apparaissent alors visuellement comme des petites diagonales.

Le programme Dotlet fait cela. Il faut commencer par entrer les séquences avec lesquelles vous allez travailler, sans l'entête FASTA (bouton input). Le copier-coller se fait avec CTRL c CTRL v. Pour construire le dot plot, cliquez ensuite sur le bouton compute. Une fois le dot plot affiché, vous pouvez vous déplacer dedans à l'aide de la souris.

Pour vous familiariser avec le programme, vous pouvez faire un test d'essai avec la petite séquence artificielle suivante.

ABCDEFGHIJKLMNOPQRMNOPQRMNOPQRSTUVWXYZ
  • Sauvegardez la séquence dans un fichier Calculez le dot plot de cette séquence contre elle-même. Que constatez vous?
  • Augmentez le nombre de répétitions MNOPQR.
  • Insérez les caractères BLABLABLA entre les caractères G et H. Recalculez. Que voit-on?

3) Dotplot sur nos protéines d'intêret P19525 et Q9Z1J2

Faîtes un dotplot de ces deux séquences en utilisant DOTLET

Obtenez les séquences au format FASTA à partir des fiches, puis comparez les 2 séquences en utilisant Dotlet, afin de déterminer la structure du transcrit (intron/exon) (Attention: dotlet veut la séquence brute sans la première ligne commençant par ">...")

et comparez précisément l'allure du dotplot avec l'alignement local. QUESTIONS:
1. Commentez la qualité de l'alignement global et local (% identité, % de gaps, ...)
2. Essayez de déterminer le point commun entre les 2 séquences (par exemple en lisant les fiches SwissProt ou GenBank)
3. Comparez l'alignement local avec l'allure du dotplot (en termes d'insertions, etc...)
4. Concluez en indiquant dans quel cas un alignement local est plus pertinent qu'un alignement global. Exercice 2: Alignement de séquences d'acide nucléique Retour sur les UTR....
Il est possible en utilisant un dotplot entre un gène (ADN génomique) et son ARN messager de voir la structure du transcrit (exons, introns,...). Cependant, cette analyse ne permet pas de déterminer la présence ou non d'UTR. Nous allons maintenant voir comment BlastX permet de répondre à cette question.
Sur le site GenBank, allez cherchez la fiche de AF117221.1 (séquence d'ADN génomique) et de AK225282.1 (ARN messager). Lisez la fiche de la séquence d'ADN génomique du gène. QUESTIONS:
5. A quoi correspondent les rubriques promoter, mRNA et CDS ? Est ce que vous pouvez déterminer combien il y a d'exons dans ce gène ? Obtenez les séquences au format FASTA à partir des fiches, puis comparez les 2 séquences en utilisant Dotlet, afin de déterminer la structure du transcrit (intron/exon). QUESTIONS:
6. Combien ce gène contient-il d'exons/introns ?
7. Dans Dotlet, pourquoi la diagonale ne commence-t-elle pas dans le coin en haut à gauche et ne se termine pas en bas à droite? Allez regarder l'extrémité 3' de l'ARN messager; que remarquez vous ?
8. Pourquoi certaines lignes apparaissent-elles décalées dans le graphique obtenu avec l'ADN ?
9. Y a-t-il des 5’/3’ UTR ? Si oui, essayez d'estimer leur longueur.

SCROLL TO TOP