Après avoir défini le support de l’hérédité, l’ADN, on peut réfléchir au problème du codage de l’information génétique. Le mystère du code génétique a été élucidé en moins de trois ans par trois chercheurs américains, M. Nirenberg, G. Khorana et R. Holley, lauréats du prix Nobel en 1968.
Ils partirent de l’hypothèse que les séquences de nucléotides constituent en elles-mêmes un système de codage. Si l’on se réfère, pour simplifier, à un seul brin de l’ADN, que nous appellerons brin codant, il est aisé de comprendre que la courte séquence ---A---T---C---C---C---, par exemple, est différente de ---A---C---T---C---C---. Il restait alors à expliquer la relation entre ce code à quatre signaux et les caractères héréditaires qui se traduisent dans les phénotypes des individus ; c’est-à-dire ce que l’on voit. On est donc amené à se poser une question simple, une de plus : qu’est-ce qu’un caractère ?
Prenons un exemple assez bien connu. La couleur de notre peau ; c’est un caractère bien visible. Or, cette couleur est déterminée par la présence dans certaines de nos cellules d’un pigment noir, la mélanine, qui résulte de la transformation induite par le soleil d’une molécule apportée par l’alimentation, la tyrosine. Mais pour que cette transformation, responsable de votre beau teint cuivré en été, ait lieu, il est nécessaire que la réaction chimique qui provoque cette transformation soit catalysée par une enzyme spécifique. Or, certains sont noirs, d’autres sont très bruns ou très blancs et d’autres enfin sont tellement blancs qu’on les qualifie d’albinos. La fabrication de la mélanine par nos mélanocytes n’est donc pas égale pour tous. C’est un caractère héréditaire, étroitement lié au fonctionnement de cette fameuse enzyme. Bien que la réalité soit un peu plus complexe, on peut se contenter de cette explication.
Les albinos ne possèdent pas cette enzyme dans leurs cellules ou du moins elle est inopérante, mal formée, mal configurée, dirait-on, comme d’un logiciel. Sa synthèse dépend d’un gène, c’est-à-dire d’un segment d’ADN, ou plus précisément d’une séquence de nucléotides. Voilà comment un gène, en contrôlant un phénotype à l’échelle moléculaire, peut influencer d’une manière plus ou moins discrète le phénotype apparent de l’individu. Ce phénotype se décline donc bien à différentes échelles : tout d’abord à l’échelle de la molécule, l’enzyme, c’est-à-dire une protéine, ensuite à l’échelle de la cellule, les cellules de la peau ou mélanocytes contenant le fameux pigment noir et enfin à l’échelle de l’organisme, le phénotype couleur de la peau dépendant de cette mélanine. C’est bien entendu ce dernier qui est le seul visible à l’œil nu.
Cependant, il est aisé de constater qu’il y a des différences importantes d’un individu à l’autre en fonction de son exposition au soleil. On peut donc en déduire que les facteurs de l’environnement – en l’occurrence les rayons UV du soleil – influencent grandement les phénotypes. N’en déplaise à certains, nous ne sommes donc pas le résultat brut de l’expression de nos gènes.
Comment cette séquence codée de nucléotides peut-elle induire la synthèse d’une enzyme, spécifique d’une réaction chimique donnée, plus ou moins indispensable à la vie ? Comment ce code à quatre lettres de l’ADN peut-il être traduit en une molécule enzymatique ?
Pour répondre à cette interrogation il est nécessaire de connaître la nature chimique de l’enzyme et sa structure moléculaire. Tout d’abord une enzyme est une protéine, et une protéine est une molécule de type polymère qui résulte de la condensation d’unités plus petites, appelées acides aminés, qui se comportent à la fois comme des acides faibles et des bases faibles. Ces acides aminés, unis entre eux par des liaisons de condensation résultant de la réaction entre la fonction acide de l’un et la fonction basique ou plus exactement amine de l’autre, forment, dans un premier temps, des longues chaînes linéaires qui peuvent ensuite s’enrouler de manière complexe et prendre alors des configurations spatiales en rapport avec leur fonction catalytique spécifique. On peut d’ores et déjà remarquer une grande similitude morphologique entre l’ADN et les protéines ; ces deux molécules ont la forme de longs filaments constitués par des enchaînements d’unités plus petites. Ressemblance morphologique mais pas structurelle. Ces acides aminés sont-ils tous semblables ? Si c’était le cas, on ne voit pas comment la séquence des nucléotides de l’ADN pourrait transmettre une quelconque information sur le caractère spécifique de la molécule de protéine. En revanche, si l’on admet qu’il existe des acides aminés différents, alors l’idée de codage prend tout son sens. Car, comme pour l’ADN, on peut remarquer, par exemple, que l’enchaînement aa1–aa2–aa2–aa2–aa2, n’est pas le même que aa2–aa2–aa1–aa2–aa2. Or, c’est précisément ce que révèle l’analyse chimique des protéines, au sein desquelles on a pu identifier et isoler avec une très grande précision vingt acides aminés différents.
Ce constat nous incite à nous poser une nouvelle question, pour le moins embarrassante. Comment une molécule codée par des séquences de quatre signaux – l’ADN – peut-elle être traduite en une autre molécule – la protéine –, également séquencée, certes, mais à partir de vingt signaux ? A priori cela ne semble pas correspondre.
Comme les chercheurs des années soixante, envisageons quelques hypothèses purement mathématiques. Si l’on admet qu’un nucléotide code pour un acide aminé, il est évident qu’en effet cela ne marche pas. L’ADN ne pourrait assembler dans ces conditions que quatre types d’acides aminés. Si on compte sur une combinaison de deux nucléotides, les choses s’améliorent grandement. En effet, une séquence d’ADN disposerait alors de 42 combinaisons possibles, soit seize en tout. Par exemple, le doublet AA pourrait coder pour l’acide aminé leucine, AT pour la valine, AC pour la glycine, etc. Les vingt acides aminés portent chacun un nom qu’il n’y a, bien sûr, aucun intérêt à retenir ; ils ne sont cités ici que pour la commodité de l’exposé. Mais, dans l’hypothèse des doublets, il y aurait encore quatre acides aminés laissés pour compte. Passons à la combinaison immédiatement supérieure, c’est-à-dire trois nucléotides codant pour un acide aminé. On a alors 43 manières, soit soixante-quatre possibilités de coder un acide aminé. Alors là, il y a pléthore, l’ADN contient beaucoup plus d’informations que nécessaire pour assembler les acides aminés d’une protéine enzymatique et c’est évidemment cette solution qu’a choisie la nature.
Imaginons la séquence suivante d’ADN faisant partie d’un gène qui coderait pour une molécule de protéine, une enzyme, par exemple :
Séquence de 4 nucléotides du gène codant pour une enzyme donnée :
----- AAA -------AAT -------ATA -------TAA ------
—phénylalanine—leucine—tyrosine—isoleucine—
Séquence d’acides aminés correspondante
On voit bien qu’à une molécule codée – l’ADN – correspond une autre molécule, la protéine, également séquencée d’une manière ordonnée. Mais alors à quoi peut bien servir ce surplus d’informations contenu dans la molécule d’ADN ?
Il existe en effet soixante-quatre triplets de nucléotides pour assembler vingt acides aminés différents seulement. Et bien, la nature est prévoyante et une petite erreur est toujours possible aux différents moments de la vie cellulaire au cours desquels l’ADN est sollicité. Lors des divisions cellulaires, par exemple, indispensables à la croissance des organismes et au renouvellement de leurs cellules, des chromatides sont synthétisées, c’est-à-dire des molécules d’ADN qui doivent être strictement conformes à la molécule d’origine qui a servi de matrice. Cette réplication de l’ADN, grâce au jeu de la complémentarité des bases (A-T d’une part et C-G de l’autre), est un processus, certes d’une très grande fiabilité, mais duquel un petit incident aléatoire – la substitution d’un nucléotide par un autre par exemple – ne peut pas être totalement exclu. On peut d’ailleurs imaginer d’autres accidents ponctuels de ce type : l’insertion ou au contraire la perte d’un nucléotide dans la séquence d’ADN. La signification du message peut en être largement affectée.
Dans le schéma précédent, nous avons vu que le triplet AAT correspondait à la leucine ; supposons que le troisième nucléotide de ce triplet – T – soit remplacé par un nucléotide à adénine (A), le code est changé et AAA gouvernera la mise en place de la phénylalanine à la place de la leucine. Du coup, la protéine synthétisée n’est plus la même, sa fonction peut être profondément modifiée, voire carrément supprimée, ce qui pourra entraîner des conséquences plus ou moins graves sur le phénotype de l’individu. On tient là l’explication très schématique, mais suffisante, de la plupart des maladies génétiques. Une telle substitution d’un nucléotide dans la séquence d’un gène est une mutation.
D'après le livre L'ADN en question(s). Editions L'Harmattan.