Comment supprimer les doublons dans Excel (4 méthodes)
Quatre méthodes pour trouver et supprimer les doublons dans Excel — de l'outil intégré aux formules, Power Query et l'IA.
Vous fusionnez deux listes clients. Vous importez les ventes du trimestre dernier à côté de celles du trimestre en cours. Vous extrayez des enregistrements d'un export CRM et les collez sous la version d'hier. Quelque part dans ces opérations, des doublons se sont glissés — et maintenant vos totaux sont faux, votre publipostage envoie deux lettres à la même personne, et votre tableau croisé dynamique compte une vente deux fois.
Les doublons sont le problème de qualité de données le plus courant dans Excel, et l'un des plus dangereux. Ils ne s'annoncent pas. Ils restent tranquillement dans vos données, gonflant les chiffres et corrompant les analyses jusqu'à ce que quelqu'un remarque que le chiffre d'affaires ne correspond pas au relevé bancaire.
Voici quatre méthodes pour les trouver et les supprimer — de la plus simple à la plus puissante.
Méthode 1 : Le bouton "Supprimer les doublons" intégré
Excel dispose d'un outil dédié, et pour les cas simples c'est tout ce qu'il vous faut.
Étapes :
- Cliquez n'importe où dans votre plage de données.
- Allez dans l'onglet Données → Supprimer les doublons.
- Excel sélectionne toutes les colonnes par défaut. Décochez celles que vous souhaitez ignorer lors de la comparaison (par exemple, vous pourriez ignorer une colonne "Date d'ajout" et ne comparer que sur le nom et l'e-mail).
- Cliquez sur OK.
- Excel vous indique combien de doublons ont été supprimés et combien de valeurs uniques restent.
Ce qu'il faut savoir :
- Excel conserve la première occurrence et supprime les suivantes. Si vous préférez garder l'entrée la plus récente, triez vos données par date (la plus récente en premier) avant de lancer l'outil.
- C'est destructif — les doublons sont supprimés immédiatement. Sauvegardez une copie de votre fichier d'abord ou travaillez sur un duplicata de la feuille.
- La comparaison est exacte. "Jean Dupont" et "jean dupont" sont différents. "123 rue Principale" et "123 Rue Principale" sont différents. C'est plus important qu'on ne le croit.
Pour la plupart des nettoyages ponctuels, c'est la bonne méthode. Rapide, intégrée, aucune formule nécessaire.
Méthode 2 : COUNTIF pour signaler les doublons avant de supprimer
Parfois, vous ne voulez pas supprimer les doublons à l'aveugle — vous voulez les voir d'abord, décider lesquels garder, ou comprendre pourquoi ils existent. NB.SI vous permet de signaler les doublons sans toucher à vos données.
Étapes :
- Ajoutez une colonne auxiliaire à côté de vos données (par ex. colonne F, en-tête : "Doublon ?").
- Dans la cellule F2, entrez cette formule :
=SI(NB.SI($A$2:$A2;A2)>1;"Doublon";"")
Remplacez $A$2:$A2 par la colonne à vérifier (par ex. les adresses e-mail). La référence mixte $A$2:$A2 s'étend quand vous tirez la formule vers le bas — c'est ce qui permet de détecter la deuxième occurrence et les suivantes.
- Tirez la formule jusqu'à la dernière ligne de vos données.
- Filtrez la colonne F sur "Doublon" pour examiner les lignes signalées.
- Supprimez les lignes signalées manuellement, ou conservez-les si elles s'avèrent légitimes.
Vérifier sur plusieurs colonnes :
Pour signaler les doublons sur une combinaison de colonnes (par ex. prénom + nom + e-mail), utilisez une vérification concaténée :
=SI(NB.SI.ENS($A$2:$A2;A2;$B$2:$B2;B2;$C$2:$C2;C2)>1;"Doublon";"")
Pourquoi utiliser cette méthode plutôt que la méthode 1 : Vous pouvez examiner avant de supprimer. Dans les jeux de données où les doublons peuvent être légitimes (même nom, personne différente), cette étape supplémentaire évite la perte de données.
Méthode 3 : La mise en forme conditionnelle pour mettre en évidence les doublons
Si vous préférez un repérage visuel plutôt qu'une colonne de formules, la mise en forme conditionnelle colore directement les valeurs en double dans les cellules.
Étapes :
- Sélectionnez la plage à vérifier (par ex. la colonne e-mail, A2:A5000).
- Allez dans l'onglet Accueil → Mise en forme conditionnelle → Règles de mise en surbrillance des cellules → Valeurs en double.
- Choisissez un style de formatage (le remplissage rouge par défaut fonctionne bien).
- Cliquez sur OK.
Chaque cellule contenant une valeur qui apparaît plus d'une fois dans la plage est maintenant colorée — y compris la première occurrence.
Limites :
- Cela fonctionne sur une seule colonne. Vous ne pouvez pas mettre en évidence sur une combinaison de colonnes sans une règle de formule personnalisée.
- Toutes les occurrences sont colorées, pas seulement les extras. Vous devez encore décider laquelle garder.
- C'est uniquement visuel — rien n'est supprimé et rien n'est filtrable.
Quand c'est utile : Pour des audits rapides. Quand vous parcourez une liste et voulez repérer des tendances — peut-être que le même client apparaît cinq fois parce que cinq commerciaux différents l'ont saisi. C'est un problème de processus, pas seulement de données.
Méthode 4 : Power Query pour le dédoublonnage à grande échelle
Quand vous travaillez avec des dizaines de milliers de lignes, des sources de données actualisables ou des imports récurrents, Power Query est l'outil de niveau professionnel.
Étapes :
- Sélectionnez vos données et allez dans l'onglet Données → À partir d'un tableau/d'une plage pour les charger dans Power Query.
- Dans l'éditeur Power Query, sélectionnez la ou les colonnes sur lesquelles dédoublonner.
- Allez dans l'onglet Accueil → Supprimer les lignes → Supprimer les doublons.
- Cliquez sur Fermer et charger pour renvoyer les données nettoyées dans Excel.
Pourquoi Power Query est différent :
- Non destructif. Vos données sources restent intactes. Le résultat est un tableau séparé et actualisable.
- Répétable. La prochaine fois que vous mettez à jour les données sources, cliquez simplement sur Actualiser. Le dédoublonnage se relance automatiquement.
- Chaînable. Vous pouvez combiner le dédoublonnage avec d'autres transformations — renommer des colonnes, filtrer des lignes, fusionner des tables — dans un seul pipeline. Cela s'intègre bien aux patterns d'automatisation de reporting Excel.
- Gère les gros volumes. Power Query traite les données en dehors du moteur de feuille de calcul, donc il gère des centaines de milliers de lignes sans le ralentissement que vous auriez avec des formules NB.SI.
Le bémol : Power Query fait toujours de la correspondance exacte. "Jon Dupont" et "Jean Dupont" restent deux enregistrements distincts. Pour le type de données qui arrive de fichiers fournisseurs multiples ou d'extractions PDF, la correspondance exacte ne suffit pas toujours.
Les cas limites qu'Excel ne gère pas
Les quatre méthodes ci-dessus partagent la même limitation fondamentale : elles comparent les valeurs caractère par caractère. Si deux cellules ne sont pas des chaînes identiques, Excel les traite comme des enregistrements différents.
Les données du monde réel ne fonctionnent pas comme ça.
Noms quasi-identiques : "Jean Dupont", "J. Dupont", "Dupont Jean", "Jean DUPONT" — c'est probablement la même personne. Excel n'a aucun moyen de le savoir.
Variations d'adresses : "123 rue Principale", "123 Rue Principale", "123 r. Principale", "123 rue Principale, Appt 2" — même bâtiment, chaînes différentes.
Formatage incohérent : "ABC-1234" vs "ABC 1234" vs "abc1234". Numéros de téléphone avec et sans indicatif pays. Dates en texte dans trois formats différents.
Jeux de données fusionnés avec des schémas différents : Quand vous combinez des données de deux systèmes, le même client peut avoir des identifiants différents, des noms légèrement différents et des adresses saisies par des personnes différentes.
Vous pouvez écrire des formules de plus en plus complexes pour gérer certains de ces cas — des chaînes de SUPPRESPACE, MINUSCULE, SUBSTITUE, du rapprochement flou avec des colonnes auxiliaires. Mais chaque règle ajoutée est fragile, gère une variation spécifique et en manque d'autres. C'est exactement le type de spirale de maintenance décrit dans Le coût caché de l'automatisation Excel.
Si vos données étaient toujours propres et cohérentes, vous n'auriez pas de problème de doublons. Le désordre qui crée les doublons est le même désordre qui les rend difficiles à trouver.
Laissez l'IA gérer le dédoublonnage complexe
Un agent IA ne compare pas des chaînes de caractères. Il comprend le sens.
Dites-lui : "Dédoublonne cette liste clients. Fais la correspondance sur le nom et l'adresse, même s'ils sont légèrement différents. Signale les correspondances incertaines pour que je les vérifie."
L'agent lit "Jon Dupont au 123 rue Principale" et "Jean Dupont au 123 r. Principale" et reconnaît la même personne. Il voit "ABC-1234" et "abc 1234" et sait que c'est le même code produit. Il identifie que deux enregistrements partagent un numéro de téléphone mais ont des noms différents, et le signale au lieu de deviner.
Ce que ça donne concrètement :
"847 doublons exacts trouvés et supprimés. 23 correspondances probables identifiées sur la base de la similarité nom/adresse — voir l'onglet Vérification. 4 enregistrements signalés qui partagent une adresse e-mail mais ont des noms différents. Données originales conservées dans la feuille Sauvegarde."
Vous examinez 27 cas limites au lieu de parcourir 10 000 lignes. Les doublons évidents sont déjà supprimés. Les cas ambigus attendent votre jugement, avec les preuves présentées.
Pour les imports récurrents, c'est encore plus précieux. Si vous extrayez des données d'un PDF ou fusionnez des fichiers fournisseurs chaque semaine, les doublons ne sont pas un problème ponctuel — c'est un problème hebdomadaire. Au lieu de lancer Supprimer les doublons chaque lundi en espérant avoir tout attrapé, décrivez la règle une seule fois :
"Chaque fois que de nouvelles données arrivent, dédoublonne par rapport à la liste maître. Correspondances exactes : fusionner automatiquement. Correspondances floues : signaler pour vérification. Tout journaliser."
L'agent applique le même jugement à chaque fois, apprend quelles correspondances vous approuvez, et s'améliore pour résoudre les cas ambigus. Pas de formules à maintenir. Pas de VBA à déboguer. Pas de règles fragiles qui cassent quand les données changent — et elles changent toujours.
Pour une vue d'ensemble de ce que cette automatisation sans VBA donne sur différents workflows Excel, voyez comment les équipes remplacent les scripts par des instructions en langage naturel.
Vous nettoyez encore vos données à la main ?
Les doublons exacts, c'est facile. Ce sont les quasi-doublons, les correspondances floues, les décisions "est-ce le même client ?" qui mangent votre temps. C'est la partie qui vaut la peine d'être automatisée.
Découvrez comment Reflexion gère le dédoublonnage de données — envoyez-nous un fichier d'exemple et nous vous montrerons exactement ce que l'agent trouve. Ou réservez un appel rapide pour discuter de votre défi spécifique de nettoyage de données.
reflexion