Publié 15 avril 20264 min de lecture

Comment traduire un PDF scanné

Traduire un PDF scanné n’est pas toujours un travail à faire avec OCR en premier. Beaucoup de fichiers à l’apparence scannée peuvent être traduits directement avec AI Edit, et l’OCR sert surtout quand le document est vraiment image-only.

ParAlessandra MaldiniRédactrice Technique

Traduire un PDF scanné ressemble à une seule tâche, mais en pratique cela recouvre souvent deux problèmes distincts :

changer la langue du document
s’assurer que le fichier est assez lisible pour que le logiciel puisse travailler dessus

Ces deux problèmes ne demandent pas toujours la même première étape.

L’erreur classique consiste à croire que tout PDF scanné doit forcément passer par l’OCR avant toute chose. En réalité, beaucoup de PDF à l’apparence scannée contiennent déjà assez de structure texte exploitable pour commencer directement avec AI Edit.

Commencer par AI Edit quand le fichier est déjà exploitable

Si le document permet déjà au système de détecter et de cibler le texte, même imparfaitement, AI Edit est généralement la manière la plus rapide de le traduire.

Cela compte parce que le vrai objectif n’est presque jamais "extraire tout le texte dans un fichier séparé".

Le besoin réel ressemble plutôt à ceci :

traduire une brochure pour un autre marché
passer un contrat scanné en anglais
localiser une politique interne en PDF
adapter une fiche produit sans reconstruire la mise en page dans une autre application

Dans ces situations, AI Edit est utile parce que tu pars du PDF existant au lieu de recréer le document ailleurs.

Pourquoi AI Edit est souvent le bon premier mouvement

Commencer par AI Edit garde le workflow court.

Beaucoup de fichiers décrits comme des "PDF scannés" sont en réalité :

des PDF hybrides avec encore une partie de texte natif
des fichiers déjà OCRisés auparavant
des exports qui ont seulement l’air d’un scan
des documents mixtes où certaines pages sont numériques et d’autres très image

Si le texte peut déjà être ciblé correctement, il n’y a pas de raison d’ajouter une étape d’OCR avant chaque travail de traduction.

Le point pratique est simple : la traduction est déjà une transformation. Il ne faut pas en ajouter une deuxième si le document n’en a pas réellement besoin.

Ce qu’AI Edit fait bien pendant une traduction

AI Edit est particulièrement utile quand tu veux que la traduction se fasse sur le PDF vivant, et non sur un texte brut détaché.

Exemples de demandes réalistes :

"Translate this brochure to English."
"Translate pages 2 to 5 into French."
"Keep the tone formal and translate the contract into Spanish."
"Translate the document, but keep product names in English."
"Translate the PDF and simplify the wording for a non-technical audience."

Le workflow devient alors plus sérieux qu’une simple extraction de texte.

Tu ne changes pas seulement la langue. Tu cherches à traduire le document que tu as déjà, avec le moins de reconstruction possible.

Ce qu’il faut attendre de la préservation de mise en page

Une traduction crée toujours de la pression sur la mise en page.

Certaines langues sont plus longues. Certains titres s’allongent. Une zone de texte compacte peut devenir plus serrée après traduction.

La promesse réaliste n’est donc pas : "la mise en page restera toujours identique".

La promesse utile est plutôt :

AI Edit essaie de préserver au maximum la structure de la page
dans beaucoup de cas, le résultat traduit est déjà suffisamment proche
si une section bouge, tu corriges seulement cette partie au lieu de reconstruire tout le document

Cela reste un workflow bien meilleur que repartir de zéro dans une autre application bureautique ou de mise en page.

Si quelques éléments bougent, le travail n’est pas perdu

C’est un point important, surtout pour les PDF scannés.

Même quand la traduction crée de la tension à certains endroits, le workflow ne s’effondre pas.

La dernière étape pratique peut rester simple :

ajuster un bloc devenu trop long
replacer un élément
nettoyer un titre qui a besoin de plus de place
corriger une seule page au lieu de refaire tout le fichier

C’est là qu’une petite reprise manuelle peut aider lorsqu’une page traduite a besoin d’un nettoyage visuel.

Utiliser l’OCR seulement quand le scan est vraiment image-only

L’OCR doit être le fallback, pas le réflexe.

Il faut l’utiliser quand le PDF scanné se comporte comme une suite d’images plutôt que comme du texte.

Signes typiques :

le texte ne peut pas être sélectionné
la recherche ne retrouve pas les mots visibles
le copier-coller ne renvoie rien d’utile
le fichier se comporte comme une grande image par page

À ce stade, l’OCR devient nécessaire parce que le système a d’abord besoin d’une couche texte exploitable.

Son rôle est précis :

ajouter une couche texte searchable
rendre le document plus facile à cibler
créer une meilleure base pour la traduction ensuite

L’OCR ne reconstruit pas magiquement le fichier source d’origine. Il rend simplement le scan plus exploitable.

Workflow pratique

Pour la plupart des traductions sur des PDF à l’apparence scannée, l’ordre utile est :

essayer AI Edit d’abord
relire le résultat traduit
faire de petits ajustements manuels si une zone a besoin d’un nettoyage visuel
utiliser PDF OCR seulement si le scan est trop image-only pour être ciblé correctement

Cet ordre est généralement plus rapide que de traiter chaque PDF scanné comme un gros projet de récupération dès le départ.