Aide:Match et Split

Aide Publier un livre Match et Split

AVERTISSEMENT : La commande match n’est pas infaillible ! Il est donc nécessaire de vérifier la découpe entre les commandes match et split, et de corriger les erreurs qui peuvent s’y trouver. C’est pour cette raison que la procédure match & split se fait en deux étapes plutôt qu’une seule.

Aide : Manuel de Wikisource

Qu’est-ce qu’un Match et Split ?

Match et Split (détection des pages et découpage d’un texte) consiste à automatiser en partie le découpage d’un texte pour le placer en vis-à-vis des images d’un livre (un fac-similé).

L’objectif de cette automatisation partielle est de gagner du temps : si l’on dispose d’un texte relativement correct ou de bonne qualité, et que l’on veut le corriger à l’aide d’un fac-similé, il n’est pas nécessaire de découper et de recopier manuellement le texte page par page. Un robot fait cette opération et il ne reste plus qu’à s’occuper de la relecture.

Explications : vous devez disposer de trois éléments.

1. Un texte A qui semble correct mais qui n’est pas dans l’espace « Page ».

2. Des images (fac-similés) de toutes les pages d’un livre prêtes pour la correction en mode Page (texte et image côte à côte), mais le texte B extrait des fac-similés comporte trop de coquilles pour être lisible. On veut donc avoir le texte A à la place du texte B dans l’espace « Page » avant de le corriger.

3. Ce texte B qui fait face aux images doit être quand même un peu lisible : il faut en effet que le robot qui procédera au « Match » (pas au sens sportif du terme mais au sens d’appariement) ait suffisamment de repères pour qu’il soit capable de répartir, à la place du texte B illisible, le texte A qui est déjà correct.

Un texte A à découper, édité seul dans l’espace principal :

…outre que la cavalerie réglée est devenue beaucoup plus nombreuse, à commencer par le Prince le dénombrement de les écuries excède de beaucoup celles de ses prédécesseurs ; on avoit quelques chevaux de main, mais à cela près, on n’en nourrissoit point d’inutiles. Une grande Dame de ce pays-ci, à qui je vis des chevaux de remise, me répondit : ce n’est pas quil n’y en ait 70 dans nos écuries, mais il n’y en a point qui ait pû aller aujourd’hui. Quand Bassompiere rencontra cette lingere du pont-neuf, dont il fait une singuliére histoire, il n’avoit qu’un cheval entre ses jambes : c’étoit l’homme le plus brillant de son temps ; aujourd’hui le plus pauvre allant en fiacre, en occupe deux. Il est à remarquer encore que les chevaux répandus alors dans les campagnes où leurs maîtres habitoient, engraissoient de leur fumier la prairie…

etc.

match et split

Le texte A lisible est découpé et placé vis-à-vis des images des pages correspondantes…

… et remplace dans l’espace « Page » le texte B illisible qui a été extrait du fac-similé.

Description

Les commandes « match » et « split » permettent de transférer un texte vers l’espace page, de manière semi-automatique. Le fichier DjVu correspondant au texte que l’on va transférer doit contenir lui aussi une couche texte d’ocr, même si la qualité en est médiocre.

Le transfert est effectué par un robot, qui répond à votre navigateur^[1]. Pour pouvoir l’utiliser, vous devez activer la case correspondante dans vos préférences de compte, dans la section Édition de l’onglet gadgets :

\square

Commandes interactives Match et Split (utilise le robot Phe-Bot)

Déroulement

Le robot s’utilise en deux temps :

détection des pages (match) ;
découpage (split).

La file d’attente des tâches en cours de ce robot est consultable ici.

Préparation du texte

Avant toute chose, il convient de s’assurer que le texte que l’on va importer correspond à l’édition du livre. Si le texte ne correspond pas et que vous n’avez pas le texte de la bonne édition, c’est à vous de voir si l’import vous fera tout de même gagner du temps pour la correction et si les différences entre les versions ne rendent pas impossible le découpage du texte par le robot. Si vous n’avez pas l’intention de corriger le texte, il ne faut pas importer une édition différente.

Avant d’effectuer un match, il peut être judicieux d’effectuer certaines transformations : faire la typographie (guide typographique) et la mise en forme du texte si nécessaire (mise en forme). Cela évite de devoir faire ces corrections page par page.

Déplacez les catégories, les interwikis et tous les éléments étrangers au texte se trouvant en fin de page vers le début de la page (avant le __MATCH__ que vous aurez inséré) pour éviter qu’ils se retrouvent dans la dernière Page:.

Match

Syntaxe

Avant de commencer, il faut insérer au début du texte à transférer (en général dans l’espace principal) un marqueur __MATCH__ qui indique au robot où se trouve le fac-similé correspondant à la première page dans l’espace « Page ».

La syntaxe est :

==__MATCH__:[[Page:xxx.djvu]]==

ou ==__MATCH__:[[Page:xxx.djvu|step=2]]== dans le cas où le facsimilé doit être reconnu une page sur deux (par exemple, les traductions en apposition ou les livres dont les pages ne sont pas imprimées recto-verso)

où « Page:xxx.djvu » est le nom de la page où commence votre texte.

Ce marqueur est générable par le bouton de la barre d’outil (ancienne version) ou par les balises

==__MATCH__:[[]]==

que vous trouverez dans les outils fournis sous la fenêtre d’édition (Edittools).

Exemple

Au début de la page [[==__MATCH__]]'', juste avant le texte à transférer dans l’espace « Page » : <div class="text"> {| style="border:1px solid #efefef;" | <nowiki>==__MATCH__:[[Page:Marivaux - Théâtre, vol. II.djvu/124]]==

PERSONNAGES

ARAMINTE, fille de Madame Argante.
DORANTE, neveu de Monsieur Remy.
MONSIEUR REMY, procureur.
MADAME ARGANTE.
ARLEQUIN, valet d'Araminte.
DUBOIS, ancien valet de Dorante.
MARTON, suivante d'Araminte.
LE COMTE.
Un domestique parlant.
Un garçon joaillier.

La scène est chez Madame Argante.

suite du texte… |}

Vous pouvez voir ici l’insertion de MATCH au début du texte. Le nom de page « Page:Marivaux - Théâtre, vol. II.djvu/124 » indique au robot qu’il doit commencer à la page 124 du livre Livre:Marivaux - Théâtre, vol. II.djvu qui correspond au fichier Fichier:Marivaux - Théâtre, vol. II.djvu.

Une fois la page sauvegardée, il vous faut alors vous rendre sur la page de l’outil disponible sur la Tool forge de Wikimédia : [1] (onglet match). Saisissez le Language code : fr, puis le nom de la page de l’espace principal contenant le __MATCH__ : Les Fausses Confidences dans notre exemple. Cliquez alors sur le bouton Run a match job.

Résultat

Au bout d’un certain temps, l’affichage va s’actualiser, et vous verrez que des liens vers les pages de l’espace « Page » ont été introduits dans le texte.

Préparation avant le split

Entre les deux étapes, il est conseillé de vérifier le travail du robot : vérifier que les débuts de pages sont à la bonne place, que des références <ref>…</ref> ou des modèles n’ont pas été coupés en deux par une limite de page et surtout vérifier qu’un « no match » n’apparaît pas dans le texte.

no match

« no match », s’il est présent, indique la position où le robot a perdu la synchronisation avec le texte. Dans ce cas il faut refaire un __MATCH__ à cette position avec le bon numéro de page. La présence d’un « no match » peut aussi indiquer que la version du texte ne correspond pas à l’édition du scan.

Split

Le split est l’étape de l’import du texte dans les pages : le robot va transférer le texte selon le découpage qui a été fait à l’étape précédente.

Pour cela il suffit de revenir sur la page de l’outil sur la Tool forge : [2] (onglet split) puis de saisir les mêmes champs que précédemment : fr pour Language code et Les Fausses Confidences dans notre exemple pour Title of page. Cliquez alors sur le bouton Run a split job.

L’opération est plus longue que celle du match et peut demander plus ou moins de temps suivant le nombre de pages à créer/modifier et la sollicitation du robot par d’autres contributeurs. Vous pouvez consulter les logs dans l’onglet status : [3] pour voir où en est le robot dans le découpage de votre texte.

Lorsque l’import est terminé, le robot procède à la transclusion, c’est-à-dire qu’il remplace tout ce qui se trouve après __MATCH__ par la balise <pages index /> qui permet d’afficher dans une page un texte qui se trouve dans l’espace « Page ».

Pour notre exemple ci-dessus, nous obtiendrons :

<pages index="Marivaux - Théâtre, vol. II.djvu" from=124 to=236 />

qui se trouve dans Les Fausses Confidences.

Pour configurer cette balise, vous pouvez consulter Aide:Transclusion.

Remarques

Afin de préserver les paragraphes, un <nowiki /> est ajouté au début de chaque page commençant par une ligne vide.
match détecte la présence du tag <poem> et l’ajoute en début et fin de page
split écrase les pages qui existent déjà, si elles sont non corrigées et non transcluses. Si la première ou la dernière page de la liste existe déjà et qu’elle est transcluse, split considère qu’il s’agit d’un début de chapitre en milieu de page, et crée deux sections sur la page.
Lors d’un M/S par chapitre d’un livre, il faut absolument éviter de faire une double transclusion de type Texte entier avant d’avoir fini tous les splits, sinon, il peut y avoir un problème pour la reconnaissance des sections.

Voir aussi

Catégorie:Livres à découper

↑ Le robot communique avec le navigateur avec la technique « ajax ».

[1] Le robot communique avec le navigateur avec la technique « ajax ».

[1]