[Résolu]Supression des commandes LaTeX pour analyse lexicale

Tout ce qui concerne l'utilisation ou l'installation de LaTeX.

Modérateur: gdm_tex

Règles du forum
Merci d'éviter le style SMS dans vos messages et de penser à utiliser la fonction Recherche avant de poster un message. Pour joindre des fichiers à vos messages, consulter ce sujet.
> Penser à utiliser les balises Code pour poster du code.

[Résolu]Supression des commandes LaTeX pour analyse lexicale

Messagepar anonyme74170 » Vendredi 12 Juillet 2019, 10:39

Bonjour,

je souhaite faire de l’analyse lexicale (text mining) à partir de documents rédigés en LaTeX. Je voudrais supprimer toutes les commandes LaTeX pour obtenir un texte brut, dépourvu dans ce cas des éléments de structures et autres.

1) comment pourrait-on inventorier l'ensemble des commandes utilisées dans le document pour les supprimer ensuite ?
2) ou alors existe-t-il un moyen de le supprimer directement ?

Travailler directement à partir du PDF pose pas mal de problèmes d'où ma volonté actuelle d'aller sur le fichier source.

Merci bien pour vos réponses.
AO
Dernière édition par anonyme74170 le Vendredi 12 Juillet 2019, 18:54, édité 1 fois.
anonyme74170
Hecto-utilisateur
 
Messages: 76
Inscription: Jeudi 21 Avril 2016, 10:34
Statut actuel: Actif et salarié

Publicité

Re: Supression des commandes LaTeX pour analyse lexicale

Messagepar rebouxo » Vendredi 12 Juillet 2019, 14:09

Il y a sous linux un utilitaire qui permet de récupérer le texte d'un pdf : c'est pdftotext.
Olivier
A line is a point that went for a walk. Paul Klee
Par solidarité, pas de MP
rebouxo
Modérateur
 
Messages: 6927
Inscription: Mercredi 15 Février 2006, 13:18
Localisation: le havre
Statut actuel: Actif et salarié | Enseignant

Re: Supression des commandes LaTeX pour analyse lexicale

Messagepar gigiair » Vendredi 12 Juillet 2019, 15:25

Supprimer directement les commandes latex est possible, mais le résultat risque d'être un peu décevant. Certaines constructions syntaxiques sont complexes et sans les analyser le résultat risque d'être bien éloigné de celui qui est attendu. Il faudrait effectuer le travail d'analyse qui est fait par le compilateur latex. Bon courage...

pdftotext signalé par Olivier est une bonne solution. Il existe une version pour GNU/Linux, une pour MS-Windows et une pour MacIntosh. Voir sur le site http://www.xpdfreader.com/download.html

Une autre solution pourrait être d'utiliser pandoc qui permet les conversions entre presque tous les formats de document, en particulier entre LaTeX et txt.
https://pandoc.org/installing.html
Il peut y avoir des fignolages à effectuer. Remplacer ou supprimer des commandes qui n'ont pas été traitées. Ça peut se faire à coup de recherche et remplacement d'expressions régulières (ou non), ce qui n'est pas forcément toujours évident.
JJR.
LaTeXien migrateur.
gigiair
Exa-utilisateur
 
Messages: 2409
Inscription: Samedi 08 Juillet 2006, 19:56
Localisation: Saint Bonnet Elvert
Statut actuel: Actif et salarié

Re: Supression des commandes LaTeX pour analyse lexicale

Messagepar anonyme74170 » Vendredi 12 Juillet 2019, 17:51

Bonjour à vous deux,

meci bien pour ces solutions. J'avais oublié pandoc ... honte à moi ;-)
Bon We.
AO
anonyme74170
Hecto-utilisateur
 
Messages: 76
Inscription: Jeudi 21 Avril 2016, 10:34
Statut actuel: Actif et salarié


Retourner vers LaTeX

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Bing [Bot], DotBot [Crawler], Google [Bot], Google Adsense [Bot], Grapeshot [Crawler], Magpie [Crawler], Proximic [Spider] et 20 invités