Linux

Manipuler des fichiers HTML et XML à partir de la ligne Commnad

Le World Wide Web Consortium (W3C) dispose d’un certain nombre d’outils gratuits disponibles pour aider à la génération et au traitement corrects des fichiers HTML et XML. Le package HTML-XML est un ensemble d’utilitaires simples permettant de manipuler des fichiers HTML et XML à partir de la ligne de commande. Il est disponible pour de nombreuses distributions Linux différentes et peut être utile pour ceux qui doivent traiter régulièrement des fichiers HTML ou XML.

Pour installer le package sur Ubuntu, utilisez :

Il y a 31 outils dans ce package, voici un résumé de ce qu’ils peuvent faire :

  • cexport – crée un fichier d’en-tête des déclarations exportées à partir d’un fichier C
  • hxaddid – ajoute des identifiants aux éléments sélectionnés
  • hxcite- remplacer les références bibliographiques par des hyperliens
  • hxcite-mkbib- développer les références et créer une bibliographie
  • hxcopy- copie un fichier HTML tout en préservant les liens relatifs
  • hxcount – compte les éléments et les attributs dans les fichiers HTML ou XML
  • hxextract – extrait les éléments sélectionnés
  • hxclean – appliquer des heuristiques pour corriger un fichier HTML
  • hxprune – supprime les éléments marqués d’un fichier HTML
  • hxincl- développer les fichiers HTML ou XML inclus
  • hxindex – crée un index trié par ordre alphabétique
  • hxmkbib – créer une bibliographie à partir d’un modèle
  • hxmultitoc- créer une table des matières pour un ensemble de fichiers HTML
  • hxname2id- déplace certains ID= ou NAME= des éléments A vers leurs parents
  • hxnormalize – joliment imprimer un fichier HTML
  • hxnum – en-têtes de section de numéro dans un fichier HTML
  • hxpipe – convertit XML en un format plus facile à analyser avec Perl ou AWK
  • hxprintlinks- nombre de liens et ajout d’un tableau d’URL à la fin d’un fichier HTML
  • hxremove – supprime les éléments sélectionnés d’un fichier XML
  • hxtabletrans- transpose un tableau HTML ou XHTML
  • hxtoc – insérer une table des matières dans un fichier HTML
  • hxuncdata – remplace les sections CDATA par des entités de caractères
  • hxunent – remplace les entités de caractères prédéfinies HTML par UTF-8
  • hxunpipe – reconvertir la sortie du tube au format XML
  • hxunxmlns – remplacer les « noms globaux » par des préfixes d’espace de noms XML
  • hxwls – liste les liens dans un fichier HTML
  • hxxmlns – remplacez les préfixes d’espace de noms XML par des « noms globaux »
  • asc2xml, xml2asc- convertir entre UTF8 et entités
  • hxref – générer des références croisées
  • hxselect- extrait les éléments qui correspondent à un sélecteur (CSS)
  • Psssssst :  Comment changer mon mot de passe administrateur dans Linux Mint ?

    Pour vous présenter la puissance de cet ensemble d’outils, voici quelques exemples sur la façon dont vous utiliseriez quelques-unes des commandes.

    La commande « hxnormalize » reformatera un fichier HTML afin qu’il soit facile à lire et bien formaté. Pour tester cette commande, nous allons créer un code HTML moche. Sélectionnez et copiez les lignes suivantes et collez-les directement dans une fenêtre de terminal.

    Cela créera un fichier appelé test.html. Le HTML manque certaines des balises de fermeture et est écrit sur une seule ligne. La commande hxnormalize reformatera le fichier et écrira la jolie version sur la sortie standard (stdout). Voici comment exécuter la commande :

    L’indicateur « -e » indique à hxnormalize d’insérer toutes les balises de fermeture manquantes.

    Vous pouvez également exécuter la commande sur une page Web en remplaçant « test.html » par une URL, par exemple :

    La commande hxwls analysera un fichier HTML local ou un site Web et répertoriera les liens dans le code HTML. Par example:

    Voici les premières lignes de sortie du site Web Make Tech Easier :

    lxwls

    La commande hxtabletrans modifie une table afin que les lignes deviennent des colonnes et que les colonnes deviennent des lignes.

    Psssssst :  Comment utiliser et modifier le fichier hosts sous Linux

    Créons un fichier HTML avec un tableau simple. Sélectionnez et copiez les lignes suivantes, puis collez-les directement dans une fenêtre de terminal.

    Le résultat est un fichier appelé table.html. Dans un navigateur Web, le tableau ressemblerait à ceci :

    Jill Smith 50 Eve Jackson 94

    Si vous exécutez la commande hxtabletrans, elle écrira la table transposée sur la sortie standard. Les résultats peuvent être redirigés vers un autre fichier comme celui-ci :

    Le nouveau fichier, table2.html, affichera Jill Smith et Eve Jackson en colonnes plutôt qu’en lignes comme dans l’original. Le tableau résultant sera quelque chose comme ceci :

    Jill Eve Smith Jackson 50 94

    La plupart des commandes sont utilisées de la même manière que les exemples ci-dessus, c’est-à-dire que vous devez spécifier un fichier ou une URL à traiter et la sortie est écrite dans la sortie standard. Essayez d’expérimenter avec les différentes commandes car elles pourraient vous être utiles.

    Si vous avez des questions sur les utilitaires HTML-XML, n’hésitez pas à les poser dans les commentaires ci-dessous et nous verrons si nous pouvons vous aider.

    Cet article est-il utile ? Oui Non

    Bouton retour en haut de la page

    Adblock détecté

    Veuillez désactiver votre bloqueur de publicités pour pouvoir visualiser le contenu de la page. Pour un site indépendant avec du contenu gratuit, c’est une question de vie ou de mort d’avoir de la publicité. Merci de votre compréhension! Merci