SEO, Webperf et choses bizarres…

22 Nov 2018

Référencer un PDF converti en HTML ?

Depuis de nombreuses ann√©es, beaucoup de sites web utilisent les PDF comme forme de contenu t√©l√©chargeable… et c’est toujours bel et bien le cas en 2018.

Malheureusement, qui dit PDF, dit forc√©ment perte d’informations pr√©cieuses sur les performances de ce type de pages.

On sait aujourd’hui que les PDF se rank “correctement” sur Google.
Googlebot est capable de les indexer, mais il est difficile de faire un suivi correct via Analytics.

Pourquoi on s’amuserait pas √† traduire directement ces fichiers au format HTML ?

Avant de commencer √† lire le post, sachez que ceci est une exp√©rimentation, je n’ai √† l’heure actuelle aucune id√©e du r√©sultat. Le thread risque d’ailleurs d’√©voluer au fil du temps et des √©volutions observ√©es.

Ce n’est donc pour le moment pas une strat√©gie de ranking viable.

C’est une enti√®re perte de temps, totalement assum√© pour le bien de la science et du SEO.

Convertir un PDF en HTML va nous donner un avantage simple : beaucoup plus d’options de modification pour tenter de ranker les premi√®res places !

Voici donc notre belle TO-DO LIST :

  1. Conversion par lots de fichiers PDF en HTML
  2. Insérer les codes de suivi analytics
  3. Ins√©rer tous les tags et balises de r√©f√©rencement (sch√©ma.org, meta…)
  4. Redirection des PDF d’origine vers la nouvelle URL
  5. Faire un blocage robot.txt des fichiers .pdf

De nombreux sites web proposent la conversion de PDF à HTML.

Comme d’habitude, j’ai un pr√©f√©rence pour les outils utilisable en local, moins intrusif et permets souvent l’automatisation de process (la conversion par lots par exemple).

pdf2htmlEX

pdf2htmlEX est un projet githut, utilitaire en ligne de commande multiplateforme totalement gratuite qui permet une conversion presque parfaite.

Comme premier PDF cobaye s√©lectionnons une magnifique recette de cuisine : Poulet Jerk √† la Jama√Įcaine

Comme vous pouvez le voir, très peu de modifications ont été effectuées suite à la conversion.

Le document original est en anglais, en premier lieu j’ai donc fait une belle traduction vulgaire puis j’ai juste ajout√© quelques donn√©es structur√©es et un title √† la page.

Comme vous pouvez le voir, le rendu est un vrai bouilli pour le moteur…

Même W3C ne veut pas à en entendre parler :

Mais volontairement, on ne va faire aucune modification du code HTML. On limite au maximum les actions manuelles… C’est toujours plus rigolo quand on peut tout automatiser non ?

Maintenant que le lien est plac√©, nous n’avons plus qu’√† attendre que Google vienne lire ce magnifique article et voir comment il d√©cide de positionner ce magnifique PDF converti.

Au vu du nombre de lignes dans le fichier HTML j’ai un gros doute sur la viabilit√© de ce projet… Mais l’espoir fait vivre

LET’S HOPE - Affaire √† suivre…

Update du 2404

Mais je vous jure, j’√©tais trop occup√© !

L’URL est aujourd’hui “bien” index√©e. Bien entre guillemet car en voulant faire le moins de correctif possible, des erreurs d’encodage ce sont ajout√© et tous les accents de la balise title et de la metadescription ont saut√©.

Je viens donc d’apporter un l√©ger correctif afin de v√©rifier si la page est capable maintenant de ranker sur des mots cl√©s potentiellement int√©ressant : “Jerk au poulet”, “Jerk au poulet Jamaicain”, “Authentique Jerk au poulet”…

En parlant de “Authentique Jerk au poulet”… On est d√©j√† dessus, m√™me avec tous nos erreurs d’accents et la bouillabaisse de code HTML propos√© au robot… il arrive quand m√™me √† nous placer aux c√īt√©s de cuisineaz.com !

Si vous avez l’Ňďil, vous pouvez voir aussi que mon schema.org est compl√®tement p√©t√©. Lui aussi avait le souci d’accents… Le correctif vient d’√™tre fait !

Autre fait int√©ressant, quand on regarde le cache Google nous pouvons voir que Google est “incapable” d’afficher de mani√®re structur√©e notre page, pourtant la version texte seule est bien identifi√©e et prise en compte.

Th√©orie du complot : GoogleBot alloue une certaine quantit√© de ressource pour chaque rendu de page. L’affichage de la version int√©grale co√Ľte donc des ressources. Ainsi Google n’utilise pas forc√©ment √† chaque fois toutes les fonctionnalit√©s d’extraction et de rendu du code. Cela co√Ľterait sans doute bien trop cher.

Le code de notre PDF est bien trop obscur par cons√©quent pour le robot afin qu’il puisse √™tre analys√© avec les ressources standard qui lui sont allou√©es.

Pierrick

commentaires généré par Disqus