Journal Liseuses ebook : convertir de tex vers epub

Posté par  . Licence CC By‑SA.
18
29
déc.
2013

Salut,

Je possède une liseuse pour ebook (une sony PRS-T3, elle est cool, on peut prendre des notes et même faire des petits dessins avec un stylet, mais je la découvre encore) et comme je travaille dans le monde formidable de la recherche, je me demandais comment je pouvais convertir des fichiers latex en ebook pour pouvoir les lire et les annoter.

Cette liseuse et pleins d'autres lisent les pdf, mais franchement, après avoir joué un peu avec, c'est assez horrible à utiliser, surtout quand à chaque fois que tu veux ajouter une annotation la page est redimensionné dans sa taille originale (i.e. pas la bonne pour lire convenablement :).

Enfin bon, donc, avec les bons mots clés sur google ("latex ebook", ça peut paraitre bête, mais j'ai mis 2 jours pour penser à ceux-là :) (bon, j'ai vraiment l'air d'un imbécile là… non ?), j'ai trouvé ce formidable site qui semble être le résultat d'un projet d'étudiant :
http://tex2ebook.wordpress.com/

Pour les plus pressés, on y trouve un lien vers le dépôt github contenant un script en python ainsi qu'une UI web très simple pour faire cette conversion : https://github.com/rzoller/tex2ebook

Pour ceux intéressés par la technique, le site raconte un peu l'aventure, les outils testés, les outils utilisés, etc.

En gros ça se finit sur hevea pour convertir le tex en html (donc pas classes latex chelous venant du monde formidable de la recherche, donc un peu d'édition et de nettoyage à la main du latex est parfois nécessaire, rien de bien dérangeant) et généré des png des images du document, puis sur calibre qui propose un outil en ligne de commande pour convertir vers epub.

Le script python automatise tout ça.

J'ai rapidement testé sur un chapitre de livre que je devais relire et que j'avais au format latex, après m’être débarrassé de la classe latex chelou, remplacée par "book", avoir ajouté les packages nécessaire, viré la biblio parce que hevea semblait avoir du mal (mais je vais investiguer ça je pense), je me suis retrouvé avec un truc très bien, lisible sur ma liseuse, annotable, etc.

Enfin voilà, je suis content, et j'espère que ce journal fera d'autres contents, histoire qu'on soit tous contents.

  • # Transformations

    Posté par  . Évalué à -2. Dernière modification le 29 décembre 2013 à 16:07.

    Désolé j'ai répondu trop vite. J'ai donc supprimé ce commentaire inutile.

  • # Pandoc

    Posté par  . Évalué à 2.

    Ça m'a l'air d'être ce que tu cherches :

    If you need to convert files from one markup format into another, pandoc is your swiss-army knife. Pandoc can convert documents in markdown, reStructuredText, textile, HTML, DocBook, LaTeX, MediaWiki markup, OPML, or Haddock markup to […] Ebooks: EPUB version 2 or 3, FictionBook2

    http://johnmacfarlane.net/pandoc/

    Sûrement dans les dépôts de ta distribution. Usage simple :

    pandoc -o output.epub source.tex
    
    • [^] # Re: Pandoc

      Posté par  . Évalué à 1.

      (j'ai pas essayé depuis le latex, chémoiçamarche très bien depuis la syntaxe markdown vers le epub)

    • [^] # Re: Pandoc

      Posté par  . Évalué à 2.

      Ça marche effectivement avec un petit document test que j'ai et un plus gros avec plusieurs fichiers, toussa.

      Ya quelques bugs avec pandoc et la biblio, mais rien d'embêtant.

      En revanche, il gère pas du tout les figures, c'est je pense un des avantages de hevea qui va générer une image à partir de la sortie de latex normal j'imagine.

      Merci de l'info :)

  • # tex4ht

    Posté par  (site web personnel) . Évalué à 4.

    J'avais essayé hevea aussi, mais le résultat est vraiment peu fidèle à l'original, je n'aimais pas du tout. J'ai été enchanté par le peu connu htlatex pour produire du html à partir du tex.

    http://tug.org/tex4ht/

    Ensuite, calibre avec l'option nocover pour la génération d'un epub est effectivement le meilleur choix. Mon Makefile (parce que les options de htlatex sont un peu dures à trouver) :
    https://kerneis.info/gitweb/?p=qemu-cpc-article.git;a=blob;f=Makefile;h=bfb787d350d85d8c50448b76ea7353a7283a7307;hb=1c6f6c5fc2e884e931e92e577e8b7c04c6092494

    L'original en pdf :
    http://gabriel.kerneis.info//research/files/qemu-cpc.pdf

    Le résultat en html :
    http://gabriel.kerneis.info//research/files/qemu-cpc/

    Et en epub :
    http://gabriel.kerneis.info//research/files/qemu-cpc.epub

  • # conversion HTML avant

    Posté par  (site web personnel) . Évalué à 3.

    Bonjour,

    Pour la collection Framabook, concernant les ouvrages que nous avons d'abord en LaTeX, notre principal défi est de les transformer.

    Cela fait deux ans, au bas mot, que je maintiens une veille pour trouuver la perle qui me permettrait de transformer rapidement en e-pub des documents LaTeX, quitte à paramétrer des éléments en amont.

    Pour les documents qui ne contiennent pas de bibliographie complexe (du genre à utiliser BibLaTex), dont les références biblio ne sont pas dans les notes de bas de page, et dont la mise en page générale n'est pas trop complexe, l'utilisation de pandoc reste très efficace.

    De tête:

    $pandoc -f latex -t html --output fichier.html fichier.tex
    

    Le principe est assez simple : reprendre le document, lui caler une mise en page de type [article] ou [book], et passer pandoc dessus (ou sur les différents chapitres s'il s'agit d'un livre). Ensuite retravailler le HTML pour obtenir quelque chose de correct.

    Mais le travail ne s'arrête pas là. A cette étape, en utilisant Calibre, par exemple, pour convertir le HTML en e-pub, cela sera lisible à peu près bien pour les liseuses. Mais si on veut rendre accessible (c'est à dire par exemple pour les malvoyants, ce qui fait aussi tout l'intérêt du e-pub couplé à la lecture audio) le livre, il faut tout nettoyer, savoir quand utiliser l'italique ou l'emphase, etc. Idem pour la typographie, savoir gérer les espaces insécables, par exemple, en fin de paragraphe. Pour cela l'équipe Framabook dispose de spécialistes de choc. Mais le travail reste encore très manuel et laborieux si on veut obtenir un bon résultat.

    Bref, la chaîne éditoriale qui part de LaTeX pour obtenir du e-pub… ben c'est pas gagné. Pour l'instant, la meilleure piste que j'ai trouvée est la suivante:
    - rédiger au kilomètre avec les styles par défaut en .ODT (Libre Office)
    - une fois les corrections faites, y compris la typo, séparer la branche en deux : 1/ convertir odt vers LaTeX et faire une mise en page destinée à l'impression et au PDF présentable et 2/ convertir ODT vers HTML et faire la mise en page et typo destinée à être à son tour compressée en e-pub.

    Vous allez me dire : une fois en ODT, pourquoi retourner au LaTeX, on peut obtenir une mise en page très correcte en ODT. Là je réponds: ca dépend de ce qu'on cherche : soit c'est suffisant soit le livre nécessite une mise en page LaTeX en particulier s'il contient du code… mais s'il contient du code ou des shémas etc., il a de fortes chances d'être en rédaction directement sur LaTeX, et vous reprenez ce commentaire depuis le début :)

    Bref, le top ce serait de développer une classe LaTeX qui puisse intégrer :
    - une configuration biblio correcte
    - des styles "de base" assez simples mais permettant une belle mise en page de livre

    et à partir de cette classe optimisée pour cela, réaliser un script qui ne souffre aucune faille permettant de transformer en HTML + CSS tout texte rédigé avec cette classe en particulier. Et qui prenne en compte les bonnes règles typographiques et une bonne part des packages LaTeX, au moins les plus courants.

    Bref, il faudrait idéalement un script et une classe qui fonctionnent pleinement ensemble, et—j'insiste—qui sache reprendre la bibliographie générée avec biblatex (de loin le meilleur rendu). Hevea ou pandoc obtiennent déjà de très bon résultats, mais il y a toujours un gros travail manuel à faire par la suite s'il s'agit de document longs comme des livres. Pour des articles, c'est déjà plus facile.

    Bon en fait, ce serait un compilateur HTML, quoi :) Il faudrait reprendre tout TeX et réviser l'ensemble en intégrant HTML et CSS :)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.