Hello. Je voudrais faciliter la vie de mes collègues au boulot (je ne bosse absolument pas dans l'info) avec mes (modestes) connaissances en prog. Pour faire court et sans citer personne, on bosse avec un tiers qui nous balance tous les mois un catalogue PDF de plus de 3000 pages dans lequel on doit chercher des correspondances. On se démerde avec ctrl+F mais sur un PDF de cette taille, les recherches prennent pas mal de temps sans compter que le truc qu'on veut correspond toujours à la cinquantième occurrence trouvée, bref, c'est une perte de temps infini, qui plus est la plupart du temps devant le client... Du lourdingue de qualité.
Le PDF en question se compose d'une sorte de gigantesque tableau d'une demi-douzaine de colonne. Mon idée serait un truc qui prend des machins en entrée afin d'isoler et afficher sur une seule page un nombre restreint de lignes (en opposition au ctrl+F qui ne fait que parcourir successivement toutes les occurrences).
Existe-t-il une bibliothèque quelconque dans n'importe quelle langage de prog qui sache rechercher rapidement dans un gros PDF ? (et je foutrais des prompts pour forger une expression rationnelle, par exemple)
Jusqu'ici j'améliorais un peu le bordel en commençant par découper le PDF (parce que la liste des produits de fabricant X va de la page 1 à la page 223), ça améliorait la rapidité du ctrl+F mais refaire ça tous les mois... Je peux même pas faire un script automatisé pour ça (à supposer que ce soit possible) puisque le mois suivant, si ça se trouve, la liste des produits du fabricant X ira de la page 1 à la page 224...
Mon énoncé est peut-être un peu vague et confus, contactez-moi en mp si jamais vous avez des idées, je pourrais vous filer un échantillon du PDF pour mieux imager le truc.
Edit : peut-être une piste par là.
http://search.cpan.org/dist/CAM-PDF/
Ptain, j'ai jamais fait de Perl moi
Edit 2 : notes à moi-même
http://qpdf.sourceforge.net/
http://pdfedit.cz/en/index.html
http://www.pdftron.com/pdfcosedit/index.html
http://www.unixuser.org/~euske/python/pdfminer/
http://www.pdftotext.net/