Lien Télécharger tous les liens externes de wikipédia en quelques minutes
Crowl, un crawler SEO open-source
Crowl est un projet de développement d’un crawler SEO collaboratif sous licence GPL v3. Développé en Python et basé sur le cadriciel Scrapy, Crowl a pour but de fournir aux professionnels du référencement un outil simple, robuste et innovant pour répondre à des besoins non couverts par les outils actuels.
Wiki [Tuto/HowTo] [PHP] Troller les annuaires du "darknet|"Deepweb"
Introduction
Si vous avez un Tor Hidden Web Service, vous avez sûrement déjà croisé le cuivre des crawlers des annuaires qui ont tendance à consommer les ressources machines sans prêter gare. Nous allons voir ici comment mettre en place un script PHP permettant de générer une quantité paramétrable de fichiers rempli de faux noms de domaines Tor et ainsi pourrir les bases de données des robots malveillants.
Si vous ne souhaitez pas punir les robot respectueux, vous pouvez placer vos (…)
Journal Télécharger tous les fichiers PDF d’un site web
Il y a quelque temps j'ai eu besoin de télécharger tous les PDF d'un gros site web, et puis d'un autre…
J'ai cherché un moment comment obtenir ce que je voulais avec wget
mais sans grand succès, soit wget explore récursivement le site en téléchargeant toutes les pages, soit il ne récupère que les fichiers voulus, mais je n'ai pas trouvé comment associer les deux comportements (et il serait logique que wget
ait besoin de télécharger les pages du site (…)
Sortie de Asqatasun v4.0: audit accessibilité web & SEO
Asqatasun est un moteur d'audit de pages web (licence AGPL). Il inclus un crawler permettant de scanner des dizaines de milliers de pages.
Développé en Java/Spring et s'appuyant sur des briques Selenium (Web Driver), le bébé pèse ~500 000 lignes de code. Asqatasun est traduit en 3 langues (français, anglais, espagnol) et la traduction en russe est en cours.
Forum Programmation.web Comment fonctionne le mode lecture de Firefox ?
Bonjour,
Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.
Ma question est double, mais simple :
- sur quoi s'appuie Firefox pour déceler la partie "utile" de la partie non utile
- est-ce que vous connaissez des libs / outils qui me permettrait d'intégrer cela facilement dans un outil de crawling (…)
Journal Extraction de données du web - introduction à Scrapy (journal bookmark)
Bonjour,
Ceci est un journal bookmark.
Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.
Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."
J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)
Forum général.cherche-logiciel PDF crawler
Bonjour,
je cherche un software pour créer une base de donnée des PDF, en les indexant par texte.
Est-ce que l'utilisation de pdftext peut faire ça, ou est-il possible d'utiliser une librairie comme pyPDF pour extraire le contenu texte d'un pdf ?
Cdt.