Journal scraplap, pour mouler offline

Posté par  . Licence CC By‑SA.
26
6
nov.
2018

Bonjour nal,

Je prends la plume pour présenter scraplap.

Cet outil n'avait pas de nom à sa création. Mais pour se présenter, un nom est bien utile.
J'ai donc "inventé" le terme LAP, pour link aggregation platform ; une plateforme qui agrège des liens vers du contenu sur un sujet plus ou moins large et qui permet bien souvent de les noter et les commenter. On peut penser à Reddit, à Lobsters, à Journal du hacker.
Scrap est (…)

Weboob sort une nouvelle version qui va vous porter chance

Posté par  . Édité par ZeroHeure, Davy Defaud et Benoît Sibaud. Modéré par Benoît Sibaud. Licence CC By‑SA.
Étiquettes :
48
21
sept.
2017
Internet

Weboob (Web Outside Of Browsers) est un ensemble d’applications et de modules interagissant avec des sites Web.

Ce projet peut également être utilisé comme une bibliothèque permettant de grandement simplifier l’extraction de données des sites Web. Pour du prêt à l’emploi, Weboob compte aujourd’hui 241 modules qui permettent d’accéder à de nombreux sites Web sans passer par un navigateur standard.

Sans être exhaustive, la suite de la dépêche vous propose de découvrir quelques nouveautés de la nouvelle version 1.3, sortie mercredi 20 septembre 2017, que ce soit pour les utilisateurs et utilisatrices ou les développeuses et développeurs. Nous détaillons également la vie du projet en fin de dépêche, notamment notre participation à la PyConFr du 21 au 24 septembre 2017.

Forum général.hors-sujets Scraping de sites web : aspects légaux

Posté par  . Licence CC By‑SA.
Étiquettes :
5
1
sept.
2017

Bonjour,

Question un peu hors sujet mais je ne savais pas trop où poster cela ;)

Les maîtresses de ma fille ont publié durant toute l'année 2016-2017 des textes et photos sur https://www.toutemonannee.com/.
A la fin de l'année, le site proposait d'acheter un livre souvenir avec une sélection des photos réalisées par les maîtresses.
C'est, je pense, le modèle économique de toutemonannee.com : le service est financé par la vente des livres.
Le fait de mettre à disposition un script (…)

Journal Extraction de données du web - introduction à Scrapy (journal bookmark)

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
18
30
jan.
2015

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)