Oui, je sais "un monde de partage", on vire l'argent et on mange de l'herbe ... Bon, le message à caractère informatif porte sur google et les droits.
Je cherche à créer un lexique français avec fréquences d'utilisation libre, j'ai donc préparé un frequencethon :)
J'ai rassemblé deux listes libres (120 000 mots avec fréquences et 330 000 mots sans fréquences) pour la soumettre petit à petit à google et récupérer le nombre de page comme fréquence.
Avantage : beaucoup de donnée, google passe sur les forums donc forme de langage 'parlé' (le but de cette liste est l'aide à l'écriture pour handicapés : http://savannah.nongnu.org/projects/pylisiere/(...) )
Inconvénients : pas de différence entre dede et dédé mais c'est pas trop grave
Problème : la liste ne serait plus libre.
Les morceaux interessants de http://www.google.fr/intl/fr/terms.html(...)
- Vous ne devez en aucun cas réutiliser les résultats des recherches Google par reformatage et affichage
- Les requêtes automatisées sont interdites
Ah non, la liste va pas être non libre, en fait, j'ai même pas le droit de la faire.
J'ai essayé de contacter google mais aucun des mails ne réponds (2 semaines déja) et au téléphone du bureau français, il n'y a que des commerciaux.
C'est vraiment illégal ? Je n'utilise que le nombre de pages que google connait dans son lexique, j'ai pas l'intention de créer un supra moteur ou une startup de référencement ... Quelques centaines de milliers de requêtes étalées sur plusieurs semaines/mois ...
Est ce une close abusive/floue ? Est ce que je peux faire cette liste depuis les iles Tuvalu ? Est ce que google qui utilise des outils libres (linux, python, etc.) pourrait faire une exception ? Est ce que Samantha pardonnera à John sa liaison avec Loreena ?
Je tiens à ce que la liste résultante soit libre. Comment faire ?
Contacter des moteurs libre ? J'ai contacté labanquise mais les sites indexés sont ciblés libre français.
Utiliser les librairies libres ? Les textes ont au minimum 50 ans ...
Compter tous les mots que j'utilise tous les jours ? Ca va être chiant ...
Tout est en place (ftp et frequencethon.py) pour faire un truc utile et tout risque de foirer pour un problème de droit :(
# API Web
Posté par Pascal Terjan (site web personnel) . Évalué à 3.
Ca te donne droit à 1000 requêtes par jour, par contre limité à une utilisation non commercialle. Je ne sais donc pas si tu peux mettre une interprétation de ces résultats sous forme libre qui permettrait une utilisation commerciale des résultats...
[^] # Re: API Web
Posté par rangzen (site web personnel) . Évalué à 1.
"The Google Rights include rights to the following: (1) the APIs developed and provided by Google, (2) all software associated with the Google Web APIs server, and (3) the search results and spell checking you obtain when you use Google Web APIs."
Tu chosis même pas ta license, le logiciel est à google ...
Un des avantages de mon appli est que tu lances et t'oublies.
Là, il faut que chacun crée un compte chez google, modifie le script, etc.
[^] # Re: API Web [correction]
Posté par rangzen (site web personnel) . Évalué à 3.
"The Google Rights do not include the following: (1) third-party components used as part of Google Web APIs; or (2) software developed by you in conjunction with using Google Web APIs."
# Usenet FR ?
Posté par Benjamin (site web personnel) . Évalué à 3.
Pourquoi ne pas utiliser plutôt une base de texte libres comme source, plutôt que de se bases sur l'hypothétique contenu indexé par Google, dont la langue elle même n'est pas garantie ?
Je pense par exemple à l'archive de Usenet en Français ? (fr.*)
[^] # Re: Usenet FR ?
Posté par rangzen (site web personnel) . Évalué à 2.
Pour google, la requête est formée pour rester sur les pages françaises avec une recherche dans le corps. C'est sùr que c'est assez hypothétique mais les premiers tests sont intérressant.
Pas contre les news, c'est peut être pas mal même si la partie technophile doit être plus grande que sur le web.
Il existe une archive de fr.* ? Sur combien de temps ? Sur combien de giga ?
# wikipedia ?
Posté par Laurent Godard . Évalué à 2.
Plus de 60000 articles en langue française peuvent etre une source d'information interressante ?
http://fr.wikipedia.org(...)
(tout le monde connait mais bon, un ch'ti lien c'est toujours bon ...)
Peut etre egalement s'orienter vers la version off-line si ca risque de trop charger le serveur ?
http://download.wikipedia.org(...)
[^] # Re: wikipedia ?
Posté par rangzen (site web personnel) . Évalué à 2.
Je tiens vraiment à ce que ce lexique soit libre donc il va peut être falloir me rabattre vers wikipédia ou les news ...
Les 2 problèmes que je vois :
- le tri à faire pour extraire les codes html/wiki -> texte "simple"
- très universitaire dans la forme d'écriture mais c'est vraiment mieux que rien
[^] # Re: wikipedia ?
Posté par tuxyl . Évalué à 1.
w3c -dump ne convient pas?
[^] # Re: wikipedia ?
Posté par tuxyl . Évalué à 0.
Lapsus révélateur d'une obscession...
[^] # Re: wikipedia ?
Posté par rangzen (site web personnel) . Évalué à 3.
"yapluka" faire les regexp->" " pour les règles wiki, les autres langues, toute la grammaire wiki et le comptage, etc., Bref, un nouveau prog ...
Ca me gave de tout refaire alors que la soluce google rentrait en test public :(
Je vais quand même essayer de faire un truc réutilisable pour la communauté.
[^] # Re: wikipedia ?
Posté par Ramso . Évalué à 4.
> test public :(
Ça t'apprendra à pas faire d'étude de faisabilité !
[^] # Re: wikipedia ?
Posté par chl (site web personnel) . Évalué à 1.
Pas besoin de recuperer wikipedia par le web, a une epoque ils proposaient de telecharger la base de tous les articles.
[^] # Re: wikipedia ?
Posté par Julien Duponchelle (site web personnel) . Évalué à 3.
# et ?
Posté par Éric (site web personnel) . Évalué à 6.
Ils font un travail d'indexation ils se réservent un droit d'auteur classique sur ce travail. Dans un autre ordre il y a aussi en France le droit des bases de données qui peut t'interdire (sans leur accord) d'exploiter de manière automatisée leurs données.
Tu parles de partage mais tu ne leur a rien donné, ils ne te doivent rien. Ce n'est pas parce que tu veux faire quelque chose de public que d'un coup ça veut dire que tout le monde doit t'ouvrir toutes les données.
Ici ils ne se réservent rien. Si tu veux faire les mêmes traitements qu'eux et monter ton indexation tu peux le faire. Ils offrent un service, tu ne rentres pas dans le cadre de ce qu'ils offrent comme service, ça s'arrête là.
Là tu es en gros en train de te plaindre qu'ils ne t'offrent pas tout gratuitement pour tes beaux yeux. Ce que tu veux faire a beau être non commercial ou "bien", ça ne change rien. Cherches un moteur de recherche qui n'a pas ces restrictions, ou alors fais toi même une indexation (les statistiques seront moins bonnes mais faire un moteur qui suit les liens de manière infinie et fait des stats sur le nombre de mots, ça ne doit pas être trop compliqué)
Quand à l'exclusion je serai toi j'oublierai, j'ai cru comprendre que Google a toujours refusé, même pour des projets universitaires de grosses universités. alors le projet d'un informaticien seul ....
[^] # Re: et ?
Posté par rangzen (site web personnel) . Évalué à 2.
C'était une réaction de dépis sur les restrictions imposés. Je serais très content si il y avait une exception pour mon projet mais je sais bien que ce serait le début du "pourquoi pas moi ?".
J'aimerai bien savoir si les navigateurs comme firefox ou konqueror qui automatise l'accés à google sont interdits par http://www.google.fr/intl/fr/terms.html(...)
J'espere juste moins de restrictions pour les projets d'interet commun et qui ne sont pas trop consomateurs. Mais avec une définition aussi vague ...
# Sur les forums..
Posté par Twidi (site web personnel) . Évalué à 3.
Je suis l'administrateur d'un service de forums et a des fins statistiques on devrait pouvoir trouver le moyen de voir la fréquence d'utilisation des mots dans quelques millions de messages qui habitent sur le serveur...
contacte moi si ça te dit (twidi **chez** twidi **point** com)
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.