Sur base de Nutch, un agent de recherche Open Source, un moteur de recherche Open Source vient de voir le jour : Mozdex. Son index est initialisé avec Dmoz, l'annuaire collaboratif riche de plus de 4 millions de pages. Sans être aussi riche qu'un Google, Mozdex fonctionne déjà de manière satisfaisante (résultats pertinents, réponse rapide, etc).
Aller plus loin
- Mozdex (277 clics)
- DMoz (57 clics)
- Un article sur LL.Net (60 clics)
# la liberte de chercher
Posté par Djoul . Évalué à 2.
[^] # Re: la liberte de chercher
Posté par Éric (site web personnel) . Évalué à 10.
Tant que ça n'est pas trop utilisé à tort et à travers ça va mais il faut avouer que c'est juste en attendant que certains foutent tout par terre en l'utilisant un peu trop (oui, je dis ça et je m'amuse au mangeur de cigogne, je n'ai pas peur des contradictions).
> Ne serait ce que pour eviter les liens publicitaires si possible...
Il y a une énorme infrastructure, je comprend qu'il faille la payer. Tant que la pub est bien séparée et identifiée comme telle ça me va.
Par contre il ne faudrait pas oublier que Google est une boite commerciale comme une autre. Une boite qui retire des entrées sur des critères parfois contestables (1), qui fait certains filtrages sans aucun contrôle ni information (2) ... c'est quelque chose qui ne repose que sur la confiance.
Personnellement Google a perdu la mienne quand après le rachat de Blogspot tous les blogs hébergés se sont retrouvés avec un robots.txt qui interdisait explicitement à MSN d'indexer le contenu (3). Bref, des manoeuvres de nuisance au concurent que je n'attend pas d'un moteur de recherche.
Il faudrait un moteur de recherche libre, ou au moins "transparent", mais qui paiera ?
(1) cf l'histoire des opposants à l'église de scientologie retirés sur fond de DMCA
(2) oui les résultats de google.fr et google.de sont filtrés, le problème c'est que ça n'a pas été annoncé et remarqué. On sait qu'ils filtrent quelques sites neo-nazis et pédophiles mais impossible de savoir si ils ne filtrent pas autre chose (ou ne le feront pas dans le futur)
(3) les blogs hébergés étaient donc exclus de MSN sans possibilité de correction pour les auteurs, le site principal n'était lui bien sûr pas bloqué ainsi (ce robots.txt n'interdit maintenant plus le passage de MSN aujourd'hui)
[^] # Re: la liberte de chercher
Posté par ArBaDaCarBa . Évalué à 6.
"Advertise on Mozdex.com - Support our index, sponsor mozAds keyword Advertising as low as 1/cent click"
Ça a l'air mal parti...
[^] # Re: la liberte de chercher
Posté par Francois SIMOND . Évalué à 3.
Je pense que c'est un choix très compréhensible et difficilement criticable.
Le plus important est à mon avis http://sourceforge.net/projects/mozdex/(...) malheureusement très vide en release et dans le CVS pour l'instant.
Alors est ce qu'on a affaire à une petite société qui joue l'effet d'annonce, ou à un vrai projet opensource ?
[^] # Re: la liberte de chercher
Posté par ArBaDaCarBa . Évalué à 4.
A première vue, si on créé une publicité sur https://mozads.mozdex.com/(...) , c'est effectivement très similaire...
Reste tout de même à savoir si beaucoup de société vont être intéressées pour acheter de la publicité sur un moteur de recherche libre et alternatif.
Et sinon, à quand un mozdex-watch.org ??
[^] # la publicité c'est bien !!! Tout est dans la manière.
Posté par jo7 . Évalué à 3.
Oui je les vois et je clique dessus quand elles m'intéressent.
Faire de la publicité pour rendre public, informer de son produit, c'est une bonne chose pour les entreprises, et pour le public.
Tout est dans la manière.
[^] # Re: la liberte de chercher
Posté par Yhar Gla . Évalué à 5.
http://www.mozdex.com/privacy.html(...)
En bref ils pompent tout ce qu'ils trouvent sur vous pour le revendre aux pubeux. En contrepartie on a le droit d'utiliser le service.
Donc pour avoir la paix, comme partout ailleurs, refuser les cookies, ne pas laisser trainer son adresse mail et utiliser http://www.privoxy.org/(...)
[^] # Re: la liberte de chercher
Posté par Matthieu Moy (site web personnel) . Évalué à 6.
Le moteur est open-source, et il permet d'afficher des pubs. Si tu veux modifier les sources, retirer la partie pub, et faire tourner le tout sur ton serveur, tu peux. (Contrairement à Google par exemple)
Si tu veux que ces braves gens te fournissent l'espace de stockage collosal et la bande passante gigantesque nécessaire pour faire un moteur de recherche de qualité, gratuitement, je crois que tu rêves un peu, non ?
[^] # Re: la liberte de chercher
Posté par Djoul . Évalué à 2.
Et alors, j'ai pas le droit de rever ? Qui va m'en empecher ?
Plus serieusement je trouve quand meme que le fait que
le moteur soit libre est bonne. ET meme que ca donne des idees.
Je me demande si un projet similaire a SETI@HOME, un moteur de
recherche distribue et qui tournerait en background sur les machines
de personnes volontaires auraient une chance de fonctionner. Il appartiendrait
a tous le monde comme ca et me permettrait de rever peut etre...
[^] # Re: la liberte de chercher
Posté par iTanguy . Évalué à 2.
http://grub.org/(...)
[^] # Re: la liberte de chercher
Posté par Matthieu Moy (site web personnel) . Évalué à 2.
[^] # Re: la liberte de chercher
Posté par neil . Évalué à -2.
# Nutch
Posté par zerchove . Évalué à -2.
http://www.nutch.org/docs/en/(...)
avec un board qui tue sa mère comme dirait l'autre (Mitch Kapor, Tim Berners-Lee,...)
voili voili....mais ca reste qu'un projet.
[^] # Re: Nutch
Posté par zerchove . Évalué à -2.
moinssez moi :)
# gestion de la volumétrie, et confiance
Posté par Antoine . Évalué à 10.
- en indexation (quantité de documents à indexer, fréquence de mise à jour des index)
- en réponse aux requêtes (quantité de résultats à retourner par seconde)
Je ne vois pas en quoi Mozdex, plus qu'un autre, résoudrait cette problématique (Google utilise à l'heure actuelle une ferme de plus de dix mille serveurs, et je serais curieux de connaître la bande passante).
Enfin la phrase suivante me laisse extrêmement perplexe : «D'autre part, la nature Open Source permet d'espérer -comme en cryptographie par exemple- la création d'algorithmes robustes aux tentatives de manipulation des résultats. Pour Google, ces techniques manipulatoires prennent notamment la forme de fermes de liens ou de Google bombing.»
Croire qu'un algorithme ouvert résoudra les problèmes de triche vis-à-vis des moteurs de recherche est aussi naïf que de croire que la cryptographie résoud les problèmes de confiance entre les humains.
[^] # Re: gestion de la volumétrie, et confiance
Posté par Gniarf . Évalué à 2.
après tout, des tas de choses sur Internet sont déjà distribuées.
[^] # Re: gestion de la volumétrie, et confiance
Posté par pasBill pasGates . Évalué à 2.
Le reseau sur lequel Google a ses clusters, c'est pas un reseau comme internet avec des gros temps de latence, des liens qui tombent de temps en temps, ...
C'est basse latence, haut debit et haute disponibilite, chose qu'il est impossible a faire sur l'internet en distribue
Il y a des problemes qui se pretent tres bien a etre distribues sur internet, genre SETI@Home et autres, car ils n'ont pas besoin de faible temps de latence ou de haute disponibilite du link, un moteur de recherche par contre, il est sense te filer une reponse de qualite a ta requete dans les 3 secondes qui suivent, c'est un tout autre probleme.
[^] # Re: gestion de la volumétrie, et confiance
Posté par Aldoo . Évalué à 2.
Personne n'a parlé de miracle.
Je pense qu'un moteur de recherche libre fournit un formidable terrain d'expérimentation pour les chercheurs en algorithmique, bases de données, gestion de connaissances, apprentissage, et plein d'autres domaines ...
Si ça intéresse du monde, ce serait bien le comble qu'il n'en sorte pas une amélioration profitable à la communauté.
Quant à la crypto, oui ça résoud certains problèmes de confiance ... tout comme les vitres d'une bagnole résolvent certains problèmes de pollution ...
A défaut de mieux, je pense qu'il ne faut pas se plaindre.
# Pas très sympa...
Posté par Romain Vinot . Évalué à 0.
Finalement, Mozdex n'est qu'un moteur de recherche géré par une entreprise privé avec des fonds privés. Alors, oui, ils mettent les sources du moteur en Open Source, mais ça ne garantit strictement rien en ce qui concerne la publicité. Ni même le fait que les algorithmes utilisés sont bien ceux présentés dans les sources puisque nous n'avons pas accès aux machines.
Il faudrait que le projet soit réellement aux mains d'une communautée, ce qui au vu du travail d'administration et d'infrastructure à réaliser, et du budget nécessaire ne semble pas à la portée d'une telle communautée.
[^] # Re: Pas très sympa...
Posté par Éric (site web personnel) . Évalué à 1.
[^] # Re: Pas très sympa...
Posté par Marc Lacoste . Évalué à 2.
http://dmoz.org(...) Copyright © 1998-2004 Netscape
[^] # Re: Pas très sympa...
Posté par Éric (site web personnel) . Évalué à 1.
Bref, que DMOZ vienne aussi de netscape n'implique pas que mozdex bouffe sur les terres de Mozilla.
[^] # Re: Pas très sympa...
Posté par j (site web personnel) . Évalué à 3.
http://directory.mozilla.org(...)
[^] # Re: Pas très sympa...
Posté par GuebN . Évalué à 2.
MozDex pour dMOZinDEX est au contraire très respectueux parce que son nom dit explicitement d'où ça vient.
# En parlant des sources
Posté par _alex . Évalué à 2.
[^] # Re: En parlant des sources
Posté par Anonyme . Évalué à 2.
# DMOZ dispose d'une entrée francophone
Posté par j (site web personnel) . Évalué à 4.
http://www.aef-dmoz.org(...)
Il serait pas mal de l'ajouter aux liens amha ; c'est encore trop confidentiel et c'est bien dommage....
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.