Utilisant souvent à la fois la ligne de commande et Google, je me retrouve souvent à maudire le deuxième de ne pas avoir les fonctionnalités du premier.
Google est loin d'être aussi précis et flexible qu'un ls | grep. (et compagnie, je ne suis pas expert de la ligne de commande)
Bien trop souvent Google tente de réfléchir à notre place et de corriger notre orthographe, nos termes, ...
Et si je veux faire une recherche sur un mauvais orthographe? Et si je veux faire une recherche où la casse importe?
Je peux vous dire que sitôt que l'on me présentera un moteur de recherche acceptant des syntaxes du type "abc*def??.og?" je quitterai Google sans regrets.
La question est donc tout d'abord de savoir si cela est techniquement possible.
Qu'est-ce que cela implique techniquement? Peut-on conserver le schéma du moteur de recherche présenté sur Wikipédia : Moteur_de_recherche ?
En clair, cela restera-t-il un idéal inatteignable ou peut-on l'imaginer devenir réalité sous peu?
# Fais un front-end à google
Posté par Ontologia (site web personnel) . Évalué à 4.
2 liens pour explorer le problème :
http://www.perlmonks.org/index.pl?node_id=284513
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.13.2(...)
Pour le problème de la casse, tu peux analyser les résultats que renvoi google.
Une fois que tout cela est en place, tu pourrais faire une interface style www.goosh.org , agrémentée d'opérateur de filtrage texte.
Un beau sujet à creuser, mais tu risque d'y passer du temps...
« Il n’y a pas de choix démocratiques contre les Traités européens » - Jean-Claude Junker
# Exalead
Posté par plop (site web personnel) . Évalué à 0.
[^] # Re: Exalead
Posté par Pol' uX (site web personnel) . Évalué à 9.
Adhérer à l'April, ça vous tente ?
[^] # Re: Exalead
Posté par Zenitram (site web personnel) . Évalué à 10.
Donc :
- Lien Exalead AFDEL : http://www.afdel.fr/news0001092b.asp
- AFDEL et les brevets : http://www.journaldunet.com/solutions/0510/051028_3q_afdel.s(...)
Allez hop, Exalead est sur ma liste noire maintenant, à ne pas conseiller.
Faudrait effectivement peut-être mettre en place un site qui recense les affinité de chaque entreprise!
[^] # Re: Exalead
Posté par Victor STINNER (site web personnel) . Évalué à 4.
[^] # Re: Exalead
Posté par Larry Cow . Évalué à 10.
Les bières sont sans alcool?
[^] # Re: Exalead
Posté par Victor STINNER (site web personnel) . Évalué à 2.
[^] # Re: Exalead
Posté par benoar . Évalué à 3.
[^] # Re: Exalead
Posté par alice . Évalué à 2.
# altavista
Posté par Kerro . Évalué à 3.
C'était vraiment le top ce moteur, mais ils se sont laissés dépasser par google.
# Ca existe déjà
Posté par Uld (site web personnel) . Évalué à 9.
goosh pour Google et Shell
C'est basé sur les API de recherche google et ca reprend les rudiments du shell.
Perso, je suis accroc.
Uld
[^] # Re: Ca existe déjà
Posté par zebra3 . Évalué à 3.
Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
[^] # Re: Ca existe déjà
Posté par MCMic (site web personnel) . Évalué à 1.
# Moteur de recherche et expressions régulières
Posté par jardiland . Évalué à 10.
On pourrait certes imaginer un mécanisme qui exécuterait l'expression régulière sur la table d'index et qui ensuite afficherait les pages correspondants aux index correspondants (selon un ordre de pertinence qui a mon avis sera difficile à déterminer), mais je ne penses pas que ce sera aussi efficace que tu le souhaite. Les moteurs de recherches excluent en effet une grande partie des pages pour n'indexer que ce qui est pertinent, or des recherches par expressions régulières sont plutôt pour rechercher une syntaxe particulière et précise sur une page, typiquement le genre d'information qui disparaît lors de l'indexation.
Une autre approche, serait d'indexer les pages selon les résultats à telle ou telle expression régulière, il faudrait pour cela construire l'ensemble des phrases possibles et imaginables d'un alphabet donné et en déduire l'ensemble des expressions régulières décrivant ces phrases ... vous voyez le genre ? D'ici là, Hurd sera sorti en version stable, la paix sera revenu au proche orient et nous nous seront mort mon frère (sur l'air de Quand_les_hommes_vivront_d'amour).
La troisième approche, plus réaliste que la seconde mais toujours irréalisable, consiste à compiler l'expression régulière à la volée et à l'exécuter sur les quelques tera-octets de cache représentant toutes les pages « indexées » par ton moteur de recherche, chose à faire évidemment à chaque requête. Cela sera certainement envisageable lors de l'avènement d'IPoT, on pourra alors rediriger les requêtes une semaine ou un mois plus tôt pour qu'elles soient terminées au moment où l'utilisateur en fera la demande.
La solution la plus raisonnable consiste à avoir deux champs de recherches : dans un premier champ, l'utilisateur rentrerait des mots clefs qui seraient utilisés pour une recherche « classique » (par table d'index). Puis dans un deuxième champs, on rentrerait l'expression régulière souhaitée qui serait exécutée sur le sous ensemble de page résultant de la première recherche.
Oups, je viens de me rendre compte que j'ai écris un gros pavé.
# T'es sûr ?
Posté par windu.2b . Évalué à 8.
Et si c'est Google qui te le propose, tu partiras quand même ? C'est con...
# D'ailleurs, Google le fait déjà
Posté par JGO . Évalué à 4.
http://www.google.com/codesearch
On en avait parlé ici même : http://linuxfr.org/~eMerzh/22819.html
# déjà
Posté par nomorsad . Évalué à 4.
Pas les dérivation de ce mot (conjugaison ou pluriel..), ni même les pages dont d'autres pages contiennent ce mot de pointe dessus.
Juste le mot.
Mais c'est parfois trop demandé, même pour google...
[^] # Re: déjà
Posté par dinomasque . Évalué à 2.
Par exemple, si sur http://www.google.fr/advanced_search?hl=fr je demande à rechercher les pages contenant exactement "lapins", sur les pages de résultats, j'ai des pages avec seulement "lapin" (mot clef mis en gras dans l'aperçu du résultat).
BeOS le faisait il y a 20 ans !
[^] # Re: déjà
Posté par benoar . Évalué à 3.
[^] # Re: déjà
Posté par fcartegnie . Évalué à 3.
[^] # Re: déjà
Posté par Thomas Douillard . Évalué à 2.
Ce qui fait que t'as des résultats même si il trouve pas l'expression entre guillemets.
[^] # Re: déjà
Posté par benoar . Évalué à 3.
[^] # Re: déjà
Posté par Thomas Douillard . Évalué à 3.
Donc au final en pratique c'est pas vraiment dérangeant, surtout que faire une recherche sur le mot "date" en le mettant le mot au pluriel, ça peut arriver.
[^] # Re: déjà
Posté par benoar . Évalué à 2.
[^] # Re: déjà
Posté par Thomas Douillard . Évalué à 2.
http://www.google.fr/search?q=date+mining&ie=utf-8&o(...)
[^] # Re: déjà
Posté par vincent mary . Évalué à 1.
Idem pour un mot avec des fautes d'orthographe, ca marche pareil. Ce dont je me sers régulièrement pour trouver l'orthographe d'un mot (oui, je sais, y'a des dicos aussi ...)
[^] # Re: déjà
Posté par windu.2b . Évalué à 5.
:-D
[^] # Re: déjà
Posté par zebra3 . Évalué à 2.
De plus, le texte mis en gras pour justifier le résultat est bien "lapin".
Donc, non ça ne marche pas, et ça fait un moment déjà.
Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
[^] # Re: déjà
Posté par Thomas Douillard . Évalué à 2.
J'imagine que le score des mots avec flexions doit être pénalisé par rapport aux occurences exactes, mais que la page wikipedia doit avoir un rank énorme et que le fait qu'en page connexe t'ait le mot exact et qu'il regroupe les résultats du même site explique cela, je vois rien de très très choquant en tout cas dans cet exemple là ...
[^] # Re: déjà
Posté par benoar . Évalué à 2.
[^] # Re: déjà
Posté par Nanawel (site web personnel, Mastodon) . Évalué à 2.
Ben oui, recherchez "+lapins" sur Google et vous chercherez que des lapins. Maintenant enlevez le "+" et vous aurez des lapins singuliers (enfin... j'me comprends...).
Je dois ajouter que ça s'applique aussi aux expressions entre guillemets quand on le place avant le premier guillemet justement ? Allez non.
[^] # Re: déjà
Posté par Octabrain . Évalué à 2.
[^] # Re: déjà
Posté par Nanawel (site web personnel, Mastodon) . Évalué à 0.
Allez, y'a aussi la page anglaise de Wikipédia en page 2. Nouveau troll Nouvelle question : faut-il bannir Wikipedia des résultats Google ?
[^] # Re: déjà
Posté par Octabrain . Évalué à 1.
Avec un autre texte, 1ere page :
http://uppix.net/4/8/6/ab02dd29787eb12e26adfca94a507.png
2eme page :
http://uppix.net/a/3/f/dc0fa996269c31cc3e1ba823941d5.png
[^] # Re: déjàvvvvvvvvvvvvv
Posté par Thomas Douillard . Évalué à 2.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.