Journal 38 ou 39 fichiers par torrent

Posté par  . Licence CC By‑SA.
Étiquettes :
25
15
juil.
2017

Un petit mystère pour les vacanciers qui s'ennuient. Et l'occasion de faire naître des hypothèses improbables.

J'ai récemment installé magnetico : c'est un moteur de recherche de torrent via la DHT. L'indexation se fait en interrogeant chaque nœud du réseau, après une étape de démarrage auprès de sites « centralisés » comme dht.transmissionbt.com. C'est un peu long, ça dépend surtout de votre bande passante, mais avec mon ADSL classique, j'arrive à en indexer 1 par seconde en moyenne.

C'est une expérience pour moi, plus qu'une envie de piratage, car j'ai toujours apprécié ce qui pouvait se passer d'une autorité centrale. Et j'ai un peu inspecté le code, par plaisir. J'ai aussi, par la même occasion, fait des statistiques : nombre de torrents, nombre de fichiers, vitesse d'indexation, CPU, et un peu d'autres.

Et j'en viens à cette grande inconnue. Dès le début, j'ai bien vu qu'en divisant le nombre de fichiers par le nombre de torrents, donnant ainsi le nombre moyen de fichiers par torrents, j'arrivais souvent à 38 ou 39. Ça fait maintenant 1 mois que ça tourne, plus ou moins en continu, avec des arrêts pour le débogage, mais voilà, c'est confirmé :
Nombre de fichiers par torrents
Attention, les dates sont au format anglo-saxon.

Pas moins de 37,7, et pas plus de 38,6 après la période de démarrage. J'ai quand même indexé 2,36 millions de torrents, représentant plus de 91 millions de fichiers. C'est quand même assez représentatif, je pense, même si effectivement, c'est sûrement très peu au vu de la taille de la DHT (que je ne connais pas).

Des idées ? Je pensais qu'il y avait souvent des films, avec moins de 5 fichiers par torrents, ou alors des albums de musique, avec moins de 20 fichiers. Mais non, c'est plus, et surtout, c'est stable.

  • # Torrents avec plein de fichiers ?

    Posté par  . Évalué à 1.

    J'ai également lancé une instance de Magnetico et je constate la même chose. Mon hypothèse serait la présence de torrents avec de très nombreux fichiers (plusieurs milliers ou millions).

    Il va falloir faire des statistiques plus détaillées pour avoir une idée plus précise.

    • [^] # Re: Torrents avec plein de fichiers ?

      Posté par  (site web personnel) . Évalué à 2.

      C'est une possibilité, je pense qu'il y a des archives quasi complète de la team alexandriz qui se baladent

      Et en sachant que leurs fichiers avaient 8 par livre (nfo, epub. jpg, .doc, .zip, .mobi et 2 pdf) pour chaque bouquin ça peut vite grimper

    • [^] # Re: Torrents avec plein de fichiers ?

      Posté par  . Évalué à 7.

      Ceci donnerait une moyenne instable. En effet, le nombre de fichiers par torrent s'apparenterait alors à une distribution de Cauchy : peu de fichiers sur une grosse majorité de torrents, mais une minorité de torrents avec un tel nombre de fichiers que la moyenne mesurée devient instable. C'est-à-dire que tu peux mesurer, par exemple, 39 de manière stable sur un grand nombre de fichiers, puis, à un moment donné, tomber sur un torrent énorme et paf, ta moyenne tend maintenant vers 45, et ainsi de suite.

      Peut-être qu'un histogramme du nombre de fichiers par torrent serait plus informatif. Ou un histogramme du log du nombre de fichiers par torrent, si on a des torrents avec un nombre vraiment très grand de fichiers.

      Ça, ce sont les sources. Le mouton que tu veux est dedans.

  • # Le peuple demande plus de précisions !

    Posté par  (site web personnel) . Évalué à 3.

    Est-ce que tu pourrais faire les mêmes stats par genre ? Comme tu le dis les vidéos ou les albums de musique devraient avoir moins de fichiers que ça. Peut-être que tu es tombé sur un torrent avec un million de fichiers qui fausse complètement le calcul. De manière générale tu en apprendras certainement plus en regardant la variance en plus de la moyenne, ainsi que les différents percentiles.

  • # Médiane ?

    Posté par  . Évalué à 10.

    Je pense que la médiane serait plus intéressante que la moyenne, ça permettrait d'éviter que les torrents avec des milliers de fichiers pèsent trop.

  • # et la taille ça compte aussi non ?

    Posté par  . Évalué à 2.

    Est-il possible d'avoir la taille totale en To que représentent les 2,36 millions de torrents ?

    Merci

  • # Taille de la DB

    Posté par  . Évalué à 7.

    Hey, je ne connaissais pas ce projet. Ça a l'air intéressant. Serait il possible de connaitre la taille de ta DB d'indexation après 2M torrents ?

  • # les drama d'asie

    Posté par  . Évalué à 2.

    je prend beaucoup de drama coreen et chinois, ce sont des pack complet de toute la saisons, cela va au minimum de 24 épisodes a 120 épisodes, par torrent + fichier de sous titre inclue

    un épisode = 1 heures de film

    pareil pour les animé, 1 torrent avec la saison complète

    il y en a de milliers de ces pack, sans compter l'inde, la thailande, la malaisie, le japon etc …

    • [^] # Re: les drama d'asie

      Posté par  . Évalué à 1.

      Ça m'intéresse, tu as des sources ? ;-)

      "Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)

      • [^] # Re: les drama d'asie

        Posté par  . Évalué à 4.

        oui, en rot13 :)

        nivfgnm.gb fhe vaivgngvba, cbfgr ha znvy ra ebg13 wr g'raibv har vaivgngvba, fvaba pn bhier ra qrprzoer fnaf vaivgngvba. ha crh qr yngva cbhe bofphepver yr grkgr : Phz nquhp freiverz, unovgnonzhf va ivpb nathfgb ; ahap Tnivyynr qbzhf rfg. Vov, dhbzbqb qvv ibyhag, nzner pbrcv hkberz Greragvv pbcbavf : abirengvf Zryvffnz Gneragvanz, chypureevzhz onppvonyyhz… Uhvhf pbaghoreanyvf nq ivyynz fhcerzhz qvrz bovvg. Vgndhr cre fphghz, cre bpernz rtv ntvaniv, dhrznqzbqhz nq vyynz creiraverz…

  • # Autre stat

    Posté par  . Évalué à 1.

    Je connaissait pas magnetico, faudra que je me tienne plus à jour.

    De mon coté j'ai testé la disponibilité du contenu, sur 100 magnets piqués au hasard, au bout de 24h, 97% sont "stalled" (incomplets et sans sources)

    Bon ça peut évoluer et n'a rien à voir avec magnetico lui-même, mais c'est une stat sur le réseau DHT qu'il serait intéressant de connaitre avec précision.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.