Un petit mystère pour les vacanciers qui s'ennuient. Et l'occasion de faire naître des hypothèses improbables.
J'ai récemment installé magnetico : c'est un moteur de recherche de torrent via la DHT. L'indexation se fait en interrogeant chaque nœud du réseau, après une étape de démarrage auprès de sites « centralisés » comme dht.transmissionbt.com. C'est un peu long, ça dépend surtout de votre bande passante, mais avec mon ADSL classique, j'arrive à en indexer 1 par seconde en moyenne.
C'est une expérience pour moi, plus qu'une envie de piratage, car j'ai toujours apprécié ce qui pouvait se passer d'une autorité centrale. Et j'ai un peu inspecté le code, par plaisir. J'ai aussi, par la même occasion, fait des statistiques : nombre de torrents, nombre de fichiers, vitesse d'indexation, CPU, et un peu d'autres.
Et j'en viens à cette grande inconnue. Dès le début, j'ai bien vu qu'en divisant le nombre de fichiers par le nombre de torrents, donnant ainsi le nombre moyen de fichiers par torrents, j'arrivais souvent à 38 ou 39. Ça fait maintenant 1 mois que ça tourne, plus ou moins en continu, avec des arrêts pour le débogage, mais voilà, c'est confirmé :
Attention, les dates sont au format anglo-saxon.
Pas moins de 37,7, et pas plus de 38,6 après la période de démarrage. J'ai quand même indexé 2,36 millions de torrents, représentant plus de 91 millions de fichiers. C'est quand même assez représentatif, je pense, même si effectivement, c'est sûrement très peu au vu de la taille de la DHT (que je ne connais pas).
Des idées ? Je pensais qu'il y avait souvent des films, avec moins de 5 fichiers par torrents, ou alors des albums de musique, avec moins de 20 fichiers. Mais non, c'est plus, et surtout, c'est stable.
# Torrents avec plein de fichiers ?
Posté par tetraf . Évalué à 1.
J'ai également lancé une instance de Magnetico et je constate la même chose. Mon hypothèse serait la présence de torrents avec de très nombreux fichiers (plusieurs milliers ou millions).
Il va falloir faire des statistiques plus détaillées pour avoir une idée plus précise.
[^] # Re: Torrents avec plein de fichiers ?
Posté par dj_ (site web personnel) . Évalué à 2.
C'est une possibilité, je pense qu'il y a des archives quasi complète de la team alexandriz qui se baladent
Et en sachant que leurs fichiers avaient 8 par livre (nfo, epub. jpg, .doc, .zip, .mobi et 2 pdf) pour chaque bouquin ça peut vite grimper
[^] # Re: Torrents avec plein de fichiers ?
Posté par Liorel . Évalué à 7.
Ceci donnerait une moyenne instable. En effet, le nombre de fichiers par torrent s'apparenterait alors à une distribution de Cauchy : peu de fichiers sur une grosse majorité de torrents, mais une minorité de torrents avec un tel nombre de fichiers que la moyenne mesurée devient instable. C'est-à-dire que tu peux mesurer, par exemple, 39 de manière stable sur un grand nombre de fichiers, puis, à un moment donné, tomber sur un torrent énorme et paf, ta moyenne tend maintenant vers 45, et ainsi de suite.
Peut-être qu'un histogramme du nombre de fichiers par torrent serait plus informatif. Ou un histogramme du log du nombre de fichiers par torrent, si on a des torrents avec un nombre vraiment très grand de fichiers.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
# Le peuple demande plus de précisions !
Posté par rakoo (site web personnel) . Évalué à 3.
Est-ce que tu pourrais faire les mêmes stats par genre ? Comme tu le dis les vidéos ou les albums de musique devraient avoir moins de fichiers que ça. Peut-être que tu es tombé sur un torrent avec un million de fichiers qui fausse complètement le calcul. De manière générale tu en apprendras certainement plus en regardant la variance en plus de la moyenne, ainsi que les différents percentiles.
[^] # Re: Le peuple demande plus de précisions !
Posté par windu.2b . Évalué à 3.
La tendance étant à la remontée (de 37,75 le 23/06 à 38,,50 le 15/07), je ne crois qu'un énorme torrent soit l'explication… Il semble plutôt que les torrents sur cette période soit un peu supérieur à 38,50 fichiers/torrent, ce qui fait doucement remonter sa moyenne.
[^] # Re: Le peuple demande plus de précisions !
Posté par Glandos . Évalué à 1.
Je le savais que la plèbe ne se contenterait pas d'un seul chiffre. Pour l'instant, je n'ai pas beaucoup le temps, mais je me le garde sous le coude, promis !
[^] # Re: Le peuple demande plus de précisions !
Posté par Liorel . Évalué à 7.
Sinon, tu fais un fichier CSV avec une seule colonne : le nombre de fichier dans le torrent. Et tu laisses les aficionados de R et de python faire joujou.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
[^] # Re: Le peuple demande plus de précisions !
Posté par tetraf . Évalué à 5.
J'ai fait un petit (28 Mio) CSV à partir de la base de données de mon instance avec le nombre de fichier par torrent et la taille totale du contenu.
→ https://framadrop.org/r/spk7vT1Sq9#eumiD308q+H97NhAUzNyShKtYjvSTg+O0qB6TbngUKc=
A priori la médiane serait de 2 fichiers et environ 700 Mio.
# Médiane ?
Posté par Ely . Évalué à 10.
Je pense que la médiane serait plus intéressante que la moyenne, ça permettrait d'éviter que les torrents avec des milliers de fichiers pèsent trop.
[^] # Re: Médiane ?
Posté par Anonyme . Évalué à 1.
Je pensais à la même chose :)
Il suffit des quelques épisodes fraichement sorties sur Netflix et partagés par deux mille personnes pour faire grimper la moyenne.
Avec sa pondération, la médiane permettrait de lisser les grands écarts pour un résultat plus proche de la réalité.
[^] # Re: Médiane ?
Posté par paulez (site web personnel) . Évalué à 3.
Un moyen simple d'avoir quelques statistiques sur ces données est d'utiliser la librairie pandas, de convertir la liste de données en Series et d'utiliser la méthode describe(): https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html
[^] # Re: Médiane ?
Posté par ckyl . Évalué à 3.
Quitte à sortir panda autant afficher directement la distribution qui te permettra une observation complète plutôt que de se limiter à quelques vues arbitraires et limités. Des exemple avec Seaborn: https://seaborn.pydata.org/tutorial/distributions.html.
Au "pire" tu sors un histogramme.
Visualiser ses données c'est bien (cf. Anscombe's quartet)
# et la taille ça compte aussi non ?
Posté par bunam . Évalué à 2.
Est-il possible d'avoir la taille totale en To que représentent les 2,36 millions de torrents ?
Merci
[^] # Re: et la taille ça compte aussi non ?
Posté par Glandos . Évalué à 1.
Voir https://linuxfr.org/users/glandos/journaux/38-ou-39-fichiers-par-torrent#comment-1707648
[^] # Re: et la taille ça compte aussi non ?
Posté par tetraf . Évalué à 8.
Pour l'instant, mon instance de Magnetico a indexé 2 098 771 torrents contenant 80 320 588 fichiers d'une taille cumulée de 5,1 Pio. La base de donnée sqlite contenant ces informations occupe 7,2 Gio.
# Taille de la DB
Posté par Manozco . Évalué à 7.
Hey, je ne connaissais pas ce projet. Ça a l'air intéressant. Serait il possible de connaitre la taille de ta DB d'indexation après 2M torrents ?
# les drama d'asie
Posté par Anonyme . Évalué à 2.
je prend beaucoup de drama coreen et chinois, ce sont des pack complet de toute la saisons, cela va au minimum de 24 épisodes a 120 épisodes, par torrent + fichier de sous titre inclue
un épisode = 1 heures de film
pareil pour les animé, 1 torrent avec la saison complète
il y en a de milliers de ces pack, sans compter l'inde, la thailande, la malaisie, le japon etc …
[^] # Re: les drama d'asie
Posté par xcomcmdr . Évalué à 1.
Ça m'intéresse, tu as des sources ? ;-)
"Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
[^] # Re: les drama d'asie
Posté par Anonyme . Évalué à 4.
oui, en rot13 :)
nivfgnm.gb fhe vaivgngvba, cbfgr ha znvy ra ebg13 wr g'raibv har vaivgngvba, fvaba pn bhier ra qrprzoer fnaf vaivgngvba. ha crh qr yngva cbhe bofphepver yr grkgr : Phz nquhp freiverz, unovgnonzhf va ivpb nathfgb ; ahap Tnivyynr qbzhf rfg. Vov, dhbzbqb qvv ibyhag, nzner pbrcv hkberz Greragvv pbcbavf : abirengvf Zryvffnz Gneragvanz, chypureevzhz onppvonyyhz… Uhvhf pbaghoreanyvf nq ivyynz fhcerzhz qvrz bovvg. Vgndhr cre fphghz, cre bpernz rtv ntvaniv, dhrznqzbqhz nq vyynz creiraverz…
# Autre stat
Posté par Cᴬᴾᵀ Samavor . Évalué à 1.
Je connaissait pas magnetico, faudra que je me tienne plus à jour.
De mon coté j'ai testé la disponibilité du contenu, sur 100 magnets piqués au hasard, au bout de 24h, 97% sont "stalled" (incomplets et sans sources)
Bon ça peut évoluer et n'a rien à voir avec magnetico lui-même, mais c'est une stat sur le réseau DHT qu'il serait intéressant de connaitre avec précision.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.