Pour le contexte,je n'aimais pas cette vidéo au début, d'une part parce que l'on parle de Visual Studio, et que ça sentait un peu le refrain du "C T mieux avant !".
Cela dit, il y a une partie de vrai dans ce qui est dit, et est généralisable, puis la dernière partie de la vidéo est intéressante : l'interviewé, essaie d'expliquer, pourquoi, aujourd'hui, certains logiciels sont devenus lents, affreusement lent, par rapport à ce qu'ils étaient début 2000.
Les arguments avancés (ça permet d'éviter de voir la vidéo, que je comprends, ne plait pas, mais tout va bien !) :
Les développeurs d'aujourd'hui apprennent beaucoup de chose, mais pas ce qu'est un CPU, ni comment optimiser ;
Il y a d'autres centres d'intérêt, plus rémunérateur, qui focalise l'attention ailleurs, il trouve le CSS par exemple plus complexe que l'assembleur ;
Les erreurs de certains projets s'accumulent, et le mal devient irréversible, il faut souvent trop de travaille pour revenir à quelque chose de performant et on dépense en vain pour corriger à posteriori ;
Les performances ne sont pas une priorité, parce que l'on vit sur la certitude que la puissance évolue toujours de façon exponentielle (puis ça fait vendre).
Voila, il y aurait pu y avoir un débat inter-générationnelle, pour ou contre les accolades en fin de ligne et tout.
Perso, j'évite de moinsser (ce serait d'ailleurs intéressant de connaître les statistiques de son propre compte à ce sujet), mais il faut bien avouer que ma position est très claire vis-à-vis des liens youtube — appuyée par le fait que je ne compile pas de codecs vidéo sur mon pc, ou en tout cas pas adaptés à ça — « les liens youtube c'était mieux à l'époque où ça pointait vers des textes en UTF-8, voire en ascii. » :-)
Pareil pour moi, je vois un lien vidéo (surtout youtube, qui coumule les inconvénients de la vidéo avec ceux d'appartenir à google), je passe mon chemin (sans moinser).
Un texte, on peut le survoler pour voir ce qu'il vaut, une vidéo, c'est plus dur.
Un texte a souvent besoin d'être mieux pensé et mieux construit qu'une vidéo, qui est souvent plus immédiatiste. Attention, je dis souvent, parce que les textes mal torchés et les vidéos super-intéressantes, il y en a, et plus qu'à leur tour. Mais dans mon cas, quand je cherche des infos et des développement sur un sujet, je favorise toujours les textes et ne me rabats sur les vidéos que quand je n'ai pas le choix.
En fait, ici, l'idéal serait d'éviter les liens vers les vidéos et faire à la place un court journal résumant la vidéo et qui donnerait envie de la voir. Ou non. Ça permettrait d'avoir l'équivalent du survol du texte. Par exemple, le message de YBoy360 qui résume la vidéo aurait été bienvenu dans son entrée de lien (qui serait alors devenu un journal).
Casey Muratori est un programmeur que je qualifierai, entre autres choses et sans vouloir le limiter à cela, de militant en faveur de programmes plus efficaces. C'est loin d'être un clown et je lui attribue des qualités de pédagogue.
Il a notamment échangé publiquement avec Robert C. Martin au sujet du livre Clean Code de ce dernier, de l'impact négatif en termes de performance que les conseils du livre ont généré. Là où beaucoup de programmeurs dégagent un air prétentieux et supérieur en méprisant Clean Code, Casey a opté pour une approche critique en échangeant ouvertement et poliment avec le premier concerné : https://github.com/unclebob/cmuratori-discussion/blob/main/cleancodeqa.md
C'est un peu dommage que le lien soit moinsé parce que le gars vaut le coup d'être écouté. Ce n'est pas son intervention la plus instructive mais un bon point d'entrée. Une citation de cette vidéo :
The idea that programmers are too lazy, or something, to learn and employ the stuff is simply false. It is that culturaly they have been taught, and are working with peers, who think that somehow it's virtuous to not know how a computer works. And that is a problem.
De mon expérience c'est tout à fait juste. Entre l'éducation universitaire qui pense en complexité algorithmique et en machine abstraite, l'industrie qui pousse pour des solutions vite implémentées pour pas cher en jetant des « Engineering time is expensive, memory is cheap », le délire de la montée en puissance considérée comme acquise, la culture du one-liner et le fantasme du compilateur qui optimise tout ; aucun doute que l'éducation des programmeurs va à l'opposé de l'écriture de programmes efficaces.
Entre l'éducation universitaire qui pense en complexité algorithmique et en machine abstraite
Je ne pense pas qu'il faille opposé la complexité algorithmique et en mémoire sur la compréhension du CPU.
l'industrie qui pousse pour des solutions vite implémentées pour pas cher en jetant des « Engineering time is expensive, memory is cheap »
Les utilisateurs aussi poussent à cela.
le délire de la montée en puissance considérée comme acquise
Parce qu'elle l'est encore plus ou moins et l'a était pendant des décennies.
la culture du one-liner
Souvent aussi poussé par le même genre de personnes qui ont une bonne maîtrise du CPU
le fantasme du compilateur qui optimise tout
Jamais entendu ça, j'ai entendu "si tu veux pas t'y intéressé plus, écris un code simple, ça aidera le compilateur".
La performance en informatique est immensément plus complexe que ce que la majorité des gens qui en parlent décrivent. Il y a un paquet de façon de comprendre ce qu'est la performance (amélioration de la latence, du débit, de la consommation de ressources, du temps d’exécution,…) et je n'ai jamais vu de critique prendre véritablement le temps de se poser sur ces questions, d'ensuite décrire comment est-ce qu'on mesure (Mozilla s'est cassé les dents à être plus rapide avec un ressenti plus lent que son adversaire) pour ensuite expliquer comment est-ce qu'on y parvient.
Dire que les gens ne comprennent pas les CPU c'est vrai je suis d'accord, mais c'est sauter à la conclusion, ils ne comprennent pas plus les IO par exemple, ni leur stack d'affichage,… selon ce qu'ils écrivent comme logiciel le CPU ne sera pas forcément le plus important.
Et la performance n'est pas le seul critère, la sécurité est très largement ignorée, on parle vite fait de performance, mais que ce soit avoir un code véritablement sûr ou supprimer les supply chain attack ça ne fait parler que vite fait quand un drame se produit sans pour autant dire qu'il y a de solution sûre à ce sujet. Il en existe pas, mais est-ce que c'est une bonne raison pour ne pas s'attaquer au sujet ?
Je suis personnellement beaucoup plus pour un processus d'amélioration où on pose la question de qu'est-ce qui est important (rapidité, efficacité, sûreté, réactivité,…) et qu'on regarde comment l'améliorer ou le maintenir dans le temps. Ça peut consister à connaître le CPU ou peut être à en faire tout simplement moins (et à considérer que des fonctionnalités n'ont pas leur place) ou tout un tas d'autres choses.
Clean code met l'accent sur la maintenabilité du code, lui reprocher son manque de performance est une évidence, c'est toujours une histoire de compromis. Personnellement tu ne me verra pas écrire un duff's device sans qu'il y ai un besoin absolument critique de cette ignominie.
Posté par YBoy360 (site web personnel) .
Évalué à 6 (+4/-0).
Dernière modification le 17 décembre 2024 à 09:17.
Merci, pour moi ce qu'il dit est cathartique. Avoir le courage d’argumenter fasse au "ne pas faire de micro-optimisations" (ce qui est une bonne pratique "clean", qui se transforme en "ne pas les faire trop tôt …") est courageux, même si tout est question d’équilibre, il faut les faire en cas de gains significatifs.
Pour avoir fait beaucoup d'optimisation CPU, il est clair que la moyenne des développeurs ne se soucis plus d'optimisations et de spécificités d'architecture. Cela dit, les articles traitant d'optimisation CPU / GPU ont souvent du succès, même aujourd'hui.
l'IA, les Rust, Java et autres, prouve que l'on isole plus le compilateur, l'IDE, le langage et le HW. Et c'est très prometteur pour le future.
Une de mes grandes fiertés de cette année, c'est d'avoir sur quelques mois :
réalisé une analyse statistiques de données de prod
choisi un modèle mathématiques en rapport avec ce que j'observais
évalué la viabilité de mon modèle par des benchmark et des expérience pour vérifier la fiabilité fonctionnelle (comme ça utilise des proba vérifier qu'on ne tombe véritablement pas dans les cas problématiques)
choisi un meilleure architecture lié à ce modèle mathématiques pour réduire la taille des données manipulées
utilisé des optimisations bas niveau accessibles grâce au fait d'avoir réduit la taille des données (pour faire simple chaque élément tiens maintenant dans un registre)
et ainsi obtenu des gains de 50% de nos débits (sous charge sinon ça se voit pas) sur un pan assez important de notre logiciel.
C'est une illustration de ce que je décrivais, il ne faut pas opposé la complexité algo et le CPU, il faut les coordonner pour arriver au résultat que tu attends.
J'ai l'impression qu'on cadre beaucoup cette discussion comme si c'était (uniquement) un problème de compétence des développeurs. Je pense que ce n'est pas vraiment le cas, il y a plein d'autres choses qui rentrent en jeu.
La première, c'est que dans beaucoup de cas, les optimisations ne sont pas nécessaires ou pas prioritaires. Optimiser le code, concevoir l'architecture la plus efficace, ça prend du temps. Souvent, c'est plus important de livrer des nouvelles fonctionnalités très vite (avant les concurrents). Et en plus, on travaille avec des spécifications changeantes (les fameuses méthodes agiles), alors que pour faire de l'optimisation, il faut souvent pouvoir considérer un problème dans son intégralité pour bien déterminer la solution optimale. Si tu passes un mois à écrire la structure de donnée parfaite, mais que la semaine suivante, finalement ton programme doit faire autre chose, tu peux tout jeter et recommencer.
Il y a aussi une certaine tolérance des utilisateurs. C'est vrai en informatique mais aussi dans d'autres domaines. Par exemple, les téléphones mobiles modernes ont une latence plus importante que les anciens téléphones fixes à réseau par commutation de circuits. On s'est habitué, les usages ont évolué, et maintenant on arrive même à faire des visioconférences à plusieurs avec une latence encore plus importante. Il en va de même pour l'informatique, les gens développent une tolérance aux interfaces lentes et on peut se permettre d'être de pire en pire sans que ça fasse fuir tous les clients.
Du côté des développeurs, par contre, il y a quelques domaines où ça ne marche pas comme ça: le jeu vidéo, ou les systèmes embarqués/temps réel par exemple. Dans ces contextes là, il y a moins de problème pour passer du temps à optimiser les choses, il y a le budget pour, parce que sinon, le projet de marche pas.
Une solution serait de rendre les choses obligatoires. Pour la sécurité ça commence à se faire par exemple avec le Cyber Resilience Act qui va pousser les entreprises à assurer les mises à jour de sécurité. Du côté des performances, il pourrait y avoir des équivalents pour l'éco-conception (soit avec des obligations, soit avec un étiquettage/certification de type "nutri score"). En fait, c'est aussi déjà le cas dans certains domaines, les développeurs de frigo connectés sont très bons pour faire de l'électronique et du logiciel à basse consommation pour pouvoir afficher le score A++ en consommation d'énergie.
Au final, le problème ce n'est pas vraiment les développeurs, ce sont les clients qui ne veulent pas payer pour avoir des logiciels performants, ils préfèrent avoir un truc moins cher et livré plus tôt, et payer un peu plus de matériel. Là, une autre solution serait de rééquilibrer le coût du matériel (vraiment pas cher actuellement) et le coût du travail humain. Si les développeurs étaient payés moins cher, on pourrait leur faire passer du temps pour faire des économies sur le matériel. Ce n'est clairement pas l'équilibre actuel des choses.
ce sont les clients qui ne veulent pas payer pour avoir des logiciels performants
Toute notre économie est tournée vers la production de masse au meilleur coût pour dégager un max de bénéfice, quel que soit le coût en certains autres termes qui ne comptent pas, les coûts environnementaux par exemple.
Les développeurs d'aujourd'hui apprennent beaucoup de chose, mais pas ce qu'est un CPU, ni comment optimiser ;
Ceux qui essayent s'y brûlent, on perd du temps à améliorer le tout avec ses 2 machines de test, on déploie, bam perte de performance sur une machine ailleurs, on râle, puis on comprend que le meilleur compromis sur toutes les machines c'était celui fait par le compilo sur notre "mauvais" code, et on n'a pas l'argent illimité pour optimiser pour chaque CPU donc on se dit qu'on aurait dû faire comme les autres et ne pas chercher à optimiser car c'est de nos jours pas bien rentable.
(quoi? Oui, je suis en plein dedans en ce moment, je m'arrache les cheveux à tester plein de machines différentes, entre CPU et aussi GPU)
Si ton optimisation n'est pas celle du compilo. y'a des chances pour que tu te sois foiré quelque part.
Pour avoir appris sur mon temps libre l'assembleur, je peux dire qu'il n'est pas si difficile d'optimiser un code. La connaissance de l'assembleur est bien un pré-requis car il donne vraiment une idée suffisamment précise du comportement du CPU (y compris les questions de latence sur les IO car ces accès sont explicites - et on distingue bien un accès en lecture et en écriture).
À partir de là :
L'exercice consiste à étudier la sortie d'un compilo sur du code simple.
Par obligation on est amené à réimplémenter des fonctionnalités très simple. Autre exercice : étudier comment la libc ou autres fait ça.
Spoiler alert : il y'a quantité d'optimisations qui ne sont pas déléguées au compilo. Alors à moins de considérer que les devs de la libc sont des branques…
Trois trucs avec le compilo :
Tu ne le maîtrises pas ni le contrôle. Alors à moins de délivrer qu'un binaire final, tu ne peux préjuger des optimisations appliquées. Les compilos modernes sont devenus horriblement complexes… et LENTS !
À force de déléguer on finit par avoir des CPUs complètement troués parce qu'on pense que la prédiction de branche automatique c'est bien plutôt que de prendre 5s pour signifier au CPU que ce code-ci sera l'exception et l'autre la règle (donc non optimiser un code nécessite pas d'avoir forcément un bagage technique de fou). Sur ce point la causalité est inversée : si c'est le foutoir dans les CPU à tel point qu'un dev n'est pas capable de prédire à l'avance quel code sera performant sur telle machine (manque de prédictibilité du matériel et absence de modèle simple du comportement d'un CPU), c'est bien parce que les concepteurs de CPU y vont chacun de leur petites trouvailles pour obtenir les meilleures perf. malgré du code claqué au sol. On retrouve la même blague sur le nombre de cycle horloge par instructions. Bref on se mort la queue : si un CPU est si compliqué c'est aussi à force d'optimisations que les devs n'ont pas voulu faire parce que… "c'est trop compliqué un CPU".
Ce qui nous amène au dernier point : le compilo applique des optimisations génériques car il n'a pas le moindre début d'idée de ce que le code fait. Seul l'usager sait ce qu'il va en faire et le boulot d'un dev. c'est aussi d'optimiser son temps, savoir quand et où il a intérêt à lever les automatismes et prendre en charge lui-même les micro-optimisations (car faut-il encore le rappeler une énième fois la micro-optimisation c'est que dalle en terme de gain de performance face aux choix de conception - sélection des algorithmes, arbitrage entre le besoin et les moyens, etc.) C'est pas la compilo qui va te dire si ton algo de tri doit être économe en espace ou en temps, si t'es données sont presque triées ou totalement aléatoire, etc. Il pourra toujours essayer de le deviner mais cela impliquera une surcharge qui ne sera pertinente que sur de gros volumes (information que le compilo ne connaît pas…).
La connaissance de l'assembleur est bien un pré-requis car il donne vraiment une idée suffisamment précise du comportement du CPU
Pas vraiment. Les CPU modernes:
N'exécutent pas les instructions dans l'ordre,
Ont plus de registres en interne que ce qui est disponible dans le jeu d'instruction, et renomment/réassignent les registres à la volée,
Sont fabriqués par plusieurs fabricants implémentant le même jeu d'instruction, avec des nombre de cycles CPU par instruction pas forcément identiques,
Partagent les unités d'exécution entre plusieurs threads, donc on ne peut même pas savoir quelles ressources vont être disponibles,
De toutes façons, le problème est probablement la bande passante de la mémoire et rendre l'exécution du code sur le CPU plus rapide va juste faire que le CPU passe plus de temps à attendre au lieu d'exécuter du code.
Au final, l'assembleur est un langage de programmation comme un autre, il n'est même plus "proche du matériel". Donc autant choisir un langage plus confortable.
Bref on se mort la queue : si un CPU est si compliqué c'est aussi à force d'optimisations que les devs n'ont pas voulu faire parce que… "c'est trop compliqué un CPU".
Faire du code optimisé pour un modèle de CPU, une taille de cache fixe, une mémoire avec une bande passante bien déterminée: facile.
Faire du code optimisé dans tous les cas, y compris pour des CPU qui ne sont pas encore fabriqués: impossible.
Ces optimisations dans les CPU sont ce qui permet d'avoir du matériel moderne qui continue d'exécuter le code existant avec de meilleures performances. Je trouve ça mieux que de dire "ah on a rajouté 1Mo de mémoire cache dans le nouveau CPU, mais tu dois réécrire tout ton code pour l'exploiter, parce que c'est à toi de dire explicitement quelles variables il faut stocker dans le cache".
Le problème est simple: il vaut mieux optimiser le temps de travail des développeurs, plutôt que quelques cycles CPU. Et donc, ne pas avoir à réécrire tout le code à chaque nouvelle génération de CPU, c'est bien.
le compilo applique des optimisations génériques car il n'a pas le moindre début d'idée de ce que le code fait.
C'est faisable, on peut donner à gcc une trace d'exécution du code et recompiler une deuxième fois, et il va ajouter automatiquement les instructiosn de prédiction de branchement. Est-ce que des gens s'embêtent à le faire? Non, parce que même cette procédure entièrement automatisée n'a aucun intérêt économique dans la plupart des cas. Le temps passé par le développeur à mettre en place ça va coûter plus cher que les 0.1% de performance qu'on va pouvoir gagner. Sauf dans quelques cas particuliers où ces micro optimisations vont faire la différence entre "ça ne marche pas du tout" et "ça passe de justesse", ou là, le développeur peut être payé très cher pour passer du temps à ce genre de choses.
Et de toutes façons le problème de l'optimisation n'est même pas là la plupart du temps. Il y a des problèmes beaucoup plus bêtes de mauvais choix de structures de données, ou de mauvaise utilisation de structures de données. Par exemple, faire plusieurs fois de suite une recherche d'un objet dans une map, au lieu de le trouver une fois et de garder une référence. Là on peut avoir des gains de plusieurs dizaines de % de performances, et ça peut être intéressant d'y passer du temps.
Et pour faire ce genre de choses, c'est plus facile si on travaille avec un langage haut niveau ou au moins qui propose un bon choix de structures de données disponibles dans sa bibliothèque standard (C++ ou Python par exemple). Sinon, le coût de développer ne serait-ce qu'une hash map n'en vaut peut-être même pas la peine.
Il y a quand même des cas où le passage par l’assembleur reste efficace : c’est les codes qui peuvent massivement gagner en performances en utilisant énormément les instructions SIMD (SSE, AVX…) typiquement les codev vidéo (exemples : https://github.com/xiph/rav1e, https://code.videolan.org/videolan/dav1d).
ça c'est ce que tu fais uniquement lorsque le reste n'a pas permis d'atteindre les performances nécessaire.
Et ça implique de devoir différencier les binaires selon la plateforme (processeur), au risque d'avoir un crash franc de l'application; une solution est de vérifier les capacité du proc et choisir la bonne fonction, mais c'est rarement fait dans le cas des développement particuliers.
typiquement https://code.videolan.org/videolan/dav1d ne tournerai pas sur mon ancien proc qui ne gérait que l'AVX, et non l'AVX2. C'est dommage car il serait normalement amplement suffisant pour le décodage des vidéos.
Ou pour faire plus simple, dans le but de rendre le truc performant sur les anciennes plateforme, tu a fais un code qui ne tourne plus dessus :D
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
typiquement https://code.videolan.org/videolan/dav1d ne tournerai pas sur mon ancien proc qui ne gérait que l'AVX, et non l'AVX2. C'est dommage car il serait normalement amplement suffisant pour le décodage des vidéos.
Après, lire de l’AV1 sur une antiquité, c’est quand même un cas d’usage exotique.
Justement s'il répond au besoin, y'a pas de raison d'en changer. Par ailleurs tu le vieilli de pas mal d'années AMD_Phenom_II; pour être plus précis, fabriqué jusqu'en 2012, et il remplit très bien son rôle de boite multimédia.
Effectivement j'ai pas lu jusque là :D, pour ma défense, ce n'est pas le genre d'optimisation que je dois faire, c'est même le genre de truc à proscrire car trop dépendant du matériel, et si faut réécrire le bout d'assembleur lorsque on nous filera une autre machine, ça risque de poser problèmes. Pour la lib en questions ils sont obligés de regarder les capacité du proc, c'est envisageable pour des lib spécifique, mais pas pour les programme de tous les jours.
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
c'est même le genre de truc à proscrire car trop dépendant du matériel, et si faut réécrire le bout d'assembleur lorsque on nous filera une autre machine, ça risque de poser problèmes.
Je te trouve un peu radical :) Au boulot on a des implémentations SSE2 et AVX2 pour certaines fonctions (c'est justement un encodeur vidéo), ça ne nous empêche pas de fournir une version en C++ supplémentaire que le compilateur aura tout le loisir d'optimiser comme il lui chante. On vérifie ensuite à l'exécution quelle implémentation il faut brancher. Ce qui fait que nous n'avons jamais à réécrire l'assembleur quand on a de nouvelles machines. Si l'architecture est inconnue on peut toujours se rabattre sur l'implémentation C++. C'est même très confortable car nous pouvons forcer l'une ou l'autre implémentation et vérifier ainsi qu'elles donnent le bon résultat. De la même manière nous pouvons vérifier que les implémentations en assembleur sont réellement plus performantes que ce que fait le compilateur.
Il n'y a vraiment aucun problème à écrire de l'assembleur pour des fonctions très impactantes. Ce n'est pas la seul chose à faire (les choix de structures de données sont aussi importantes) mais ce n'est pas à proscrire non plus.
Pour donner un ordre d'idée, sur un benchmark global nous avons réduit le temps par frame de plusieurs dizaines de pourcents en passant du C à l'AVX2. À côté de cela nous avons aussi changé de compilateur et cela ne nous a fait gagner que 10% au max.
ah oui, tiens, le runtime peut choisir de lancer des portions de code selon le jeu d'instructions disponible… j'imagine qu'il y a le même genre de choses pour OpenGL (selon la version disponible)
Oui tout à fait. Y a plusieurs commentaires un peu étranges qui semblent impliquer qu'on doit faire un choix: soit utiliser de nouvelles instructions (ou autres nouvelles API qui ne sont disponibles que sur certains hardwares) soit rester rétro-compatible avec le vieux matos. C'est un très mauvais, et surtout faux, choix! On peut tout à fait rester compatible avec le vieux matos tout en utilisant les possibilités du nouveau matos quand il est disponible.
On a du code comme ça dans GIMP (en particulier dans babl et GEGL, nos moteurs de conversions de couleur et de traitement d'image par graphe). Ensuite idéalement pour des binaires génériques, on veut que la machine qui compile soit moderne et ait ainsi le plus de prise en charge d'extension possible. Ainsi oui, à la compilation, on doit pouvoir compiler les variantes du code (en plus du code générique) pour SSE*, AVX*, etc. Ensuite on livre les mêmes binaires sur toutes les machines (bon on sépare bien sûr les différentes platformes comme tout le monde, mais je me souviens de projets de gens qui faisaient des fat binary qui peuvent être exécutés sur divers OS ou architectures très différentes! Souvent cela reste surtout du "proof of concept" pour le fun… mais ça reste possible en théorie si on voulait vraiment cela) et le dispatch se fait à l'exécution.
Si c'était pas possible, ce serait assez nul comme situation. On serait obligés d'aller vers le plus petit dénominateur commun ou de retirer la prise en charge de vieilles-pas-si-vieilles machines (une forme d'obsolescence programmée).
Je pense que la bonne pratique est simplement:
Oui, bien sûr qu'il faut faire un code générique et le plus portable possible d'abord; comme ça, ça tourne partout (on ne créé pas un logiciel qui ne marche que sur du matos moderne).
Ensuite bien sûr qu'avoir des implémentations alternatives faisant bon usage d'extensions modernes est une bonne idée. Ces dernières ne remplacent pas l'implémentation générique. Il faut simplement un code qui choisissent quoi exécuter à l'exécution.
Il faut compiler idéalement cela sur un CPU moderne pour avoir toutes les implémentations embarquées dans le binaire.
j'imagine qu'il y a le même genre de choses pour OpenGL (selon la version disponible)
Ce type de logique est effectivement similaire pour plein de choses, pas seulement les instructions CPU. Par exemple dans GIMP, on a des variantes OpenCL de pas mal de filtres pour faire usage des GPUS (bon on l'avait désactivé par défaut à un moment à cause d'instabilités mais on a eu un récent project GSoC qui a retravaillé dessus et on a espoir de pouvoir reproposer OpenCL par défaut). C'est bien entendu aussi un dispatch à l'exécution.
Quand on y pense, même les choses comme X11/Wayland, c'est pareil. Les binaires Linux récents embarquent du code pour les 2 systèmes d'affichage, et quel branche est prise est décidé à l'exécution.
Je n'ai jamais touché du code OpenGL, mais je vois pas pourquoi cela pourrait pas être choisi à l'exécution.
Le problème principal de ces choix d’ingéniérie sont:
De plus gros binaires;
Une complexification du code.
Pour le second point, si le code est bien organisé, dans les faits, je trouve que ce n'est pas un problème. C'est pas comme si on devait mélanger tous ces codes au même endroit (t'auras pas du code SSE2 ou assembleur au milieu de ton algo générique en C). Ainsi si certains développeurs ne sont pas à l'aise avec les jeux d'instructions particuliers, ils n'ont même jamais à voir le code spécifique. Garder le code spécifique ne gêne en rien le code générique. C'est donc un non-problème à mon avis.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
(oui vraiment, tu fais partie des personnes à qui je n'enverrais pas un laconique « tu comprends la différence entre PGCD et PPCM ? »
c'est dommage que ceux développant la SDL (utilisée par plusieurs jeux) n'aient pas ton approche ! (ça marchait avant, ça marche ensuite), surtout pour des bibliothèques comme le soulignait julien_jorge<
De la même manière nous pouvons vérifier que les implémentations en assembleur sont réellement plus performantes que ce que fait le compilateur.
l'implémentation générique permet la vérification de l'implémentation spécifique (au prix de moindres performances pour le générique ou certaines fonctionnalités non disponibles), quoi de mieux pour avoir une CI/CD efficace !
c'est une des différences pour moi entre une amélioration (apporter des fonctionnalités) et une régression (enlever des fonctionnalités) ; cela va de soi qu'un bon développeur choisira l'apport de fonctionnalités supplémentaires, mais pas au détriment de ses utilisateurs actuels (qui pourraient perdre des fonctionnalités au passage).
Garder le code spécifique ne gêne en rien le code générique. C'est donc un non-problème à mon avis.
yep, bonne synthèse de mon avis aussi :p TL;DR toussa
pour le coup : cela vaut d'être relevé. Car ce qui va de soi n'est pas évident ni évidemment compréhensible pour tout le monde.
Sans mesure l'optimisation est inutile (et il faut avoir développé avant).
Sans objectif de maintien ou optimisation des performances précédentes, il n'y a rien à optimiser.
Sans volonté de fonctionner, autant adopter l'à venir au détriment du passé (qui fonctionnait avant), c'est malencontreusement certains choix que je vois de plus en plus faire o_O c'est absurde (cette phrase met en exergue le raisonnement injustifiable que tant les « stait mieux avant » et « ça va le faire » mettent en avant : bin non, « c'est améliorable, on l'ajoute à ce qui fonctionne déjà, ça rajoute des fonctionnalités » ah bah oui, si vous ne l'avez pas, vous n'en profiterez pas => tirer vers le haut en s'appuyant sur ceux qui ont bâti les bases !
Quand on y pense, même les choses comme X11/Wayland, c'est pareil.
C'est pas le concept générique qui est oublié, mais la possibilité de découvrir à l'exécution ce qui est disponible ou non sur le cpu. Surtout que les techniques peuvent être très différentes. Pour ce cas là, ça pourrait être au linkage avoir une implémentation pour chacun pour le cas des stack graphiques
la possibilité de découvrir à l'exécution ce qui est disponible ou non sur le cpu
Le CPU donne ces informations. Il existe diverses méthodes sur les diverses architectures pour obtenir ces informations. Par exemple, l'architecture x86 a l'instruction générique CPUID (depuis 1993 d'après Wikipedia, donc vous avez la prise en charge d'une majeure partie des CPUs de l'histoire de l'informatique grand public) qui est faite spécifiquement pour cela.
Pour ceux qui veulent voir ce que vous dit cette instructions, sur Linux, vous pouvez installer l'outil de ligne de commande cpuid qui vous fera un beau résumé en texte clair. Bien sûr dans un programme, il n'est nullement besoin de dépendre d'un tel programme en CLI. Puisque c'est une instruction processeur, faites la requête directement depuis votre code.
Dans d'autres cas, l'info pourrait venir d'autres instructions ou d'une interface kernel (apparemment c'est ce qu'on a pour la détection ARM neon), etc. Dans tous les cas, l'info est disponible. Le principe est d'avoir des fonctions de détection qu'on maintient et met à jour lorsqu'une nouvelle détection est ajoutée (ces interfaces étant normalement stables, elles ne sont jamais retirée, une fois une détection ajoutée, c'est normalement "à vie"). En fait ce n'est pas grave de manquer un type de détection. Dans ce cas, le code se repliera juste sur l'implémentation générique jusqu'au jour où quelqu'un qui s'y connaît ou fait quelques recherches ajoute la détection nécessaire. C'est comme ça que fonctionne le logiciel libre communautaire (par ajout incrémental de nouveaux contributeurs). C'est OK même si on aurait pu utiliser une implémentation plus rapide plus tôt.
Pour ce cas là, ça pourrait être au linkage avoir une implémentation pour chacun pour le cas des stack graphiques.
Tu parles de chargement dynamique à l'exécution? Parce que si tu parles de ce qu'on appelle habituellement du linking, c'est à la construction (juste après la compilation), ce n'est pas quelque chose qui se fait à l'exécution. Si tu fais des choix à cette étape là, alors ton binaire n'a plus toutes les capacités possibles et ne fonctionne plus partout.
Au contraire, ce que je dis, c'est qu'à la compilation/linking, tu inclus tout ce que ton compilateur permet (sans te préoccuper de la cible, ou plutôt des multiples cibles qu'aura ton binaire), et c'est à l'exécution que tu fais les choix de quoi exécuter.
Si tu parles de chargement dynamique, du type tu as une bibliothèque avec les implémentations génériques, une bibliothèque avec implémentations SSE2, etc. Puis tu choisis quelle version charger à l'exécution. Oui c'est possible et certains projets font un peu ainsi, mais ce n'est nullement obligatoire. Tu peux simplement tout embarquer dans le même binaire, et tu fais les choix de quelle branche de code exécuter selon la détection des capacités du hardware au moment de l'exécution.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Posté par Zenitram (site web personnel) .
Évalué à 3 (+1/-0).
Dernière modification le 20 décembre 2024 à 15:39.
(depuis 1993 d'après Wikipedia, donc vous avez la prise en charge d'une majeure partie des CPUs de l'histoire de l'informatique grand public)
En tant qu'utilisateur à une époque d'un 286, je le prend mal.
(oui, j'ai été geek tôt, et merci maman pour la machine qui m'a permit de découvrir de monde enfant)
Tu parles de chargement dynamique à l'exécution? Parce que si tu parles de ce qu'on appelle habituellement du linking, c'est à la construction (juste après la compilation), ce n'est pas quelque chose qui se fait à l'exécution. Si tu fais des choix à cette étape là, alors ton binaire n'a plus toutes les capacités possibles et ne fonctionne plus partout.
Certains compilent le même fichier source plusieurs fois avec des paramètres différents puis un code "glue" qui va choisir la version à l'exécution, et donc le linker fait le taf de tout mettre ensemble dans ce cas.
En tant qu'utilisateur à une époque d'un 286, je le prend mal.
🤣
Certains compilent le même fichier source plusieurs fois avec des paramètres différents puis un code "glue" qui va choisir la version à l'exécution, et donc le linker fait le taf de tout mettre ensemble dans ce cas.
Oui j'ai vu ce genre de truc. Notamment il me semble que libx265 fait un truc de ce genre. On le compile 3 fois avec options différentes: pour le support 10bpc, puis 12bpc et enfin 8bpc qui va intégrer les 2 versions pré-compilées précédentes. (bon là c'est pas une histoire de prise en charge matérielle mais bon…)
Enfin bon, au final, c'est la même chose. On parle bien de linking une fois pour produire un binaire unique avec tout dedans. Comme tu dis, c'est ce "code glue" qui fait le dispatch à l'exécution. 🙂
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Quand on y pense, même les choses comme X11/Wayland, c'est pareil.
Pour ce cas là, ça pourrait être au linkage avoir une implémentation pour chacun pour le cas des stack graphiques.
[…]
Si tu parles de chargement dynamique, du type tu as une bibliothèque avec les implémentations génériques, une bibliothèque avec implémentations SSE2, etc. Puis tu choisis quelle version charger à l'exécution.
Alors oui je parlais évidemment du linkage dynamique le link des bibliothèque pour être statique ou dynamique
Le "pour ce cas là" fait référence au cas où tu as une implémentation X11 (xcb ou xlib pour être exact) et wayland (et frame buffer et d'autres choses si besoin) et il permet de ne pas avoir a implémenter la sélection dans ton code. L'installation n'installe que l'un ou que l'autre ou la distribution peut te faire linker avec l'implémentation qui correspond à ce qui correspond actuellement à l'environnement. C'est en ça que le fait qu'il y a pleins de techniques pour faire de la sélection tardives d'implémentation et que le fait que ça existe pour X/Wayland n'indique pas du tout que c'est possible par ailleurs.
Même sans ça le fait que le serveur d'affichage te permet de détecter sa présence n'indique pas que le CPU te permet de savoir quel jeu d'instruction existe ou pas.
Bref c'est intéressant de savoir que cpuid récupère ces informations depuis le CPU lui-même et pas depuis une base de connaissance.
Je me cite : "c'est envisageable pour des lib spécifique, mais pas pour les programmes de tous les jours."
Oui pour les points critiques, on peut tenter de faire mieux que le compilo auquel on a précisé l'architecture, mais pour reprendre le sujet du journal lien c'est pas ça qui va faire qu'une appli mal codée va faire des miracles.
Pour la lib pointée, y'a différente implémentation selon l'archi, tu fais pas ça tous les jours.
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
Pour la lib pointée, y'a différente implémentation selon l'archi, tu fais pas ça tous les jours.
tu le fais une fois pour une nouvelle archi (et de meilleures performances éventuellement / maximiser l'efficacité / bref optimiser spécifiquement) ou pour apporter une nouvelle fonctionnalité pour bénéficier de possibilités supplémentaires. S'il n'y a pas les pré-requis, cela ne permet pas de bénéficier de ces nouvelles possibilités, mais ça ne devrait pas gêner le bon fonctionnement qu'il y avait sans…
Il n'y a que moi que ça énerve ces logiciels qui fonctionnaient sans OpenGL 4.x (mais avec moins d'effets, moins de textures, une résolution moindre, des capacités de traitement moindres) et qui du jour au lendemain ne se lancent plus car cette nouvelle exigence devient un pré-requis ?
Ce genre d'obsolescence arbitraire est particulièrement frustrant pour une retrogame box qui ne devrait pas réclamer un foudre de guerre pour fonctionner :-) (d'autant que les nouvelles tours perdent certaines connectiques, genre un game port disponible avec toute bonne carte soundBlaster de l'époque… oui, dans notre fablab j'ai des manettes et un volant qui ont ces prises et non de l'USB…)
Il n'y a que moi que ça énerve ces logiciels qui fonctionnaient sans OpenGL 4.x (mais avec moins d'effets, moins de textures, une résolution moindre, des capacités de traitement moindres) et qui du jour au lendemain ne se lancent plus car cette nouvelle exigence devient un pré-requis ?
Si c'est énervant, normalement la lib devrait gérer une rétrocompatibilité, c'est son rôle. La question est jusqu'à quand, et dois t'on conserver des bug car des gens se sont basés dessus ?
Avoir plusieurs implémentation d'un même fonction, ça se fait, ça peut se choisir au runtime, mais d'expérience, y'a que ce qui est utilisé couramment qui est testé, et lorsqu'on fait une évolution de la fonction (prise en compte de nouveau paramètres, correction), seule une implémentation est validée, le reste passe à la trappe.
C'est un investissement conséquent que de pouvoir tester plusieurs implémentation sur différentes archi; autant pour utiliser tel ou tel interface, on peut facilement faire des tests, pour des matériel différent c'est un poil plus compliqué.
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
y'a que ce qui est utilisé couramment qui est testé, et lorsqu'on fait une évolution de la fonction (prise en compte de nouveau paramètres, correction), seule une implémentation est validée, le reste passe à la trappe.
bin ça marchait avant, pourquoi ça ne fonctionnerait plus ?
si ça ne fonctionne plus : il y aura bien quelqu'un pour se plaindre (et proposer le correctif trivial la plupart du temps)
si ça fonctionne : autant le garder, non ?
seule une implémentation est validée
selon les possibilités : dans notre fablab j'ai dégagé tous les pentium (3 ça va de soi, 4 aussi car énergivore) sauf les pentium 5 (rebranding d'intel après core et core2 et core2 duo, et 1 et 2 et 3, zéro — z'ont loupé le quatre contrairement à Audi :/)
j'ai encore quelques AMD "X2" du début de siècle : l'alternative me permet de conserver des portables de ~2004 opérationnels (ça suffisait au siècle dernier, pourquoi ça ne fonctionnerait plus 20 ou 30 ans après ?). L'abandon du i586 par Ubuntu/Canonical correspond à mon choix de privilégier Debian dans notre fablab : leur problème, j'ai des recours :p).
Bon, pour mon 486DX2 boosté avec 16 Mo de RAM — ma mini-tour montée par mes soins — j'ai lâché l'affaire (oui je suis faible /o\)
C'est un investissement conséquent que de pouvoir tester plusieurs implémentation sur différentes archi; autant pour utiliser tel ou tel interface, on peut facilement faire des tests, pour des matériel différent c'est un poil plus compliqué.
cela a un coût d'enlever du code, tu n'es pas à l'abri que des clients se plaignent :-)
si, par chance tu avais réussi à le vendre à des clients payeurs, il est légitime que les dernières versions continuent de fonctionner. Regarde XP : on l'a bien conservé au-delà de ses années de support (même Microsoft), alors qu'il aurait été plus simple de passer à Linux :p (ce que Microsoft permet^Wenvisage XP z'en ont bavé :p
Je doute que ce soit arrivé. Je pense que c'est arrivé lors d'une mise à jour. Et c'est à voir avec les développeurs de savoir pourquoi est-ce qu'ils ont retirer le support. Il y a pleins de raisons possibles (des remontés de bugs dessus avec personnes dans l'équipe en mesure de les reproduire/tester, volonté de garder un code simple, impossibilité de faire quelque chose qu'ils voudraient avec OpenGL4, une dépendance qu'ils utilisent qui ne supporte plus OpenGL4,…). Ça t'énerve peut être, mais c'est à voir avec les développeurs.
Posté par barmic 🦦 .
Évalué à 3 (+1/-0).
Dernière modification le 18 décembre 2024 à 12:01.
OpenMP ne peut pas inventer le processeur sur le quel il va tourner. Donc ça va dépendre de la cible que tu donne à ton compilateur. Tout le point plus haut est de justement être en mesure d'utiliser les instructions de ton CPU qui vont permettre d’accélérer l’exécution.
Il n'y a pas vraiment de magie pour ça ou plutôt il y en a une mais elle est pas gratuite c'est d'avoir du JIT.
L'idée c'est de compiler le code sur la machine cible au moment où tu as sais quel CPU tu utilise et tu as des stats pour faire de la compilation guidé par des profile. C'est java et probablement C#. Après il faut que le code intermédiaire aide à trouver les optimisations possibles donc par exemple ai une abstraction de SIMD.
Et encore tu oublies que pas mal d'appli doivent pouvoir tourner sur plusieurs archi mac, PC, téléphone, console… avec des spécificité propres.
Et de toutes façons le problème de l'optimisation n'est même pas là la plupart du temps. Il y a des problèmes beaucoup plus bêtes de mauvais choix de structures de données, ou de mauvaise utilisation de structures de données. Par exemple, faire plusieurs fois de suite une recherche d'un objet dans une map, au lieu de le trouver une fois et de garder une référence. Là on peut avoir des gains de plusieurs dizaines de % de performances, et ça peut être intéressant d'y passer du temps.
Je ne compte plus le nombre de if(map.existe('machin')) { Plop zut = map.get('machin'); } que je trouve dans le code, ou les push_back sauvage dans un vecteur sans avoir réservé la taille nécessaire alors qu'elle est connue.
J'ai aussi trouvé des vérification de clé unique via un parcours dans tableau (non trié cela va de soi), lorsqu'on augmentait un peu la taille des données ça explosait le temps de vérification.
Y'a aussi la manie de garder le xml source de données qu'on reparse à chaque fois pour en récupérer une valeur.
Ouais avant de descendre à l'assembleur, inutile dans l'immense majorité des cas, se pencher sur le code, ses structures, et ses tâches sont bien plus rentable. Si on a pas de quoi instrumenter le code, un bon vieux debugger avec arret, print stack trace de tous les thread, continue, et on recommence, permet de facilement trouver là où l'on passe du temps (a vu de nez) (les mesure exacte ça reste mieux)
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
Posté par BAud (site web personnel) .
Évalué à 6 (+4/-0).
Dernière modification le 17 décembre 2024 à 16:58.
Ces optimisations dans les CPU sont ce qui permet d'avoir du matériel moderne qui continue d'exécuter le code existant avec de meilleures performances.
de toute façon — me concernant — j'ai croisé plus d'applications I/O bound (le CPU passe son temps à attendre des données à traiter) que CPU bound…
déjà pour celles CPU bound savoir gérer le mulithreading (avec la démultiplication des cœurs) ou au minumum le multi-process ce serait bienTM : cas réel, une appli calculatoire qui fonctionnait mieux sur un CPU à 3,6 GHz que sur un CPU plus récent multicœur (6 ou 8) mais à 1,6 GHz : 3h de traitement contre 4 à 5h, 8 mois après et 4 changements de CPU, le projet a enfin eu son budget pour passer en multithread :/ (ce qui était ma recommandation initiale…)
pour celles I/O bound :
relire un répertoire de 10000 fichiers à chaque fois qu'on traite un fichier, autant en mettre 9000 de côté et les fournir par paquets de 1000 pour accélérer les traitements de rattrapage…
savoir optimiser des requêtes SQL : ça me prenait parfois jusqu'à 3 semaines pour disposer d'un DBA compétent, mais passer de 10 sec à 100 ms pour des requêtes conséquentes réutilisées, ça peut valoir le coup (tant que les requêtes sont fonctionnellement équivalentes) et j'ai maudit pas mal d'ORM pour leurs requêtes imbriquées aux plans d'exécution douteux)
lenteur d'affichage de page : connaître le problème des écrivains / lecteurs et les optimisations de moteur SQL, ça peut aider… en plus de la gestion basique des locks (pas forcément qu'au niveau ligne, parfois niveau bloc :/)
bref, la gestion des perfs : un bon profiler de code pour savoir où tu passes le plus de temps et savoir organiser des tests/benchmarks avec des volumétries représentatives…. (mais c'est un autre métier que développeur en tant que tel)
La recherche des fichiers n’est pas si consommatrice. La structure des répertoires est très légères et, sauf le premier accès, va être pauvre en IO. Ce qui va se jouer c’est le syscall (permutation user-kernel mode), et les différents algo. en œuvre pour la résolution du chemin, la vérification des droits, etc. Par défaut, par exemple, la liste des fichiers est très souvent triée dans le monde Unix, au lieu d’être restituée dans l’ordre présent sur le disque (± l’ordre dans lequel ça a été écrit). Il y a de quoi accélérer tout ça, ne pas constamment demander au kernel une résolution de chemin encore faut-il y avoir accès (donc probablement qu’en C ?) et les connaître. Ça demande une compréhension fine du système, un profiler n’est qu’une aide qui ne répond que, très mal, qu’à une partie du problème. Au mieux du mieux, il te donne une piste sur les bouts de code à optimiser. Mais rien ne garantit que ce bout de code n’est pas tout simplement bon à jeter à la poubelle, au lieu de passer du temps dessus pour grapiller quelques pourcents. Ton truc de modifier la structure de tes répertoires, c’est typique d’une fausse bonne idée : un répertoire c’est juste une liste de fichiers, et une liste de 10k éléments (×255 octets / noms de fichiers = 2,55Mo) c’est que dalle à l’heure actuelle. Si t’es limité par une aussi petite liste, c’est clairement que y’a une couille dans ton programme (ie. si t’as un problème d’IOs, c’est parce que tu fais des IOs à tort). Quand t’as 16Go de données, oui là tu peux mettre en place une stratégie de segmentation pour traiter par partie…
Pour SQL c’est encore pire. Dans tous les cas il ne faut pas préjuger du facteur limitant d’une application. Dans ma vie, j’ai connu exactement le contraire. Faut dire que j’ai travaillé sur des applis scientifiques (donc totalement limitées par le calcul) et du traitement batch de données dans la banque/assurance (donc masse de SQL en ce qui me concerne), où un problème d’IO a toujours relevé, très clairement, d’une mauvaise conception : car le principe de base dans mon domaine, c’est un accès/traitement/mise-à-jour totalement séquentiel et linéaire des données (l’enjeu sera de dimensionner correctement capacité de calcul et débits, et dans ce cas cela relève des choix de production). Si tu demandes un accès random, tu vas être à la ramasse sur les IOs, mais ton problème n’est absolument pas un problème d'IOs, le problème c’est l’accès random sur xGo de données…
Dans 99% des cas que je rencontre en pratique, c’est codé avec les pieds, avec un modèle physique de données inadapté (je plaide coupable : je normalise systématiquement pour privilégier la maintenance, ce qui multiplie les jointures…) et le compilateur, CPU, n’y peuvent absolument rien. Remet tes données à plat, maintien un journal des mouvements, traités en batch à postériori, comme on peut le faire dans le monde bancaire, tu va voir que les IOs ne seront plus ton (seul) problème. Ouah t’as optimisé un code sous-optimal ? La bonne affaire ! et si je le vire pour faire la même chose de manière autrement plus efficace ?
Bien que le constat ne soit pas joyeux, il me semble économiquement inévitable.
D'une part, à cause du rapport entre le coût de développement et le coût du matériel dans le contexte actuel. Si on doit choisir entre payer un développeur qualifié pour optimiser le code, payer pour avoir des machines plus performantes, ou laisser les utilisateurs passer une minute par jour à regarder des barres de progression, la première option sera rarement la plus avantageuse économiquement.
D'autre part, à cause de la place croissante de l'informatique dans nos vies : comme on peut (et doit) faire de plus en plus de chose avec l'informatique, les utilisateurs consentent à investir de plus en plus dans leurs équipements. Et, là aussi, s'ils doivent choisir entre attendre 10 secondes que leur appli se charge, renouveler leur téléphone plus souvent, ou utiliser une appli moins populaire mais mieux optimisée, c'est rarement la dernière option qui sera favorisée.
C'est triste et complètement contraire à mes valeurs, mais je ne pense pas qu'en général, on puisse blâmer les développeurs, car il s'agit d'un phénomène essentiellement économique.
# Who's that guy ?
Posté par Luc-Skywalker . Évalué à 2 (+2/-2).
J'ai regardé 1mn et je me suis posé cette question.
Après une rapide recherche j'ai trouvé çà: https://www.youtube.com/watch?v=OHnXY9F7m9c
Pas sur que ce soit pertinent, les censeurs décideront. Moi ça me va.
Quoi qu'il en soit, un peu de mise en situation m'aurait aidé à comprendre les tenants et aboutissants.
Bonne soirée malgré le moinssage.
"Si tous les cons volaient, il ferait nuit" F. Dard
[^] # Re: Who's that guy ?
Posté par YBoy360 (site web personnel) . Évalué à 10 (+9/-1).
Je ne sais pas qui c'est :/
Pour le contexte,je n'aimais pas cette vidéo au début, d'une part parce que l'on parle de Visual Studio, et que ça sentait un peu le refrain du "C T mieux avant !".
Cela dit, il y a une partie de vrai dans ce qui est dit, et est généralisable, puis la dernière partie de la vidéo est intéressante : l'interviewé, essaie d'expliquer, pourquoi, aujourd'hui, certains logiciels sont devenus lents, affreusement lent, par rapport à ce qu'ils étaient début 2000.
Les arguments avancés (ça permet d'éviter de voir la vidéo, que je comprends, ne plait pas, mais tout va bien !) :
Voila, il y aurait pu y avoir un débat inter-générationnelle, pour ou contre les accolades en fin de ligne et tout.
[^] # Re: Who's that guy ?
Posté par Luc-Skywalker . Évalué à 2 (+0/-0).
OK, merci pour les précisions.
Du coup, j’interprète le moinssage comme le:
"on en a soupé"
Ce qui se comprend très bien ;)
"Si tous les cons volaient, il ferait nuit" F. Dard
[^] # Re: Who's that guy ?
Posté par ǝpɐןƃu∀ nǝıɥʇʇɐW-ǝɹɹǝıԀ (site web personnel) . Évalué à 10 (+8/-0).
Perso, j'évite de moinsser (ce serait d'ailleurs intéressant de connaître les statistiques de son propre compte à ce sujet), mais il faut bien avouer que ma position est très claire vis-à-vis des liens youtube — appuyée par le fait que je ne compile pas de codecs vidéo sur mon pc, ou en tout cas pas adaptés à ça — « les liens youtube c'était mieux à l'époque où ça pointait vers des textes en UTF-8, voire en ascii. » :-)
« IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace
[^] # Re: Who's that guy ?
Posté par sebas . Évalué à 10 (+9/-0).
Pareil pour moi, je vois un lien vidéo (surtout youtube, qui coumule les inconvénients de la vidéo avec ceux d'appartenir à google), je passe mon chemin (sans moinser).
Un texte, on peut le survoler pour voir ce qu'il vaut, une vidéo, c'est plus dur.
Un texte a souvent besoin d'être mieux pensé et mieux construit qu'une vidéo, qui est souvent plus immédiatiste. Attention, je dis souvent, parce que les textes mal torchés et les vidéos super-intéressantes, il y en a, et plus qu'à leur tour. Mais dans mon cas, quand je cherche des infos et des développement sur un sujet, je favorise toujours les textes et ne me rabats sur les vidéos que quand je n'ai pas le choix.
En fait, ici, l'idéal serait d'éviter les liens vers les vidéos et faire à la place un court journal résumant la vidéo et qui donnerait envie de la voir. Ou non. Ça permettrait d'avoir l'équivalent du survol du texte. Par exemple, le message de YBoy360 qui résume la vidéo aurait été bienvenu dans son entrée de lien (qui serait alors devenu un journal).
Mes 2 centimes
[^] # Re: Who's that guy ?
Posté par Julien Jorge (site web personnel) . Évalué à 10 (+11/-0).
Casey Muratori est un programmeur que je qualifierai, entre autres choses et sans vouloir le limiter à cela, de militant en faveur de programmes plus efficaces. C'est loin d'être un clown et je lui attribue des qualités de pédagogue.
Il a notamment échangé publiquement avec Robert C. Martin au sujet du livre Clean Code de ce dernier, de l'impact négatif en termes de performance que les conseils du livre ont généré. Là où beaucoup de programmeurs dégagent un air prétentieux et supérieur en méprisant Clean Code, Casey a opté pour une approche critique en échangeant ouvertement et poliment avec le premier concerné : https://github.com/unclebob/cmuratori-discussion/blob/main/cleancodeqa.md
Il a aussi fait une vidéo sur le sujet des propositions de Clean Code : "Clean" Code, Horrible Performance, à nouveau très pédagogique.
Il est aussi plus ou moins à l'origine du concept de GUI en mode immédiat : Immediate-Mode Graphical User Interfaces.
C'est un peu dommage que le lien soit moinsé parce que le gars vaut le coup d'être écouté. Ce n'est pas son intervention la plus instructive mais un bon point d'entrée. Une citation de cette vidéo :
De mon expérience c'est tout à fait juste. Entre l'éducation universitaire qui pense en complexité algorithmique et en machine abstraite, l'industrie qui pousse pour des solutions vite implémentées pour pas cher en jetant des « Engineering time is expensive, memory is cheap », le délire de la montée en puissance considérée comme acquise, la culture du one-liner et le fantasme du compilateur qui optimise tout ; aucun doute que l'éducation des programmeurs va à l'opposé de l'écriture de programmes efficaces.
[^] # Re: Who's that guy ?
Posté par barmic 🦦 . Évalué à 8 (+6/-0).
Je ne pense pas qu'il faille opposé la complexité algorithmique et en mémoire sur la compréhension du CPU.
Les utilisateurs aussi poussent à cela.
Parce qu'elle l'est encore plus ou moins et l'a était pendant des décennies.
Souvent aussi poussé par le même genre de personnes qui ont une bonne maîtrise du CPU
Jamais entendu ça, j'ai entendu "si tu veux pas t'y intéressé plus, écris un code simple, ça aidera le compilateur".
La performance en informatique est immensément plus complexe que ce que la majorité des gens qui en parlent décrivent. Il y a un paquet de façon de comprendre ce qu'est la performance (amélioration de la latence, du débit, de la consommation de ressources, du temps d’exécution,…) et je n'ai jamais vu de critique prendre véritablement le temps de se poser sur ces questions, d'ensuite décrire comment est-ce qu'on mesure (Mozilla s'est cassé les dents à être plus rapide avec un ressenti plus lent que son adversaire) pour ensuite expliquer comment est-ce qu'on y parvient.
Dire que les gens ne comprennent pas les CPU c'est vrai je suis d'accord, mais c'est sauter à la conclusion, ils ne comprennent pas plus les IO par exemple, ni leur stack d'affichage,… selon ce qu'ils écrivent comme logiciel le CPU ne sera pas forcément le plus important.
Et la performance n'est pas le seul critère, la sécurité est très largement ignorée, on parle vite fait de performance, mais que ce soit avoir un code véritablement sûr ou supprimer les supply chain attack ça ne fait parler que vite fait quand un drame se produit sans pour autant dire qu'il y a de solution sûre à ce sujet. Il en existe pas, mais est-ce que c'est une bonne raison pour ne pas s'attaquer au sujet ?
Je suis personnellement beaucoup plus pour un processus d'amélioration où on pose la question de qu'est-ce qui est important (rapidité, efficacité, sûreté, réactivité,…) et qu'on regarde comment l'améliorer ou le maintenir dans le temps. Ça peut consister à connaître le CPU ou peut être à en faire tout simplement moins (et à considérer que des fonctionnalités n'ont pas leur place) ou tout un tas d'autres choses.
Clean code met l'accent sur la maintenabilité du code, lui reprocher son manque de performance est une évidence, c'est toujours une histoire de compromis. Personnellement tu ne me verra pas écrire un duff's device sans qu'il y ai un besoin absolument critique de cette ignominie.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Who's that guy ?
Posté par YBoy360 (site web personnel) . Évalué à 6 (+4/-0). Dernière modification le 17 décembre 2024 à 09:17.
Merci, pour moi ce qu'il dit est cathartique. Avoir le courage d’argumenter fasse au "ne pas faire de micro-optimisations" (ce qui est une bonne pratique "clean", qui se transforme en "ne pas les faire trop tôt …") est courageux, même si tout est question d’équilibre, il faut les faire en cas de gains significatifs.
Pour avoir fait beaucoup d'optimisation CPU, il est clair que la moyenne des développeurs ne se soucis plus d'optimisations et de spécificités d'architecture. Cela dit, les articles traitant d'optimisation CPU / GPU ont souvent du succès, même aujourd'hui.
l'IA, les Rust, Java et autres, prouve que l'on isole plus le compilateur, l'IDE, le langage et le HW. Et c'est très prometteur pour le future.
[^] # Re: Who's that guy ?
Posté par barmic 🦦 . Évalué à 6 (+4/-0).
Une de mes grandes fiertés de cette année, c'est d'avoir sur quelques mois :
et ainsi obtenu des gains de 50% de nos débits (sous charge sinon ça se voit pas) sur un pan assez important de notre logiciel.
C'est une illustration de ce que je décrivais, il ne faut pas opposé la complexité algo et le CPU, il faut les coordonner pour arriver au résultat que tu attends.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # à qui la faute?
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 7 (+5/-0).
J'ai l'impression qu'on cadre beaucoup cette discussion comme si c'était (uniquement) un problème de compétence des développeurs. Je pense que ce n'est pas vraiment le cas, il y a plein d'autres choses qui rentrent en jeu.
La première, c'est que dans beaucoup de cas, les optimisations ne sont pas nécessaires ou pas prioritaires. Optimiser le code, concevoir l'architecture la plus efficace, ça prend du temps. Souvent, c'est plus important de livrer des nouvelles fonctionnalités très vite (avant les concurrents). Et en plus, on travaille avec des spécifications changeantes (les fameuses méthodes agiles), alors que pour faire de l'optimisation, il faut souvent pouvoir considérer un problème dans son intégralité pour bien déterminer la solution optimale. Si tu passes un mois à écrire la structure de donnée parfaite, mais que la semaine suivante, finalement ton programme doit faire autre chose, tu peux tout jeter et recommencer.
Il y a aussi une certaine tolérance des utilisateurs. C'est vrai en informatique mais aussi dans d'autres domaines. Par exemple, les téléphones mobiles modernes ont une latence plus importante que les anciens téléphones fixes à réseau par commutation de circuits. On s'est habitué, les usages ont évolué, et maintenant on arrive même à faire des visioconférences à plusieurs avec une latence encore plus importante. Il en va de même pour l'informatique, les gens développent une tolérance aux interfaces lentes et on peut se permettre d'être de pire en pire sans que ça fasse fuir tous les clients.
Du côté des développeurs, par contre, il y a quelques domaines où ça ne marche pas comme ça: le jeu vidéo, ou les systèmes embarqués/temps réel par exemple. Dans ces contextes là, il y a moins de problème pour passer du temps à optimiser les choses, il y a le budget pour, parce que sinon, le projet de marche pas.
Une solution serait de rendre les choses obligatoires. Pour la sécurité ça commence à se faire par exemple avec le Cyber Resilience Act qui va pousser les entreprises à assurer les mises à jour de sécurité. Du côté des performances, il pourrait y avoir des équivalents pour l'éco-conception (soit avec des obligations, soit avec un étiquettage/certification de type "nutri score"). En fait, c'est aussi déjà le cas dans certains domaines, les développeurs de frigo connectés sont très bons pour faire de l'électronique et du logiciel à basse consommation pour pouvoir afficher le score A++ en consommation d'énergie.
Au final, le problème ce n'est pas vraiment les développeurs, ce sont les clients qui ne veulent pas payer pour avoir des logiciels performants, ils préfèrent avoir un truc moins cher et livré plus tôt, et payer un peu plus de matériel. Là, une autre solution serait de rééquilibrer le coût du matériel (vraiment pas cher actuellement) et le coût du travail humain. Si les développeurs étaient payés moins cher, on pourrait leur faire passer du temps pour faire des économies sur le matériel. Ce n'est clairement pas l'équilibre actuel des choses.
[^] # Re: à qui la faute?
Posté par Thomas Douillard . Évalué à 10 (+9/-0).
Toute notre économie est tournée vers la production de masse au meilleur coût pour dégager un max de bénéfice, quel que soit le coût en certains autres termes qui ne comptent pas, les coûts environnementaux par exemple.
[^] # Re: Who's that guy ?
Posté par Zenitram (site web personnel) . Évalué à 3 (+4/-3).
Ceux qui essayent s'y brûlent, on perd du temps à améliorer le tout avec ses 2 machines de test, on déploie, bam perte de performance sur une machine ailleurs, on râle, puis on comprend que le meilleur compromis sur toutes les machines c'était celui fait par le compilo sur notre "mauvais" code, et on n'a pas l'argent illimité pour optimiser pour chaque CPU donc on se dit qu'on aurait dû faire comme les autres et ne pas chercher à optimiser car c'est de nos jours pas bien rentable.
(quoi? Oui, je suis en plein dedans en ce moment, je m'arrache les cheveux à tester plein de machines différentes, entre CPU et aussi GPU)
[^] # Re: Who's that guy ?
Posté par SpaceFox (site web personnel, Mastodon) . Évalué à 4 (+2/-0).
Sans aller jusque là, on a énormément de cas où la consommation CPU / ram / I/O est absurdement élevée par rapport à ce qui est réellement fait.
Beaucoup de développeurs gagneraient à avoir ces ordres de grandeur en tête.
La connaissance libre : https://zestedesavoir.com
[^] # Re: Who's that guy ?
Posté par Nicolas . Évalué à 3 (+5/-2).
Si ton optimisation n'est pas celle du compilo. y'a des chances pour que tu te sois foiré quelque part.
Pour avoir appris sur mon temps libre l'assembleur, je peux dire qu'il n'est pas si difficile d'optimiser un code. La connaissance de l'assembleur est bien un pré-requis car il donne vraiment une idée suffisamment précise du comportement du CPU (y compris les questions de latence sur les IO car ces accès sont explicites - et on distingue bien un accès en lecture et en écriture).
À partir de là :
L'exercice consiste à étudier la sortie d'un compilo sur du code simple.
Par obligation on est amené à réimplémenter des fonctionnalités très simple. Autre exercice : étudier comment la libc ou autres fait ça.
Spoiler alert : il y'a quantité d'optimisations qui ne sont pas déléguées au compilo. Alors à moins de considérer que les devs de la libc sont des branques…
Trois trucs avec le compilo :
Tu ne le maîtrises pas ni le contrôle. Alors à moins de délivrer qu'un binaire final, tu ne peux préjuger des optimisations appliquées. Les compilos modernes sont devenus horriblement complexes… et LENTS !
À force de déléguer on finit par avoir des CPUs complètement troués parce qu'on pense que la prédiction de branche automatique c'est bien plutôt que de prendre 5s pour signifier au CPU que ce code-ci sera l'exception et l'autre la règle (donc non optimiser un code nécessite pas d'avoir forcément un bagage technique de fou). Sur ce point la causalité est inversée : si c'est le foutoir dans les CPU à tel point qu'un dev n'est pas capable de prédire à l'avance quel code sera performant sur telle machine (manque de prédictibilité du matériel et absence de modèle simple du comportement d'un CPU), c'est bien parce que les concepteurs de CPU y vont chacun de leur petites trouvailles pour obtenir les meilleures perf. malgré du code claqué au sol. On retrouve la même blague sur le nombre de cycle horloge par instructions. Bref on se mort la queue : si un CPU est si compliqué c'est aussi à force d'optimisations que les devs n'ont pas voulu faire parce que… "c'est trop compliqué un CPU".
Ce qui nous amène au dernier point : le compilo applique des optimisations génériques car il n'a pas le moindre début d'idée de ce que le code fait. Seul l'usager sait ce qu'il va en faire et le boulot d'un dev. c'est aussi d'optimiser son temps, savoir quand et où il a intérêt à lever les automatismes et prendre en charge lui-même les micro-optimisations (car faut-il encore le rappeler une énième fois la micro-optimisation c'est que dalle en terme de gain de performance face aux choix de conception - sélection des algorithmes, arbitrage entre le besoin et les moyens, etc.) C'est pas la compilo qui va te dire si ton algo de tri doit être économe en espace ou en temps, si t'es données sont presque triées ou totalement aléatoire, etc. Il pourra toujours essayer de le deviner mais cela impliquera une surcharge qui ne sera pertinente que sur de gros volumes (information que le compilo ne connaît pas…).
[^] # Re: Who's that guy ?
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 8 (+7/-1).
Pas vraiment. Les CPU modernes:
Au final, l'assembleur est un langage de programmation comme un autre, il n'est même plus "proche du matériel". Donc autant choisir un langage plus confortable.
Faire du code optimisé pour un modèle de CPU, une taille de cache fixe, une mémoire avec une bande passante bien déterminée: facile.
Faire du code optimisé dans tous les cas, y compris pour des CPU qui ne sont pas encore fabriqués: impossible.
Ces optimisations dans les CPU sont ce qui permet d'avoir du matériel moderne qui continue d'exécuter le code existant avec de meilleures performances. Je trouve ça mieux que de dire "ah on a rajouté 1Mo de mémoire cache dans le nouveau CPU, mais tu dois réécrire tout ton code pour l'exploiter, parce que c'est à toi de dire explicitement quelles variables il faut stocker dans le cache".
Le problème est simple: il vaut mieux optimiser le temps de travail des développeurs, plutôt que quelques cycles CPU. Et donc, ne pas avoir à réécrire tout le code à chaque nouvelle génération de CPU, c'est bien.
C'est faisable, on peut donner à gcc une trace d'exécution du code et recompiler une deuxième fois, et il va ajouter automatiquement les instructiosn de prédiction de branchement. Est-ce que des gens s'embêtent à le faire? Non, parce que même cette procédure entièrement automatisée n'a aucun intérêt économique dans la plupart des cas. Le temps passé par le développeur à mettre en place ça va coûter plus cher que les 0.1% de performance qu'on va pouvoir gagner. Sauf dans quelques cas particuliers où ces micro optimisations vont faire la différence entre "ça ne marche pas du tout" et "ça passe de justesse", ou là, le développeur peut être payé très cher pour passer du temps à ce genre de choses.
Et de toutes façons le problème de l'optimisation n'est même pas là la plupart du temps. Il y a des problèmes beaucoup plus bêtes de mauvais choix de structures de données, ou de mauvaise utilisation de structures de données. Par exemple, faire plusieurs fois de suite une recherche d'un objet dans une map, au lieu de le trouver une fois et de garder une référence. Là on peut avoir des gains de plusieurs dizaines de % de performances, et ça peut être intéressant d'y passer du temps.
Et pour faire ce genre de choses, c'est plus facile si on travaille avec un langage haut niveau ou au moins qui propose un bon choix de structures de données disponibles dans sa bibliothèque standard (C++ ou Python par exemple). Sinon, le coût de développer ne serait-ce qu'une hash map n'en vaut peut-être même pas la peine.
[^] # Re: Who's that guy ?
Posté par SpaceFox (site web personnel, Mastodon) . Évalué à 3 (+1/-0).
Il y a quand même des cas où le passage par l’assembleur reste efficace : c’est les codes qui peuvent massivement gagner en performances en utilisant énormément les instructions SIMD (SSE, AVX…) typiquement les codev vidéo (exemples : https://github.com/xiph/rav1e, https://code.videolan.org/videolan/dav1d).
La connaissance libre : https://zestedesavoir.com
[^] # Re: Who's that guy ?
Posté par fearan . Évalué à 5 (+2/-0).
ça c'est ce que tu fais uniquement lorsque le reste n'a pas permis d'atteindre les performances nécessaire.
Et ça implique de devoir différencier les binaires selon la plateforme (processeur), au risque d'avoir un crash franc de l'application; une solution est de vérifier les capacité du proc et choisir la bonne fonction, mais c'est rarement fait dans le cas des développement particuliers.
typiquement https://code.videolan.org/videolan/dav1d ne tournerai pas sur mon ancien proc qui ne gérait que l'AVX, et non l'AVX2. C'est dommage car il serait normalement amplement suffisant pour le décodage des vidéos.
Ou pour faire plus simple, dans le but de rendre le truc performant sur les anciennes plateforme, tu a fais un code qui ne tourne plus dessus :D
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
[^] # Re: Who's that guy ?
Posté par SpaceFox (site web personnel, Mastodon) . Évalué à 2 (+0/-0). Dernière modification le 18 décembre 2024 à 10:38.
Si ton processeur date d’après 2006, d’après https://code.videolan.org/videolan/dav1d#reached il fonctionne sans doute grâce aux points 6 et 11 « by writing asm for SSSE3+ chips, »
Après, lire de l’AV1 sur une antiquité, c’est quand même un cas d’usage exotique.
La connaissance libre : https://zestedesavoir.com
[^] # Re: Who's that guy ?
Posté par fearan . Évalué à 4 (+1/-0).
Justement s'il répond au besoin, y'a pas de raison d'en changer. Par ailleurs tu le vieilli de pas mal d'années AMD_Phenom_II; pour être plus précis, fabriqué jusqu'en 2012, et il remplit très bien son rôle de boite multimédia.
AVX2 est arrivé dans les AMD mi 2015 avec Excavator_(microarchitecture) et ça doit dater de 2013 pour les intel.
Effectivement j'ai pas lu jusque là :D, pour ma défense, ce n'est pas le genre d'optimisation que je dois faire, c'est même le genre de truc à proscrire car trop dépendant du matériel, et si faut réécrire le bout d'assembleur lorsque on nous filera une autre machine, ça risque de poser problèmes. Pour la lib en questions ils sont obligés de regarder les capacité du proc, c'est envisageable pour des lib spécifique, mais pas pour les programme de tous les jours.
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
[^] # Re: Who's that guy ?
Posté par Julien Jorge (site web personnel) . Évalué à 7 (+5/-0).
Je te trouve un peu radical :) Au boulot on a des implémentations SSE2 et AVX2 pour certaines fonctions (c'est justement un encodeur vidéo), ça ne nous empêche pas de fournir une version en C++ supplémentaire que le compilateur aura tout le loisir d'optimiser comme il lui chante. On vérifie ensuite à l'exécution quelle implémentation il faut brancher. Ce qui fait que nous n'avons jamais à réécrire l'assembleur quand on a de nouvelles machines. Si l'architecture est inconnue on peut toujours se rabattre sur l'implémentation C++. C'est même très confortable car nous pouvons forcer l'une ou l'autre implémentation et vérifier ainsi qu'elles donnent le bon résultat. De la même manière nous pouvons vérifier que les implémentations en assembleur sont réellement plus performantes que ce que fait le compilateur.
Il n'y a vraiment aucun problème à écrire de l'assembleur pour des fonctions très impactantes. Ce n'est pas la seul chose à faire (les choix de structures de données sont aussi importantes) mais ce n'est pas à proscrire non plus.
Pour donner un ordre d'idée, sur un benchmark global nous avons réduit le temps par frame de plusieurs dizaines de pourcents en passant du C à l'AVX2. À côté de cela nous avons aussi changé de compilateur et cela ne nous a fait gagner que 10% au max.
[^] # Re: Who's that guy ?
Posté par barmic 🦦 . Évalué à 3 (+1/-0).
Je savais pas (ou j'ai oublié) qu'on pouvait avoir un branchement au runtime pour en vérifiant l'existence des instructions.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Who's that guy ?
Posté par BAud (site web personnel) . Évalué à 3 (+1/-0).
ah oui, tiens, le runtime peut choisir de lancer des portions de code selon le jeu d'instructions disponible… j'imagine qu'il y a le même genre de choses pour OpenGL (selon la version disponible)
même le site de support de Visual C++ en parle sur sujet connexe (désolé, rien trouvé d'autre)
https://support.microsoft.com/fr-fr/topic/correctif-programmes-qui-reposent-dans-incident-visual-c-2013-%C3%A0-l-exception-de-instruction-ill%C3%A9gale-d1d72972-1578-801e-27f1-3c795e662364
[^] # Re: Who's that guy ?
Posté par Jehan (site web personnel, Mastodon) . Évalué à 6 (+3/-0).
Oui tout à fait. Y a plusieurs commentaires un peu étranges qui semblent impliquer qu'on doit faire un choix: soit utiliser de nouvelles instructions (ou autres nouvelles API qui ne sont disponibles que sur certains hardwares) soit rester rétro-compatible avec le vieux matos. C'est un très mauvais, et surtout faux, choix! On peut tout à fait rester compatible avec le vieux matos tout en utilisant les possibilités du nouveau matos quand il est disponible.
On a du code comme ça dans GIMP (en particulier dans babl et GEGL, nos moteurs de conversions de couleur et de traitement d'image par graphe). Ensuite idéalement pour des binaires génériques, on veut que la machine qui compile soit moderne et ait ainsi le plus de prise en charge d'extension possible. Ainsi oui, à la compilation, on doit pouvoir compiler les variantes du code (en plus du code générique) pour SSE*, AVX*, etc. Ensuite on livre les mêmes binaires sur toutes les machines (bon on sépare bien sûr les différentes platformes comme tout le monde, mais je me souviens de projets de gens qui faisaient des fat binary qui peuvent être exécutés sur divers OS ou architectures très différentes! Souvent cela reste surtout du "proof of concept" pour le fun… mais ça reste possible en théorie si on voulait vraiment cela) et le dispatch se fait à l'exécution.
Si c'était pas possible, ce serait assez nul comme situation. On serait obligés d'aller vers le plus petit dénominateur commun ou de retirer la prise en charge de vieilles-pas-si-vieilles machines (une forme d'obsolescence programmée).
Je pense que la bonne pratique est simplement:
Ce type de logique est effectivement similaire pour plein de choses, pas seulement les instructions CPU. Par exemple dans GIMP, on a des variantes OpenCL de pas mal de filtres pour faire usage des GPUS (bon on l'avait désactivé par défaut à un moment à cause d'instabilités mais on a eu un récent project GSoC qui a retravaillé dessus et on a espoir de pouvoir reproposer OpenCL par défaut). C'est bien entendu aussi un dispatch à l'exécution.
Quand on y pense, même les choses comme X11/Wayland, c'est pareil. Les binaires Linux récents embarquent du code pour les 2 systèmes d'affichage, et quel branche est prise est décidé à l'exécution.
Je n'ai jamais touché du code OpenGL, mais je vois pas pourquoi cela pourrait pas être choisi à l'exécution.
Le problème principal de ces choix d’ingéniérie sont:
Pour le second point, si le code est bien organisé, dans les faits, je trouve que ce n'est pas un problème. C'est pas comme si on devait mélanger tous ces codes au même endroit (t'auras pas du code SSE2 ou assembleur au milieu de ton algo générique en C). Ainsi si certains développeurs ne sont pas à l'aise avec les jeux d'instructions particuliers, ils n'ont même jamais à voir le code spécifique. Garder le code spécifique ne gêne en rien le code générique. C'est donc un non-problème à mon avis.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Who's that guy ?
Posté par BAud (site web personnel) . Évalué à 4 (+2/-0).
merci de ton soutien _o/
(oui vraiment, tu fais partie des personnes à qui je n'enverrais pas un laconique « tu comprends la différence entre PGCD et PPCM ? »
c'est dommage que ceux développant la SDL (utilisée par plusieurs jeux) n'aient pas ton approche ! (ça marchait avant, ça marche ensuite), surtout pour des bibliothèques comme le soulignait julien_jorge<
l'implémentation générique permet la vérification de l'implémentation spécifique (au prix de moindres performances pour le générique ou certaines fonctionnalités non disponibles), quoi de mieux pour avoir une CI/CD efficace !
c'est une des différences pour moi entre une amélioration (apporter des fonctionnalités) et une régression (enlever des fonctionnalités) ; cela va de soi qu'un bon développeur choisira l'apport de fonctionnalités supplémentaires, mais pas au détriment de ses utilisateurs actuels (qui pourraient perdre des fonctionnalités au passage).
yep, bonne synthèse de mon avis aussi :p TL;DR toussa
pour le coup : cela vaut d'être relevé. Car ce qui va de soi n'est pas évident ni évidemment compréhensible pour tout le monde.
Sans mesure l'optimisation est inutile (et il faut avoir développé avant).
Sans objectif de maintien ou optimisation des performances précédentes, il n'y a rien à optimiser.
Sans volonté de fonctionner, autant adopter l'à venir au détriment du passé (qui fonctionnait avant), c'est malencontreusement certains choix que je vois de plus en plus faire o_O c'est absurde (cette phrase met en exergue le raisonnement injustifiable que tant les « stait mieux avant » et « ça va le faire » mettent en avant : bin non, « c'est améliorable, on l'ajoute à ce qui fonctionne déjà, ça rajoute des fonctionnalités » ah bah oui, si vous ne l'avez pas, vous n'en profiterez pas => tirer vers le haut en s'appuyant sur ceux qui ont bâti les bases !
[^] # Re: Who's that guy ?
Posté par barmic 🦦 . Évalué à 2 (+0/-0).
C'est pas le concept générique qui est oublié, mais la possibilité de découvrir à l'exécution ce qui est disponible ou non sur le cpu. Surtout que les techniques peuvent être très différentes. Pour ce cas là, ça pourrait être au linkage avoir une implémentation pour chacun pour le cas des stack graphiques
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Who's that guy ?
Posté par Jehan (site web personnel, Mastodon) . Évalué à 4 (+1/-0).
Le CPU donne ces informations. Il existe diverses méthodes sur les diverses architectures pour obtenir ces informations. Par exemple, l'architecture x86 a l'instruction générique
CPUID
(depuis 1993 d'après Wikipedia, donc vous avez la prise en charge d'une majeure partie des CPUs de l'histoire de l'informatique grand public) qui est faite spécifiquement pour cela.Pour ceux qui veulent voir ce que vous dit cette instructions, sur Linux, vous pouvez installer l'outil de ligne de commande
cpuid
qui vous fera un beau résumé en texte clair. Bien sûr dans un programme, il n'est nullement besoin de dépendre d'un tel programme en CLI. Puisque c'est une instruction processeur, faites la requête directement depuis votre code.Dans d'autres cas, l'info pourrait venir d'autres instructions ou d'une interface kernel (apparemment c'est ce qu'on a pour la détection ARM neon), etc. Dans tous les cas, l'info est disponible. Le principe est d'avoir des fonctions de détection qu'on maintient et met à jour lorsqu'une nouvelle détection est ajoutée (ces interfaces étant normalement stables, elles ne sont jamais retirée, une fois une détection ajoutée, c'est normalement "à vie"). En fait ce n'est pas grave de manquer un type de détection. Dans ce cas, le code se repliera juste sur l'implémentation générique jusqu'au jour où quelqu'un qui s'y connaît ou fait quelques recherches ajoute la détection nécessaire. C'est comme ça que fonctionne le logiciel libre communautaire (par ajout incrémental de nouveaux contributeurs). C'est OK même si on aurait pu utiliser une implémentation plus rapide plus tôt.
Tu parles de chargement dynamique à l'exécution? Parce que si tu parles de ce qu'on appelle habituellement du linking, c'est à la construction (juste après la compilation), ce n'est pas quelque chose qui se fait à l'exécution. Si tu fais des choix à cette étape là, alors ton binaire n'a plus toutes les capacités possibles et ne fonctionne plus partout.
Au contraire, ce que je dis, c'est qu'à la compilation/linking, tu inclus tout ce que ton compilateur permet (sans te préoccuper de la cible, ou plutôt des multiples cibles qu'aura ton binaire), et c'est à l'exécution que tu fais les choix de quoi exécuter.
Si tu parles de chargement dynamique, du type tu as une bibliothèque avec les implémentations génériques, une bibliothèque avec implémentations SSE2, etc. Puis tu choisis quelle version charger à l'exécution. Oui c'est possible et certains projets font un peu ainsi, mais ce n'est nullement obligatoire. Tu peux simplement tout embarquer dans le même binaire, et tu fais les choix de quelle branche de code exécuter selon la détection des capacités du hardware au moment de l'exécution.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Who's that guy ?
Posté par Zenitram (site web personnel) . Évalué à 3 (+1/-0). Dernière modification le 20 décembre 2024 à 15:39.
En tant qu'utilisateur à une époque d'un 286, je le prend mal.
(oui, j'ai été geek tôt, et merci maman pour la machine qui m'a permit de découvrir de monde enfant)
Certains compilent le même fichier source plusieurs fois avec des paramètres différents puis un code "glue" qui va choisir la version à l'exécution, et donc le linker fait le taf de tout mettre ensemble dans ce cas.
[^] # Re: Who's that guy ?
Posté par Jehan (site web personnel, Mastodon) . Évalué à 4 (+1/-0).
🤣
Oui j'ai vu ce genre de truc. Notamment il me semble que libx265 fait un truc de ce genre. On le compile 3 fois avec options différentes: pour le support 10bpc, puis 12bpc et enfin 8bpc qui va intégrer les 2 versions pré-compilées précédentes. (bon là c'est pas une histoire de prise en charge matérielle mais bon…)
Enfin bon, au final, c'est la même chose. On parle bien de linking une fois pour produire un binaire unique avec tout dedans. Comme tu dis, c'est ce "code glue" qui fait le dispatch à l'exécution. 🙂
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Who's that guy ?
Posté par barmic 🦦 . Évalué à 1 (+0/-1).
Alors oui je parlais évidemment du linkage dynamique le link des bibliothèque pour être statique ou dynamique
Le "pour ce cas là" fait référence au cas où tu as une implémentation X11 (xcb ou xlib pour être exact) et wayland (et frame buffer et d'autres choses si besoin) et il permet de ne pas avoir a implémenter la sélection dans ton code. L'installation n'installe que l'un ou que l'autre ou la distribution peut te faire linker avec l'implémentation qui correspond à ce qui correspond actuellement à l'environnement. C'est en ça que le fait qu'il y a pleins de techniques pour faire de la sélection tardives d'implémentation et que le fait que ça existe pour X/Wayland n'indique pas du tout que c'est possible par ailleurs.
Même sans ça le fait que le serveur d'affichage te permet de détecter sa présence n'indique pas que le CPU te permet de savoir quel jeu d'instruction existe ou pas.
Bref c'est intéressant de savoir que cpuid récupère ces informations depuis le CPU lui-même et pas depuis une base de connaissance.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Who's that guy ?
Posté par fearan . Évalué à 4 (+1/-0).
Je me cite : "c'est envisageable pour des lib spécifique, mais pas pour les programmes de tous les jours."
Oui pour les points critiques, on peut tenter de faire mieux que le compilo auquel on a précisé l'architecture, mais pour reprendre le sujet du
journallien c'est pas ça qui va faire qu'une appli mal codée va faire des miracles.Pour la lib pointée, y'a différente implémentation selon l'archi, tu fais pas ça tous les jours.
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
[^] # Re: Who's that guy ?
Posté par BAud (site web personnel) . Évalué à 4 (+2/-0).
tu le fais une fois pour une nouvelle archi (et de meilleures performances éventuellement / maximiser l'efficacité / bref optimiser spécifiquement) ou pour apporter une nouvelle fonctionnalité pour bénéficier de possibilités supplémentaires. S'il n'y a pas les pré-requis, cela ne permet pas de bénéficier de ces nouvelles possibilités, mais ça ne devrait pas gêner le bon fonctionnement qu'il y avait sans…
Il n'y a que moi que ça énerve ces logiciels qui fonctionnaient sans OpenGL 4.x (mais avec moins d'effets, moins de textures, une résolution moindre, des capacités de traitement moindres) et qui du jour au lendemain ne se lancent plus car cette nouvelle exigence devient un pré-requis ?
Ce genre d'obsolescence arbitraire est particulièrement frustrant pour une retrogame box qui ne devrait pas réclamer un foudre de guerre pour fonctionner :-) (d'autant que les nouvelles tours perdent certaines connectiques, genre un game port disponible avec toute bonne carte soundBlaster de l'époque… oui, dans notre fablab j'ai des manettes et un volant qui ont ces prises et non de l'USB…)
[^] # Re: Who's that guy ?
Posté par fearan . Évalué à 3 (+0/-0).
Si c'est énervant, normalement la lib devrait gérer une rétrocompatibilité, c'est son rôle. La question est jusqu'à quand, et dois t'on conserver des bug car des gens se sont basés dessus ?
Avoir plusieurs implémentation d'un même fonction, ça se fait, ça peut se choisir au runtime, mais d'expérience, y'a que ce qui est utilisé couramment qui est testé, et lorsqu'on fait une évolution de la fonction (prise en compte de nouveau paramètres, correction), seule une implémentation est validée, le reste passe à la trappe.
C'est un investissement conséquent que de pouvoir tester plusieurs implémentation sur différentes archi; autant pour utiliser tel ou tel interface, on peut facilement faire des tests, pour des matériel différent c'est un poil plus compliqué.
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
[^] # Re: Who's that guy ?
Posté par BAud (site web personnel) . Évalué à 2 (+1/-1).
bin ça marchait avant, pourquoi ça ne fonctionnerait plus ?
selon les possibilités : dans notre fablab j'ai dégagé tous les pentium (3 ça va de soi, 4 aussi car énergivore) sauf les pentium 5 (rebranding d'intel après core et core2 et core2 duo, et 1 et 2 et 3, zéro — z'ont loupé le quatre contrairement à Audi :/)
j'ai encore quelques AMD "X2" du début de siècle : l'alternative me permet de conserver des portables de ~2004 opérationnels (ça suffisait au siècle dernier, pourquoi ça ne fonctionnerait plus 20 ou 30 ans après ?). L'abandon du i586 par Ubuntu/Canonical correspond à mon choix de privilégier Debian dans notre fablab : leur problème, j'ai des recours :p).
Bon, pour mon 486DX2 boosté avec 16 Mo de RAM — ma mini-tour montée par mes soins — j'ai lâché l'affaire (oui je suis faible /o\)
[^] # Re: Who's that guy ?
Posté par BAud (site web personnel) . Évalué à 2 (+1/-1).
cela a un coût d'enlever du code, tu n'es pas à l'abri que des clients se plaignent :-)
si, par chance tu avais réussi à le vendre à des clients payeurs, il est légitime que les dernières versions continuent de fonctionner. Regarde XP : on l'a bien conservé au-delà de ses années de support (même Microsoft), alors qu'il aurait été plus simple de passer à Linux :p (ce que Microsoft permet^Wenvisage XP z'en ont bavé :p
[^] # Re: Who's that guy ?
Posté par barmic 🦦 . Évalué à 1 (+0/-1).
Je doute que ce soit arrivé. Je pense que c'est arrivé lors d'une mise à jour. Et c'est à voir avec les développeurs de savoir pourquoi est-ce qu'ils ont retirer le support. Il y a pleins de raisons possibles (des remontés de bugs dessus avec personnes dans l'équipe en mesure de les reproduire/tester, volonté de garder un code simple, impossibilité de faire quelque chose qu'ils voudraient avec OpenGL4, une dépendance qu'ils utilisent qui ne supporte plus OpenGL4,…). Ça t'énerve peut être, mais c'est à voir avec les développeurs.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Who's that guy ?
Posté par alkino . Évalué à 2 (+0/-0).
Pour le simd il y a OpenMP par exemple pour éviter de se coltiner de l'assembleur pas du tout portable.
https://www.openmp.org/spec-html/5.0/openmpsu42.html
[^] # Re: Who's that guy ?
Posté par barmic 🦦 . Évalué à 3 (+1/-0). Dernière modification le 18 décembre 2024 à 12:01.
OpenMP ne peut pas inventer le processeur sur le quel il va tourner. Donc ça va dépendre de la cible que tu donne à ton compilateur. Tout le point plus haut est de justement être en mesure d'utiliser les instructions de ton CPU qui vont permettre d’accélérer l’exécution.
Il n'y a pas vraiment de magie pour ça ou plutôt il y en a une mais elle est pas gratuite c'est d'avoir du JIT.
L'idée c'est de compiler le code sur la machine cible au moment où tu as sais quel CPU tu utilise et tu as des stats pour faire de la compilation guidé par des profile. C'est java et probablement C#. Après il faut que le code intermédiaire aide à trouver les optimisations possibles donc par exemple ai une abstraction de SIMD.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Who's that guy ?
Posté par alkino . Évalué à 2 (+0/-0).
Ba tu dis à OpenMP de faire du SIMD tu compiles sur tes targetz et ça juste marche ? Ça t'evite d'avoir une implem ASM par target
[^] # Re: Who's that guy ?
Posté par fearan . Évalué à 7 (+4/-0).
Et encore tu oublies que pas mal d'appli doivent pouvoir tourner sur plusieurs archi mac, PC, téléphone, console… avec des spécificité propres.
Je ne compte plus le nombre de if(map.existe('machin')) { Plop zut = map.get('machin'); } que je trouve dans le code, ou les push_back sauvage dans un vecteur sans avoir réservé la taille nécessaire alors qu'elle est connue.
J'ai aussi trouvé des vérification de clé unique via un parcours dans tableau (non trié cela va de soi), lorsqu'on augmentait un peu la taille des données ça explosait le temps de vérification.
Y'a aussi la manie de garder le xml source de données qu'on reparse à chaque fois pour en récupérer une valeur.
Ouais avant de descendre à l'assembleur, inutile dans l'immense majorité des cas, se pencher sur le code, ses structures, et ses tâches sont bien plus rentable. Si on a pas de quoi instrumenter le code, un bon vieux debugger avec arret, print stack trace de tous les thread, continue, et on recommence, permet de facilement trouver là où l'on passe du temps (a vu de nez) (les mesure exacte ça reste mieux)
Il ne faut pas décorner les boeufs avant d'avoir semé le vent
[^] # Re: Who's that guy ?
Posté par BAud (site web personnel) . Évalué à 6 (+4/-0). Dernière modification le 17 décembre 2024 à 16:58.
de toute façon — me concernant — j'ai croisé plus d'applications I/O bound (le CPU passe son temps à attendre des données à traiter) que CPU bound…
bref, la gestion des perfs : un bon profiler de code pour savoir où tu passes le plus de temps et savoir organiser des tests/benchmarks avec des volumétries représentatives…. (mais c'est un autre métier que développeur en tant que tel)
[^] # Re: Who's that guy ?
Posté par Nicolas . Évalué à -2 (+0/-2).
La recherche des fichiers n’est pas si consommatrice. La structure des répertoires est très légères et, sauf le premier accès, va être pauvre en IO. Ce qui va se jouer c’est le syscall (permutation user-kernel mode), et les différents algo. en œuvre pour la résolution du chemin, la vérification des droits, etc. Par défaut, par exemple, la liste des fichiers est très souvent triée dans le monde Unix, au lieu d’être restituée dans l’ordre présent sur le disque (± l’ordre dans lequel ça a été écrit). Il y a de quoi accélérer tout ça, ne pas constamment demander au kernel une résolution de chemin encore faut-il y avoir accès (donc probablement qu’en
C
?) et les connaître. Ça demande une compréhension fine du système, un profiler n’est qu’une aide qui ne répond que, très mal, qu’à une partie du problème. Au mieux du mieux, il te donne une piste sur les bouts de code à optimiser. Mais rien ne garantit que ce bout de code n’est pas tout simplement bon à jeter à la poubelle, au lieu de passer du temps dessus pour grapiller quelques pourcents. Ton truc de modifier la structure de tes répertoires, c’est typique d’une fausse bonne idée : un répertoire c’est juste une liste de fichiers, et une liste de 10k éléments (×255 octets / noms de fichiers = 2,55Mo) c’est que dalle à l’heure actuelle. Si t’es limité par une aussi petite liste, c’est clairement que y’a une couille dans ton programme (ie. si t’as un problème d’IOs, c’est parce que tu fais des IOs à tort). Quand t’as 16Go de données, oui là tu peux mettre en place une stratégie de segmentation pour traiter par partie…Pour SQL c’est encore pire. Dans tous les cas il ne faut pas préjuger du facteur limitant d’une application. Dans ma vie, j’ai connu exactement le contraire. Faut dire que j’ai travaillé sur des applis scientifiques (donc totalement limitées par le calcul) et du traitement batch de données dans la banque/assurance (donc masse de SQL en ce qui me concerne), où un problème d’IO a toujours relevé, très clairement, d’une mauvaise conception : car le principe de base dans mon domaine, c’est un accès/traitement/mise-à-jour totalement séquentiel et linéaire des données (l’enjeu sera de dimensionner correctement capacité de calcul et débits, et dans ce cas cela relève des choix de production). Si tu demandes un accès random, tu vas être à la ramasse sur les IOs, mais ton problème n’est absolument pas un problème d'IOs, le problème c’est l’accès random sur xGo de données…
Dans 99% des cas que je rencontre en pratique, c’est codé avec les pieds, avec un modèle physique de données inadapté (je plaide coupable : je normalise systématiquement pour privilégier la maintenance, ce qui multiplie les jointures…) et le compilateur, CPU, n’y peuvent absolument rien. Remet tes données à plat, maintien un journal des mouvements, traités en batch à postériori, comme on peut le faire dans le monde bancaire, tu va voir que les IOs ne seront plus ton (seul) problème. Ouah t’as optimisé un code sous-optimal ? La bonne affaire ! et si je le vire pour faire la même chose de manière autrement plus efficace ?
[^] # Re: Who's that guy ?
Posté par ff9097 . Évalué à 2 (+2/-2).
Quand tu fais du python ou du javascript c'est pas hyper essentiel non plus
# Est-ce bien un problème de développeur ?
Posté par sobriquet . Évalué à 1 (+0/-0).
Bien que le constat ne soit pas joyeux, il me semble économiquement inévitable.
D'une part, à cause du rapport entre le coût de développement et le coût du matériel dans le contexte actuel. Si on doit choisir entre payer un développeur qualifié pour optimiser le code, payer pour avoir des machines plus performantes, ou laisser les utilisateurs passer une minute par jour à regarder des barres de progression, la première option sera rarement la plus avantageuse économiquement.
D'autre part, à cause de la place croissante de l'informatique dans nos vies : comme on peut (et doit) faire de plus en plus de chose avec l'informatique, les utilisateurs consentent à investir de plus en plus dans leurs équipements. Et, là aussi, s'ils doivent choisir entre attendre 10 secondes que leur appli se charge, renouveler leur téléphone plus souvent, ou utiliser une appli moins populaire mais mieux optimisée, c'est rarement la dernière option qui sera favorisée.
C'est triste et complètement contraire à mes valeurs, mais je ne pense pas qu'en général, on puisse blâmer les développeurs, car il s'agit d'un phénomène essentiellement économique.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.