Ce matin, une mise à jour d'un pilote noyau Windows de l'antivirus Crowdstrike a causé la panne de milliers de postes Windows et impacté des dizaines (centaines?) d'entreprises à travers le monde. Le contournement/correctif est de supprimer les pilotes "C-00000291*.sys" dans le dossier C:\Windows\System32\drivers\CrowdStrike… mais comment réaliser cette opération à distance si les machines échouent au démarrage de Windows ? Réparer la panne risque de prendre plusieurs jours/semaines pour corriger chaque poste impactés si l'opération ne peut pas être automatisée à distance !
On peut se questionner sur la méthode de mise à jour qui a instantanément impacté des milliers de postes Windows. Pourquoi ne pas mettre à jour seulement une partie du parc puis progressivement mise à jour tous les postes ? Dommage que le bug n'ait pas été détecté avant de partir en prod, il va coûter très cher à Crowdstrike !
Dommage également qu'un bug d'un pilote noyau puisse provoquer un crash au démarrage de Windows. Enfin, c'est un peu le principe d'un pilote, donner un accès complet à la machine. Alors qu'un bug en espace utilisateur (applications) ne peut normalement pas provoquer un échec complet de la machine, le noyau protège la machine contre ça (limite les applications). Tous les antivirus ont un bout de code en espace noyau (pilote).
Pas cool de déployer une mise à jour un Vendredi, weekend pourri pour des dizaines de sysadmins. Petite pensée pour eux.
Liens :
- https://linuxfr.org/users/antistress/liens/une-panne-geante-de-microsoft-paralyse-de-nombreuses-entreprises-dans-le-monde
- Entreprises impactées : https://www.lemonde.fr/pixels/article/2024/07/19/une-panne-informatique-a-grande-echelle-provoque-le-chaos-en-australie-et-dans-les-aeroports-mondiaux_6252544_4408996.html (vendredi à 9h40)
- Correctif : https://next.ink/144344/panne-et-paralysie-mondiale-une-mise-a-jour-crowdstrike-provoque-des-bugs-en-cascade/
- https://en.wikipedia.org/wiki/CrowdStrike
Note: l'antivirus Crowdstrike existe aussi pour macOS et Linux, mais seul Windows est impacté par le bug bloquant le démarrage.
# lien
Posté par Psychofox (Mastodon) . Évalué à 2.
on en parle aussi ici: https://linuxfr.org/users/antistress/liens/une-panne-geante-de-microsoft-paralyse-de-nombreuses-entreprises-dans-le-monde
[^] # Re: lien
Posté par Victor STINNER (site web personnel) . Évalué à 6.
Oui, c'est le premier lien que j'ai donné.
[^] # Re: lien
Posté par Psychofox (Mastodon) . Évalué à 3.
Pardon je l'ai manqué.
[^] # Re: lien
Posté par Marc Quinton . Évalué à 4. Dernière modification le 19 juillet 2024 à 17:24.
liens sur Wikipédia de l'incident du jour à couverture mondiale :
- https://fr.wikipedia.org/wiki/Panne_informatique_mondiale_de_juillet_2024
- https://en.wikipedia.org/wiki/2024_CrowdStrike_incident
zut, j'arrive un peu tard.
[^] # Re: lien
Posté par Marc Quinton . Évalué à 3.
un débat sur France-TV, "C dans l'air" consacré au JO et l'incident Crowdstrike, intitulé : sécurité pas de trêve olympique.
A l'heure actuelle, il n'est pas démontré (Alain Bauer) s'il s'agit d'un bug interne lié au process de déploiement chez Microsoft, d'un bug introduit malencontreusement par la société Crowdstrike, ou d'une malveillance externe.
On peut supposer qu'il sera difficile de faire toute la lumière sur cet incident ; la communication officielle étant : tout est sous contrôle, ne vous inquiétez pas. Le semblant de transparence est de mise, ce qui permet à tout un chacun d'être pleinement rassuré.
[^] # Re: lien
Posté par pasBill pasGates . Évalué à 9.
Non on sait exactement où est le problème : chez crowdstrike. Ils ont fait une update de merde, et Microsoft n'a absolument rien à voir avec cela.
[^] # Re: lien
Posté par Big Pete . Évalué à 3. Dernière modification le 22 juillet 2024 à 16:50.
Visiblement, j'ai cru comprendre (non spécialiste du truc) que le "driver" Falcon sensor s’exécute en espace kernel, serait capable d’exécuter du pseudo-code depuis un fichier de définition, ce qui (toujours de la façon dont je comprend la chose) permet a un driver qui doit passer le processus de certification WHQL avant de pouvoir être déployé, d’exécuter quand même un code (pseudo-code) non certifié.
De fait, malgré cette politique de Microsoft qui vise à assurer la stabilité de leur OS, Crowdstrike a réussi à la contourner avec le résultat qu'on connait.
Enfin, c'est que j'ai retenu de cette vidéo YT d'un ancien de Microsoft :
https://www.youtube.com/watch?v=wAzEJxOo1ts
(donc a prendre avec les pincettes de circonstances, j'imagine).
Faut pas gonfler Gérard Lambert quand il répare sa mobylette.
[^] # Re: lien
Posté par Big Pete . Évalué à 2.
Si vous ne voulez pas vous taper la vidéo, l'auteur résume son propos dans ce tweet :
https://x.com/davepl1968/status/1814724947438412129
Sinon, j'ai traduit mentalement P-Code par pseudo-code, mais c'est une erreur, ça n'a rien a voir, c'est bien de p-code dont il parle dans la vidéo.
(tjrs à prendre avec des pincettes hein).
Pour l'auteur, voila ses réfs :
https://en.wikipedia.org/wiki/Dave_Plummer
C'est le gars qui a codé le task manager et le "space cadet pinball" pour Windows NT. rien que ça !
Faut pas gonfler Gérard Lambert quand il répare sa mobylette.
[^] # Re: lien
Posté par groumly . Évalué à 3.
Tous les credentials Microsoft du monde ne sont pas super utiles quand il s’agit de savoir ce que crowdstrike fait en pratique.
Y’a un monde entre télécharger du code exécutable (que soit binaire ou recompilé/interprete à la volée), ou paramétrer du code existant à la volée.
J’ai toujours pas vu de détails techniques venant de crowdstrike, donc je doute qui que ce soit en dehors de CS n’a l’autorité de commenter sur ce qu’il s’est réellement passé (autre que « Bestel, il a branché la CiBi sur le kernel, et il a fait pffft »).
Linuxfr, le portail francais du logiciel libre et du neo nazisme.
[^] # Re: lien
Posté par Big Pete . Évalué à 3.
Je suis assez d'accord en fait. Mais du coup, on pourrait ne jamais savoir ? Enfin, je veux dire, chez CS ils savent bien déjà ce qui s'est passé et comment fonctionne leur système ?
Il n'y a que dans notre industrie qu'une telle aberration est possible. Provoquer une panne de cette ampleur et avoir que le strict minimum en terme de communication.
Comme tu le dit, seul le personnel de CS a autorité pour le faire et sa semble "normal", du moins à une grande partie des acteurs. (Évidemment, pas ici, bien sur).
Dans ma branche, je vois le même genre de délire avec des boîtes comme Broadcom. Mais limite, qu'elle le fasse, c'est un fait, mais qu'on les laisse faire … Ça je ne comprend pas.
Faut pas gonfler Gérard Lambert quand il répare sa mobylette.
[^] # Re: lien
Posté par groumly . Évalué à 3.
4 jours plus tard, oui, j’espère qu’ils ont un post mortem interne bien détaillé, vu la merde qu’ils ont mit :)
Mouais. Quand les 737 max ont commencé à se mettre au tas en 2019, Boeing savait très bien ce qu’il s’était passé. Idem quand un autre 737 a perdu sa porte en vol. Et ça, c’est dans une industrie super régulée, avec des accidents qui ont fait plus de 300 morts.
Apres, je suis pas sur que leur silence radio leur fasse beaucoup de bien. Je pense que quelques cto/dis sont en train de négocier de façon plutôt sèche un remboursement avec leur commercial, parce que la ils ont poussé le bouchon un peu loin.
Linuxfr, le portail francais du logiciel libre et du neo nazisme.
[^] # Re: lien
Posté par Big Pete . Évalué à 3.
L'attitude de Boeing, justement, a été trés largement montrée du doigt. La façon dont le PDG de l'époque s'est fait littéralement démolir au congrés étant assez significative, malgré son mea-culpa (pathétique cela dit). Voir ici pour ref :
BREAKING NEWS: Josh Hawley Ruthlessly Grills Boeing CEO, Asks Him Point Blank Why He Hasn't Resigned
C'est pas parce qu'un acteur du transport aérien a développé une culture d'entreprise toxique que c'est la règle dans cette industrie.
Par contre, dans l'industrie informatique, c'est loin, voire très loin d'être exemplaire chez la majorité des acteurs.
j'avais déjà signalé ici l'article qu'avait fait Geoff Huston a ce sujet (c'est l'équivalent Australien de Stéphane Bortzmeyer chez nous) : Outage Reporting
Il signalait en quoi la communication d'Akamaï avait été autant remarquable qu'inhabituelle, y voyant potentiellement un changement de cap dans notre métier a ce sujet :
C'est l'occasion rêvée de voir si les choses ont changé, non ?
Faut pas gonfler Gérard Lambert quand il répare sa mobylette.
[^] # Re: lien
Posté par groumly . Évalué à 3.
Ok, mais ça a mit plus de 5 ans pour en arriver là. Le premier crash du 737 max, c’était en 2019, et la faa a pas bronché.
Il a fallu 300 morts sur 2 crash, une compagnie us qui a perdu une porte en plein vol, et un lanceur d’alerte retrouvé suicidé dans un baril de béton au large du vieux port.
tu peux prendre un autre exemple, tesla a tendance à être très silencieux sur leurs pannes. Les autres constructeurs sont pas forcément super bavards non plus, remarque. Ils lancent un recall, disent que la pièce machin marche mal, on va la changer, et pas grand chose de plus.
C’est un peu ce que crowdstrike fait ici.
On va dire que ça dépend pas mal du secteur. Apres, oui, je préférerais de très très loin si c’était la norme.
Linuxfr, le portail francais du logiciel libre et du neo nazisme.
[^] # Re: lien
Posté par Big Pete . Évalué à 4.
Ouais, évidement. Mais tu as quand même toute une réglementation qui contraint fortement les acteurs à la transparence. Quand un avion a un probléme, même mineur, il y tout un cadre juridique clairement définit et qui précise bien que l'enquête "technique" n'a pas pour objectif de déterminer les responsabilité :
Cadre juridique du BEA
C'est très clair. Le but, c'est de constituer une culture de sécurité.
Bien évidement, ça n'empêche pas certaine dérives non plus.
C'est pas spécifique a l'aviation. Dans mon ancien métier, la marine marchande, ça se fait aussi. Par exemple, je suis tombé récemment sur un rapport d'enquête public sur un incendie ayant eu lieu sur un de mes anciens navires :
le contexte : L’« Atlantic Cartier », ancien roulier français de la CGM, ravagé par le feu à Hambourg
le rapport allemand est dispo ici : Fire on board ConRo vessel ATLANTIC CARTIER in the Port of Hamburg
lien direct vers le pdf
Et c'est pas pour autant qu'il n'y a pas des montagnes de problémes, des armateurs véreux, des équipages sans scrupules, des bateaux pourri et des pratiques douteuse dans le métier, hein.
Mais le cadre juridique existe, les conventions internationales exigent des enquêtes et expertises indépendantes lors d'incident grave. On retrouve ça aussi dans d'autres industrie, par exemple en France : La base de données ARIA
Ou aussi l'USCSB qui s'est faite une célébrité grâce a ses vidéo 3D sur YouTube dont la réalisation est particulièrement soignée : https://www.csb.gov/
Il va falloir qu'un accident informatique tue des gens ? Comme la fameuse panne des numéros d'urgence en france ? Pour le coup, l'ANSSI a été mandaté par l'état pour faire une enquête et pondre un rapport dispo ici.
D'ailleurs on peut y lire :
A mettre en relation avec ce type d'infos concernant Crowdstrike :
https://www.insurancejournal.com/news/national/2024/07/19/784780.htm
Ils va falloir combien de probléme de ce type avant qu'on prenne ENFIN ce probléme au sérieux ?
Faut pas gonfler Gérard Lambert quand il répare sa mobylette.
[^] # Quelque update sur la cause racine
Posté par Big Pete . Évalué à 5.
Juste un partage de quelque liens issue de ma veille sur le sujet (sans p-code ;) ).
L'analyse technique la plus détaillé que j'ai pu lire :
Technical details of the Windows BSOD disaster due to CrowdStrike
La solution a ce type de probléme selon Brendan Gregg, un expert du domaine :
No More Blue Fridays
(plaidoyer pour la généralisation d'eBPF qui permet l'exécution en mode sandbox de code avec des privilèges élevés, implémenté sous linux, et en cours sous windows )
Faut pas gonfler Gérard Lambert quand il répare sa mobylette.
[^] # Re: Quelque update sur la cause racine
Posté par Psychofox (Mastodon) . Évalué à 4.
De ce que j'ai lu eBPF sous windows manque encore pas mal de sondes pour faire tout ce que veux Crowdstrike alors il faudra attendre pas mal de temps pour que ça remplace correctement un driver noyau.
[^] # Re: lien
Posté par Luc-Skywalker . Évalué à 2.
En tout cas le Boss de Crowdstrike va devoir s'expliquer fissa (d'ici mercredi 24/07) devant la commission de la sécurité intérieure de la Chambre des représentants
https://www.lefigaro.fr/secteur/high-tech/panne-geante-de-microsoft-le-pdg-de-crowdstrike-devra-s-expliquer-devant-la-chambre-des-representants-20240723
J'imagine qu'il va passer au grill et qu'on va lui tirer les vers du nez mais, je ne sais pas si des informations pertinentes sortiront de cette audition.
"Si tous les cons volaient, il ferait nuit" F. Dard
[^] # Re: lien
Posté par groumly . Évalué à 3.
L’âge moyen/median de la maison est de 58 ans, et ils sont pas franchement technique, donc t’attends pas à voir une analyse technique détaillée qui explique comment ils se sont retrouvé à de référencer un dangling pointer, malheureusement.
Ils vont lui casser les couilles sévère, il va dire pardon, on l’a pas fait exprès, on le fera plus, il va repartir avec son ego froissé et se mettre une caisse le soir pour oublier. Et pas grand chose de plus, parce que le congrès est un corps législatif et ne peut pas faire grand chose d’autre.
Le congress va potentiellement se servir de ça pour créer une nouvelle loi, mais vu comment ils sont complètement bloqués dans des querelles de clocher, et le fric en jeu dans le milieu, je m’attendrais pas à des miracles.
Linuxfr, le portail francais du logiciel libre et du neo nazisme.
[^] # Re: lien
Posté par Luc-Skywalker . Évalué à 2.
Ah oui. Je ne l'entendais pas comme cela, mais ce que tu dis est effectivement tout à fait plausible.
Je voyais plutôt "commission sécurité intérieure <=> infos publiques bien filtrées"
"Si tous les cons volaient, il ferait nuit" F. Dard
# Détails pour réparer un poste Windows affecté
Posté par Victor STINNER (site web personnel) . Évalué à 6.
The Register: https://www.theregister.com/2024/07/19/crowdstrike_falcon_sensor_bsod_incident/
Brody Nisbet, CrowdStrike's chief threat hunter: https://x.com/brody_n77/status/1814185935476863321
There is a faulty channel file, so not quite an update.
There is a workaround…
1. Boot Windows into Safe Mode or WRE.
2. Go to C:\Windows\System32\drivers\CrowdStrike
3. Locate and delete file matching "C-00000291*.sys"
4. Boot normally.
There is a fix of sorts so some devices in between BSODs should pick up the new channel file and remain stable.
P0 incident ongoing.
En clair, il faut démarrer le poste Windows en poste sans échec ou dans l'environnement de récupération Windows (WinRE/WRE).
[^] # Article Wikipédia : entreprises impactées
Posté par Victor STINNER (site web personnel) . Évalué à 5.
https://en.wikipedia.org/wiki/2024_CrowdStrike_incident
[^] # Re: Détails pour réparer un poste Windows affecté
Posté par kowalsky . Évalué à 7.
Pratique quand tu as 50K ordinateurs éparpillés partout dans le monde :)
[^] # Re: Détails pour réparer un poste Windows affecté
Posté par Psychofox (Mastodon) . Évalué à 5.
J'imagine qu'avec des kvm/consoles activables à distance et des agents d'automatisation type cucumber/puppeteer voire un peu d'OCR ça devrait être faisable. Pas en 2 minutes certe.
[^] # Re: Détails pour réparer un poste Windows affecté
Posté par abriotde (site web personnel, Mastodon) . Évalué à 2.
Bah non su Windows ne boot pas on peut rien faire sauf peut-être sur les serveurs virtualisés ou les Bios administrable à distance. Mais les postes de travail n'ont pas d'IP fixe ni aucun système de ce type partant de là la seule solution c'est de diffuser la procédure de correction.
Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
[^] # Re: Détails pour réparer un poste Windows affecté
Posté par Argon . Évalué à 1.
Sur des workstations pro tu as la possibilité d'avoir un KVM via Intel AMT, il faut l'activer bien sur. Donc si tu as un accès VPN sur le LAN distant par exemple tu peux faire les manipulations. C'est ce que je fais sur des Workstations en datacenter.
de même que nous profitons des avantages que nous apportent les inventions d'autres, nous devrions être heureux d'avoir l'opportunité de servir les autres au moyen de nos propres inventions ;et nous devrions faire cela gratuitement et avec générosité
[^] # Re: Détails pour réparer un poste Windows affecté
Posté par Astaoth . Évalué à 10.
Il y a un fix officiel de Crowdstrike, documenté par MS ici. La méthode de déploiement en question : rebooter jusqu'à ce que le fix soit téléchargé à temps, sur un malentendu. Un vrai taff d'ingé :D
Emacs le fait depuis 30 ans.
[^] # Re: Détails pour réparer un poste Windows affecté
Posté par Pierre Tramal (site web personnel) . Évalué à 8.
Ca ressemble à la méthode universelle de réparation
en informatiquesous Windows: éteindre et rallumer.[^] # Re: Détails pour réparer un poste Windows affecté
Posté par Psychofox (Mastodon) . Évalué à 5.
Erreur. Ce n'est qu'un contournement. Le vrai fix est ici.
[^] # Re: Détails pour réparer un poste Windows affecté
Posté par zurvan . Évalué à 10.
puisqu'on est quand même sur linuxfr, le correctif qui me semble le plus évident et le plus pérenne c'est quand même de reformater l'ordinateur et d'installer une distribution linux à la place…
« Le pouvoir des Tripodes dépendait de la résignation des hommes à l'esclavage. » -- John Christopher
# des bugs crowdstrike sous linux, ça a déjà existé
Posté par Psychofox (Mastodon) . Évalué à 10. Dernière modification le 19 juillet 2024 à 14:05.
Sans impacter aussi globalement que cette panne, des kernel panic linux lié à crowdstrike sont déjà arrivées:
https://access.redhat.com/solutions/7068083
https://forums.rockylinux.org/t/crowdstrike-freezing-rockylinux-after-9-4-upgrade/14041
Dans ce cas c'était plutôt des bugs kernels activés par crowdstrike mais bon on n'est pas forcément à l'abri des suprises sous linux.
# Tous les antivirus ont un bout de code en espace noyau ?
Posté par Barnabé . Évalué à 5.
Peut-être devrais tu préciser les limites de cette affirmation, je connais plusieurs antivirus qui n'ont pas de code en espace noyau. Pour ne parler que du libre, clamav peut éventuellement utiliser l'API noyau fanotify, mais ce n'est pas du code de l'antivirus.
[^] # Re: Tous les antivirus ont un bout de code en espace noyau ?
Posté par -=[ silmaril ]=- (site web personnel) . Évalué à 5.
Dire que crowdstrike est un anti-virus est au mieux réducteur au pire complétement faux
C'est un outil d'analyse d'intrusion par étude comportementale, il se greffe au noyaux soit via un module dédié soit via eBPF pour tracer les appels systèmes des applications et analyser leurs comportements.
(Bon en pratique c'est de la daube intersidérale vendue une fortune comme tout les XDR qui rend une machine 'juste' complètement inutilisable)
Clamav ne sait qu'analyser des fichiers pour y détecter chaînes d'octets connues comme néfastes.
# il manque la nimage nironique
Posté par Psychofox (Mastodon) . Évalué à 10.
[^] # Re: il manque la nimage nironique
Posté par lejocelyn (site web personnel) . Évalué à 7.
C'est triste de voir comment cette publicité est implicitement ok avec les pratiques mafieuses des entreprises : attaque de réseaux, vols d'informations, etc.; pour vanter ses outils.
[^] # Re: il manque la nimage nironique
Posté par aiolos . Évalué à 3.
Je ne comprends pas ce qui te permet d'affirmer cela. Se protéger d'un risque n'est pas le cautionner. A ce compte là, c'est comme dure que Verisure est OK avec le cambriolage…
[^] # Re: il manque la nimage nironique
Posté par lejocelyn (site web personnel) . Évalué à 4.
Ce qui me permet de dire cela, c'est le vocabulaire employé par Crowdstrike:
an adversary, adservary intelligence.
En utilisant ce vocabulaire de la compétition, Crowdstrike fait clairement référence à des pratiques liées à la concurrence entre les entreprises, mais rien dans le discours ne positionnent ces pratiques comme illégitimes.
[^] # Re: il manque la nimage nironique
Posté par aiolos . Évalué à 5.
Ah, OK, j'en avais pas la même lecture que toi…
Après, je fais de la sécurité, et on parle souvent d'adversaire dans les modèles de sécurité, sans penser forcément à un concurrent. On peut donc sans doute considérer ce terme comme jargonnant, et expliquer la différence de perception.
[^] # Re: il manque la nimage nironique
Posté par Lucky Seven . Évalué à 6.
C'est le terme adapté dans le domaine de la sécurité (https://csrc.nist.gov/glossary/term/adversary), mais c'est effectivement dommage qu'ils n'aient pas adapté la communication comme le marketing sait si bien le faire dès fois.
# sysadmin day
Posté par BAud (site web personnel) . Évalué à 6. Dernière modification le 19 juillet 2024 à 14:48.
c'est vendredi prochain le 26 juillet la journée pour apprécier l'administrateur système
sur wikipedia le gâteau évoque une méthode pour éviter le mauvais sort :D
# Incompetence
Posté par ff9097 . Évalué à 9.
Déployer des MaJ sur tout le parc en même temps…. Certains méritent ce qui leur arrive
[^] # Re: Incompetence
Posté par BAud (site web personnel) . Évalué à 6.
c'est censé avoir été testé en amont ;-)
là ce n'est plus du je-m'en-foutisme à tous les échelons, c'est une très mauvaise analyse du risque à tous les échelons, mais qui aurait pu y penser ?! bin tous !
[^] # Re: Incompetence
Posté par BAud (site web personnel) . Évalué à 4.
l' architecture sécurité c'est toujours se poser la question « mais qu'est-ce qui ferait que ça ne fonctionnerait pas, combien de cas, quelle ampleur ? » et apporter les réponses en terme de remédiation, les faire accepter _a priori_si cela doit se produire :/ (plutôt que de les négocier après-coup)
[^] # Re: Incompetence
Posté par antistress (site web personnel) . Évalué à 7.
Les running gags, mes préférés xD
# Un vendredi et alors ?
Posté par xandercagexxx . Évalué à 10. Dernière modification le 19 juillet 2024 à 18:27.
Jsuis adminsys, heureusement en vacances et de toute façon je travaille que sur infra linux, mais j'ai travaillé dans d'autres domaines avant l'informatique et le vendredi, c'est un jour de semaine comme un autre.
Vous savez, ya pleins de gens qui travaillent le samedi et le dimanche. Les avions et aéroport ne s'arrête pas de tourner le vendredi soir, les trains pareil, etc.
Si la mise à jour avait eu lieu mercredi, cela n'aurait pas été mieux, cela n'aurait pas été plus simple à gérer. Ce ne sont pas les même personnes qui auraient été impacté les jours suivants, c'est tout.
Si une entreprise à besoin de 3 jours pour la remédiation de son parc, ça va lui coûter moins cher avec un début de panne le vendredi, car samedi et dimanche, la majorité des salariés ne seront pas au chômage. Si c'était panne le mercredi, c'était 3 jours d'immobilisation de tous le personnel.
Faut arrêter avec cette vision du vendredi. Si on a peur de devoir intervenir un weekend, bas on choisit un métier qui n'a pas de lien avec la production. La production, c'est avoir le risque de panne, et les pannes, c'est pas juste du lundi au vendredi, de 8h à 17h.
Si on aime la production, on accepte les contraintes qui vont avec.
Si on est pompier, on sait que l'on va devoir intervenir à des moments qui font chier. Si on ne le souhaite pas, on fait une autre activitée.
Là, ce qui est bizarre, c'est l'impact international tout au même moment. Et dans beaucoup de cas, c'est à l'allumage de la machine ce matin. Donc la mise en production n'était pas vendredi (la mise à jour à dû être récupérée la veille, et c'est appliqué au démarrage suivant. Donc mise en prod le jeudi, et là, l'histoire du vendredi perd tout son sens 😛 ).
[^] # Re: Un vendredi et alors ?
Posté par antistress (site web personnel) . Évalué à 3.
Oui, mais ca ne veut pas dire que c'est agréable, et pourquoi rejeter un peu d'empathie ? (bordel)
[^] # Re: Un vendredi et alors ?
Posté par xandercagexxx . Évalué à 2.
Non, ça veut pas dire que c'est agréable, mais c'est aussi le piment de la production. En général quand tu fais de la production, tu aimes quand même les imprévus (en tout cas après coup, t'en a de bon souvenirs 😇 ). Si c'est un imprévu sur les heures habituelles de travail, c'est plus vraiment un imprévu 😁😁
J'ai de l'empathie pour ceux qui en chie pour restaurer les systèmes. Mais pour autant, je ne considère pas que leur boulot aurait été plus simple un mardi ou un mercredi.
Une grande partie de ceux qui vont devoir bosser ce weekend, n'auront pas de pression autre que remettre en route l'infra. En semaine, ils auraient eu la pression des autres salariés en plus. Pas sûr que ce soit plus agréable.
Faudrait avoir des retours sur le ressenti des équipes après la résolution de cette panne géante 🤓🤓
[^] # Re: Un vendredi et alors ?
Posté par antistress (site web personnel) . Évalué à 4.
Ha OK, je n'avais pas bien compris où tu voulais en venir
[^] # Re: Un vendredi et alors ?
Posté par groumly . Évalué à 5.
C'est juste que c'est plus simple d'avoir toutes tes équipes sur le pied de guerre un mercredi a midi que ca l'est un vendredi a 17 heures, ce qui évite de retarder la resolution.
Apres c'est aussi souvent parce que ce genre de pratiques sont poussees par des boites grand public, qui ont tendance a voir plus de traffic le week end qu'en semaine. Et que donc, pour eux, ya un plus gros impact un vendredi soir qu'un mardi apres midi.
Linuxfr, le portail francais du logiciel libre et du neo nazisme.
[^] # Re: Un vendredi et alors ?
Posté par xandercagexxx . Évalué à 4. Dernière modification le 20 juillet 2024 à 00:39.
Je ne suis pas complétement d'accord, mais oui, d'un point de vue équipe qui doit remédier au merdier, c'est plus simple de s'organiser en cas de panne en semaine 😎
Ma remarque, c'est "juste" qu'en fonction des métiers derrière, la panne coûte moins cher si intervention le weekend qu'en semaine (10 adminsys le weekend, c'est moins cher que 300 salariés qui peuvent pas bosser pendant 2-3 jours, même avec les heures supp payé pour les 10).
Une panne sur le métro parisien le weekend aura moins d'impact que la même panne en semaine. Et ok ta les équipes plus étoffé en semaine, mais ta beaucoup plus de clients impacté. Et donc de boulot et de communication pour rassurer tous le monde et pas passer pour des nuls. Le weekend, l'impact médiatique sera moindre.
Il sera intéressant d'avoir des chiffres sur les pertes financières que cet incident aura eu (et le nombre de personnes impacté), et à partir de là, on pourra évaluer s'il fallait mieux la même panne en milieu de semaine. La panne aurait été identique, mais l'impacte financier n'aurait sans doute pas été le même.
Dans tout les cas, les mises en production le vendredi ne sont pas forcément évitable (là où je bosse, je préfère être dérangé pour dépanner le weekend, car moment de quasi inactivité commercial, donc stress minimum, par rapport à une panne en semaine).
Et pour pas mal de métier, il n'y a pas de bonne période pour avoir une panne de ce genre : transport international, banque, hôpitaux, etc. Pour tout ces métiers là, si tu leur dit "quel est le jour où l'on peut se permettre de casser la production au minimum 24h, tu n'auras pas de réponse positive, même si c'est mardi ou mercredi" 🤓🤓🤓
[^] # Re: Un vendredi et alors ?
Posté par barmic 🦦 . Évalué à 3.
Tout le monde n'est pas à l'état de l'art avec "des équipes". Ce qui implique non seulement d'avoir des plusieurs équipes mais aussi d'avoir plus d'une personne.
Si tu as des astreintes il faut aussi que ces personnes en astreintes sachent réparer, j'en ai vu qui ne savent pas faire sans l'aide de l'équipe qui elle n'a pas d'astreintes…
Et des situations comme ça tu peux en avoir plein. Est-ce que c'est des situations merdiques ? Tout à fait, mais ceux qui font bien les choses n'ont juste pas eu le problème, ils ont juste qualifié un défaut lors d'une mise à jour.
Je suis d'accord que ne pas vouloir mettre en prod le vendredi est révélateur de problème, mais c'est qu'il faut questionner ses problèmes et ne pas croire qu'ils n'existent pas.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Un vendredi et alors ?
Posté par Psychofox (Mastodon) . Évalué à 4.
C'est surtout qu'il ne faut pas se créer ses propres problèmes.
Si des équipes sont essentielles et n'ont pas elles-même d'astreinte, le problème ce n'est pas le jour de la mise en prod, il ne fait que le révéler.
[^] # Re: Un vendredi et alors ?
Posté par barmic 🦦 . Évalué à 3.
C'est exactement ce que je dis, mais en plus général si un déploiement en prod un vendredi est un problème c'est un révélateur et pas une cause. Il serait irresponsable de ne pas s'attaquer aux causes avant de remettre en cause le planning de déploiement.
Après le problème de compétences dans les astreintes si tu as de la chance c'est une question de passage de connaissance sinon c'est un problème d'organisation (pourquoi les bonnes compétences ne sont pas d'astreinte ?) ou de recrutement et donc être des problèmes sacrément complexes.
Ça s'entend que ce n'est pas un combat que certains veulent mener.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Un vendredi et alors ?
Posté par Psychofox (Mastodon) . Évalué à 3.
Mais comme le montre cet épisode, que tu fermes ou pas les yeux, si tu gardes ta tête devant le cul d'une vache tu va te retrouver emmerdé.
[^] # Re: Un vendredi et alors ?
Posté par barmic 🦦 . Évalué à 3.
Je ne comprends pas. Oui ne pas traiter tes problèmes peut poser problèmes et tu dois prioriser les problèmes à corriger.
Oui quand tu as une série d’alignements de planètes avec à la fois Crowdbidule et toi qui ratent tu te retrouve en galère.
Ça peut arriver sur tout et n'importe quoi. Là on en parle parce que :
Mais au final la qualité d'une prod dépend fortement des moyens que l'entreprise y met. Avoir des équipes compétentes, des moyens matériels, des astreintes qui fonctionnent bien, des processus pour tout valider, de la vérification active des problèmes (red team, monkey army, etc),…
Si tu n'es pas dans une entreprise qui est en mesure de faire cet investissement ou qui n'en a pas le besoin, ben tu ne sera pas parfait et tu vivra des problème c'est le métier.
D'ailleurs même quand tu fais tout ça tu n'es pas à l’abri de problèmes majeure et généralisé
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Un vendredi et alors ?
Posté par tkr . Évalué à 1.
chez whapp, ils ont l'offre annuelle :
https://www.lefigaro.fr/secteur/high-tech/whatsapp-l-application-de-messagerie-touchee-par-une-panne-mondiale-20240403
https://www.lefigaro.fr/secteur/high-tech/whatsapp-touche-par-une-panne-mondiale-mercredi-soir-20230719
https://www.lefigaro.fr/secteur/high-tech/whatsapp-plusieurs-pays-dont-la-france-touches-par-une-panne-20221025
[^] # Re: Un vendredi et alors ?
Posté par Victor STINNER (site web personnel) . Évalué à 2.
Ces pannes se comptent en heures. La panne Crowdstrike semble encore en cours, l'impact est clairement plus de 24h et bloque des postes en entier, pas juste un service. Maintenant oui, les pannes WhatsApp sont remarquées car le service est clairement très populaire 😁
# Rien à dire
Posté par Marotte ⛧ . Évalué à 6. Dernière modification le 19 juillet 2024 à 20:54.
Avis lapidaire, non argumenté, reposant sur une expérience relativement modeste mais bien réelle de confrontation avec cette chose. Avis qui ne porte pas sur les principes sur lesquels repose l’outil mais sur le logiciel en tant que tel et son éditeur :
Falcon sensor c’est de la merde, et Crowdstrike des bonimenteurs.
[^] # Re: Rien à dire
Posté par antistress (site web personnel) . Évalué à 4. Dernière modification le 19 juillet 2024 à 21:17.
Peut-être, mais avoir un logo aussi pertinent, ça emporte tout xD
https://linuxfr.org/users/antistress/liens/une-panne-geante-de-microsoft-paralyse-de-nombreuses-entreprises-dans-le-monde#comment-1964301
[^] # Re: Rien à dire
Posté par Psychofox (Mastodon) . Évalué à 4.
Note: l'image en lien n'est pas leur logo mais une image tirée de leur page sur le produit.
Leur logo, c'est juste le nom avec 2 sortes de griffures sur le C.
# Incroyable ...
Posté par Christophe B. (site web personnel) . Évalué à 10.
Bonjour,
Pendant des années tu passes pour le "mec négatif" qui voit les problèmes la il n'y en a pas etc …
Et puis malgré tes écrits, tes conseils certains responsable s'obstinent à continuer à effectuer en AUTOMATIQUE les mises à jours de la PROD sur l'ERP de Gestion, le logiciel qui gère l'activité de TOUTE la boite
résultat : MAJ Windows => problème de perf sur la BDD => 1 journée et 1/2 de perdue pour l'entreprise, sans compter le retard accumulé
C'était il y a plus de 10 ans, et bien on peut constater que les RSI DSI et autres "responsables" continuent de lire les magazines qui leurs sont dédiés mais oublie le bon sens commun en informatique :
On ne change pas une équipe qui gagne, et on ne met pas à jour la PROD sans effectuer des tests.
Surtout que de nos jours avec la virtualisation, une PREPROD coute certainement moins chère qu'un arrêt brutal des services.
Et si on faisait la liste des entreprise "NORMALES" qui n'ont pas eu de problème ?
pour moi c'est un gage de qualité de ne PAS choisir M$ ou de faire preuve de bon sens
[^] # Re: Incroyable ...
Posté par Marotte ⛧ . Évalué à 6. Dernière modification le 20 juillet 2024 à 19:37.
MS c’est une chose. Mais Falcon sensor je trouve que ça dépasse les bornes.
A été conçu pour Windows, puis porté sur Linux : bonjour le bricolage
Est “cloud-based” : on offre potentiellement toutes les données à Crowdstrike, le seul garde-fou est d’ordre juridique. Techniquement c’est open bar. Et zéro transparence, de la pure boite noire.
Est “AI-powered” : bien que sur le papier ce soit séduisant (se reposer sur le deep-learning pour détecter/catégoriser/remédier à des attaques c’est une idée intéressante), mais de fait, on assume qu’un comportement non prévu puisse se manifester. On accepte de servir à entraîner une IA que l’éditeur pourra ensuite monnayer auprès d’autres acteurs, voire auprès de nous même.
La seule « documentation » accessible publiquement consiste en des plaquettes commerciales à très forte teneur en vulgaires foutaises.
Un logiciel de ce type pour être viable doit être open-source et le service fonctionner de la manière la plus transparente qui soit. D’ailleurs je ne doute pas qu’on assiste un jour à l’avènement d’un outil de ce type dans l’écosystème libriste, à l’instar de ce qu’est ClamAV, une solution d’antivirus à papa opensource.
À noter, pour parler la même langue et donc discuter avec vos décideurs pressés : ne parlez pas d’un « antivirus », vous signeriez votre qualité de dinosaure muni d’œillères rampant sur la dernière ligne droite vers sa retraite. Non, il s’agit d’une solution « EDR » Endpoint Detection and Response. Autant vous dire que c’est un cran au dessus de OpenOffice !
[^] # Re: Incroyable ...
Posté par Marotte ⛧ . Évalué à 6.
Ne pas le choisir systématiquement, je suis d’accord. Maintenant, c’est pas les plus mauvais bougres Microsoft, si on compare par exemple à IBM ou Oracle… et leurs logiciels ne sont pas tous aussi médiocres que peut l’être Windows, loin de là.
Les GAFAM sont incontournables aujourd’hui, mais je pense en effet que ne pas mettre tous ses œufs chez l’un ou l’autre, mais plutôt diversifier les solutions qu’on achète, en prenant chez l’un et chez l’autre c’est indispensable.
Bien entendu le souci d’homogénéité et de rationalisation des coûts incite à tout prendre chez le même, mais il faut garder en tête le besoin de ne pas se retrouver captif. J’ai l’impression qu’on néglige trop souvent ce deuxième point, surtout en France. J’ose espérer que cet épisode de bug mondial pourra faire évoluer les mentalités dans le bon sens.
# Espace de pub a louer [humour]
Posté par Christophe B. (site web personnel) . Évalué à 10. Dernière modification le 20 juillet 2024 à 14:45.
Les BSOD pourraient devenir un espace publicitaire très demandé, vu le nombre de personnes que cela concerne, à mon avis il y a une idée à creuser.
(soyons honnête : j'ai vu cette remarque sur le forum de nos camarades de chez développez
# crowdstrike
Posté par libreX . Évalué à -8.
Crowstrike est impliqué dans le projet des GAFAM et startups implantés en Israël de contrôle et surveillance de la population GOY…occidentale dans le monde.
[^] # Re: crowdstrike
Posté par libreX . Évalué à -7.
Comme j ai les preuves de ce que j'ai écris… je note les avis négatifs des sayanims…
[^] # Re: crowdstrike
Posté par libreX . Évalué à -6.
le commentaire à peine éditer reçois un -1 pourquoi ? il n a pas été encore lu…
[^] # Re: crowdstrike
Posté par Benoît Sibaud (site web personnel) . Évalué à 5.
Cf https://linuxfr.org/aide#aide-karma (multiplier les commentaires à l'emporte-pièce, très tranchés et sans aucune référence/source, n'aide pas à avoir un bon karma. Même problématique sur tes dépêches soumises d'ailleurs)
[^] # Crowdstrike cette infection
Posté par Marotte ⛧ . Évalué à 3.
Tu as les preuves mais tu ne juges pas nécessaire, ou souhaitable, de les produire ? Les révéler aux yeux de tous ?
Ce n’est pas très gentil et ça dénote d’un vide argumentaire, mais je te le dis quand même : je t’aime.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.