Journal Une mise à jour de l'antivirus Crowdstrike bloque des milliers de postes Windows au démarrage

24
19
juil.
2024

Ce matin, une mise à jour d'un pilote noyau Windows de l'antivirus Crowdstrike a causé la panne de milliers de postes Windows et impacté des dizaines (centaines?) d'entreprises à travers le monde. Le contournement/correctif est de supprimer les pilotes "C-00000291*.sys" dans le dossier C:\Windows\System32\drivers\CrowdStrike… mais comment réaliser cette opération à distance si les machines échouent au démarrage de Windows ? Réparer la panne risque de prendre plusieurs jours/semaines pour corriger chaque poste impactés si l'opération ne peut pas être automatisée à distance !

On peut se questionner sur la méthode de mise à jour qui a instantanément impacté des milliers de postes Windows. Pourquoi ne pas mettre à jour seulement une partie du parc puis progressivement mise à jour tous les postes ? Dommage que le bug n'ait pas été détecté avant de partir en prod, il va coûter très cher à Crowdstrike !

Dommage également qu'un bug d'un pilote noyau puisse provoquer un crash au démarrage de Windows. Enfin, c'est un peu le principe d'un pilote, donner un accès complet à la machine. Alors qu'un bug en espace utilisateur (applications) ne peut normalement pas provoquer un échec complet de la machine, le noyau protège la machine contre ça (limite les applications). Tous les antivirus ont un bout de code en espace noyau (pilote).

Pas cool de déployer une mise à jour un Vendredi, weekend pourri pour des dizaines de sysadmins. Petite pensée pour eux.

Liens :

Note: l'antivirus Crowdstrike existe aussi pour macOS et Linux, mais seul Windows est impacté par le bug bloquant le démarrage.

  • # lien

    Posté par  (Mastodon) . Évalué à 2 (+1/-2).

    • [^] # Re: lien

      Posté par  (site web personnel) . Évalué à 6 (+4/-0).

      Oui, c'est le premier lien que j'ai donné.

    • [^] # Re: lien

      Posté par  . Évalué à 4 (+2/-0). Dernière modification le 19 juillet 2024 à 17:24.

      liens sur Wikipédia de l'incident du jour à couverture mondiale :
      - https://fr.wikipedia.org/wiki/Panne_informatique_mondiale_de_juillet_2024
      - https://en.wikipedia.org/wiki/2024_CrowdStrike_incident

      zut, j'arrive un peu tard.

    • [^] # Re: lien

      Posté par  . Évalué à 3 (+1/-0).

      un débat sur France-TV, "C dans l'air" consacré au JO et l'incident Crowdstrike, intitulé : sécurité pas de trêve olympique.

      A l'heure actuelle, il n'est pas démontré (Alain Bauer) s'il s'agit d'un bug interne lié au process de déploiement chez Microsoft, d'un bug introduit malencontreusement par la société Crowdstrike, ou d'une malveillance externe.

      On peut supposer qu'il sera difficile de faire toute la lumière sur cet incident ; la communication officielle étant : tout est sous contrôle, ne vous inquiétez pas. Le semblant de transparence est de mise, ce qui permet à tout un chacun d'être pleinement rassuré.

      • [^] # Re: lien

        Posté par  . Évalué à 9 (+9/-1).

        Non on sait exactement où est le problème : chez crowdstrike. Ils ont fait une update de merde, et Microsoft n'a absolument rien à voir avec cela.

        • [^] # Re: lien

          Posté par  . Évalué à 3 (+1/-0). Dernière modification le 22 juillet 2024 à 16:50.

          Visiblement, j'ai cru comprendre (non spécialiste du truc) que le "driver" Falcon sensor s’exécute en espace kernel, serait capable d’exécuter du pseudo-code depuis un fichier de définition, ce qui (toujours de la façon dont je comprend la chose) permet a un driver qui doit passer le processus de certification WHQL avant de pouvoir être déployé, d’exécuter quand même un code (pseudo-code) non certifié.

          De fait, malgré cette politique de Microsoft qui vise à assurer la stabilité de leur OS, Crowdstrike a réussi à la contourner avec le résultat qu'on connait.

          Enfin, c'est que j'ai retenu de cette vidéo YT d'un ancien de Microsoft :
          https://www.youtube.com/watch?v=wAzEJxOo1ts

          (donc a prendre avec les pincettes de circonstances, j'imagine).

          Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

          • [^] # Re: lien

            Posté par  . Évalué à 2 (+0/-0).

            Si vous ne voulez pas vous taper la vidéo, l'auteur résume son propos dans ce tweet :

            https://x.com/davepl1968/status/1814724947438412129

            Sinon, j'ai traduit mentalement P-Code par pseudo-code, mais c'est une erreur, ça n'a rien a voir, c'est bien de p-code dont il parle dans la vidéo.

            (tjrs à prendre avec des pincettes hein).

            Pour l'auteur, voila ses réfs :

            https://en.wikipedia.org/wiki/Dave_Plummer

            C'est le gars qui a codé le task manager et le "space cadet pinball" pour Windows NT. rien que ça !

            Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

          • [^] # Re: lien

            Posté par  . Évalué à 3 (+1/-0).

            Tous les credentials Microsoft du monde ne sont pas super utiles quand il s’agit de savoir ce que crowdstrike fait en pratique.

            Y’a un monde entre télécharger du code exécutable (que soit binaire ou recompilé/interprete à la volée), ou paramétrer du code existant à la volée.

            J’ai toujours pas vu de détails techniques venant de crowdstrike, donc je doute qui que ce soit en dehors de CS n’a l’autorité de commenter sur ce qu’il s’est réellement passé (autre que « Bestel, il a branché la CiBi sur le kernel, et il a fait pffft »).

            Linuxfr, le portail francais du logiciel libre et du neo nazisme.

            • [^] # Re: lien

              Posté par  . Évalué à 3 (+1/-0).

              Je suis assez d'accord en fait. Mais du coup, on pourrait ne jamais savoir ? Enfin, je veux dire, chez CS ils savent bien déjà ce qui s'est passé et comment fonctionne leur système ?

              Il n'y a que dans notre industrie qu'une telle aberration est possible. Provoquer une panne de cette ampleur et avoir que le strict minimum en terme de communication.

              Comme tu le dit, seul le personnel de CS a autorité pour le faire et sa semble "normal", du moins à une grande partie des acteurs. (Évidemment, pas ici, bien sur).

              Dans ma branche, je vois le même genre de délire avec des boîtes comme Broadcom. Mais limite, qu'elle le fasse, c'est un fait, mais qu'on les laisse faire … Ça je ne comprend pas.

              Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

              • [^] # Re: lien

                Posté par  . Évalué à 3 (+1/-0).

                Enfin, je veux dire, chez CS ils savent bien déjà ce qui s'est passé et comment fonctionne leur système ?

                4 jours plus tard, oui, j’espère qu’ils ont un post mortem interne bien détaillé, vu la merde qu’ils ont mit :)

                Il n'y a que dans notre industrie qu'une telle aberration est possible. Provoquer une panne de cette ampleur et avoir que le strict minimum en terme de communication.

                Mouais. Quand les 737 max ont commencé à se mettre au tas en 2019, Boeing savait très bien ce qu’il s’était passé. Idem quand un autre 737 a perdu sa porte en vol. Et ça, c’est dans une industrie super régulée, avec des accidents qui ont fait plus de 300 morts.

                Apres, je suis pas sur que leur silence radio leur fasse beaucoup de bien. Je pense que quelques cto/dis sont en train de négocier de façon plutôt sèche un remboursement avec leur commercial, parce que la ils ont poussé le bouchon un peu loin.

                Linuxfr, le portail francais du logiciel libre et du neo nazisme.

                • [^] # Re: lien

                  Posté par  . Évalué à 3 (+1/-0).

                  L'attitude de Boeing, justement, a été trés largement montrée du doigt. La façon dont le PDG de l'époque s'est fait littéralement démolir au congrés étant assez significative, malgré son mea-culpa (pathétique cela dit). Voir ici pour ref :

                  BREAKING NEWS: Josh Hawley Ruthlessly Grills Boeing CEO, Asks Him Point Blank Why He Hasn't Resigned

                  C'est pas parce qu'un acteur du transport aérien a développé une culture d'entreprise toxique que c'est la règle dans cette industrie.

                  Par contre, dans l'industrie informatique, c'est loin, voire très loin d'être exemplaire chez la majorité des acteurs.

                  j'avais déjà signalé ici l'article qu'avait fait Geoff Huston a ce sujet (c'est l'équivalent Australien de Stéphane Bortzmeyer chez nous) : Outage Reporting

                  Il signalait en quoi la communication d'Akamaï avait été autant remarquable qu'inhabituelle, y voyant potentiellement un changement de cap dans notre métier a ce sujet :

                  It would be a positive step forward for this industry if Akamai's outage report was not unusual in any way. It would be good if all service providers spent the time and effort post rectification of an operational problem to produce such outage reports as a matter of standard operating procedure. It's not about apportioning blame or admitting liability. It's all about positioning these services as the essential foundation our of digital environment and stressing the benefit of adopting a common culture of open disclosure and constant improvement as a way of improving the robustness of these services. It’s about appreciating that these days these services are very much within the sphere of public safety and their operation should be managed in the same way.

                  C'est l'occasion rêvée de voir si les choses ont changé, non ?

                  Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

                  • [^] # Re: lien

                    Posté par  . Évalué à 3 (+1/-0).

                    Ok, mais ça a mit plus de 5 ans pour en arriver là. Le premier crash du 737 max, c’était en 2019, et la faa a pas bronché.

                    Il a fallu 300 morts sur 2 crash, une compagnie us qui a perdu une porte en plein vol, et un lanceur d’alerte retrouvé suicidé dans un baril de béton au large du vieux port.

                    tu peux prendre un autre exemple, tesla a tendance à être très silencieux sur leurs pannes. Les autres constructeurs sont pas forcément super bavards non plus, remarque. Ils lancent un recall, disent que la pièce machin marche mal, on va la changer, et pas grand chose de plus.

                    C’est un peu ce que crowdstrike fait ici.

                    Par contre, dans l'industrie informatique, c'est loin, voire très loin d'être exemplaire chez la majorité des acteurs.

                    On va dire que ça dépend pas mal du secteur. Apres, oui, je préférerais de très très loin si c’était la norme.

                    Linuxfr, le portail francais du logiciel libre et du neo nazisme.

                    • [^] # Re: lien

                      Posté par  . Évalué à 4 (+2/-0).

                      Ouais, évidement. Mais tu as quand même toute une réglementation qui contraint fortement les acteurs à la transparence. Quand un avion a un probléme, même mineur, il y tout un cadre juridique clairement définit et qui précise bien que l'enquête "technique" n'a pas pour objectif de déterminer les responsabilité :

                      Les États doivent ouvrir une enquête en cas d'accident ou d'incident grave d'aviation civile sur leur territoire. Il est spécifié que "l'enquête sur un accident ou un incident a pour seul objectif la prévention de futurs accidents ou incidents" et que "cette activité ne vise nullement à la détermination des fautes ou des responsabilités". L'association étroite des représentants des États d'immatriculation, d'exploitation, de conception et de construction de l'aéronef apporte à l'État qui mène l'enquête les compétences dont il a besoin pour la mener.

                      Cadre juridique du BEA

                      C'est très clair. Le but, c'est de constituer une culture de sécurité.

                      Bien évidement, ça n'empêche pas certaine dérives non plus.

                      C'est pas spécifique a l'aviation. Dans mon ancien métier, la marine marchande, ça se fait aussi. Par exemple, je suis tombé récemment sur un rapport d'enquête public sur un incendie ayant eu lieu sur un de mes anciens navires :

                      le contexte : L’« Atlantic Cartier », ancien roulier français de la CGM, ravagé par le feu à Hambourg

                      le rapport allemand est dispo ici : Fire on board ConRo vessel ATLANTIC CARTIER in the Port of Hamburg

                      lien direct vers le pdf

                      Et c'est pas pour autant qu'il n'y a pas des montagnes de problémes, des armateurs véreux, des équipages sans scrupules, des bateaux pourri et des pratiques douteuse dans le métier, hein.

                      Mais le cadre juridique existe, les conventions internationales exigent des enquêtes et expertises indépendantes lors d'incident grave. On retrouve ça aussi dans d'autres industrie, par exemple en France : La base de données ARIA

                      Ou aussi l'USCSB qui s'est faite une célébrité grâce a ses vidéo 3D sur YouTube dont la réalisation est particulièrement soignée : https://www.csb.gov/

                      Il va falloir qu'un accident informatique tue des gens ? Comme la fameuse panne des numéros d'urgence en france ? Pour le coup, l'ANSSI a été mandaté par l'état pour faire une enquête et pondre un rapport dispo ici.

                      D'ailleurs on peut y lire :

                      7.3 Prévenir de nouvelles pannes analogues

                      7.3.1 Procéder de manière systématique à des tests sur la préproduction lors d'introduction de nouvelles méthodes

                      Lors de la conduite d’opérations de maintenance sur des équipements critiques, procéder systématiquement à des tests sur des plateformes de préproduction qui incluent des tests de montée en charge et tendent à se rapprocher le plus possible de la plateforme de production.

                      7.3.2 S'assurer qu'aucune perturbation n'apparaît suite à un changement de configuration avant de l'appliquer sur l'ensemble des équipements

                      Echelonner systématiquement dans le temps la réalisation de manipulations techniques sur des
                      équipements techniques pour se prémunir d’une défaillance généralisée.

                      A mettre en relation avec ce type d'infos concernant Crowdstrike :

                      https://www.insurancejournal.com/news/national/2024/07/19/784780.htm

                      The disruptions also impacted critical infrastructure, including emergency services.

                      Doctors at the UK’s National Health Service couldn’t access scans, blood tests and patient histories. Memorial Sloan Kettering Cancer Center in New York and Boston-based Mass General Brigham warned that the CrowdStrike issue was affecting patient care. Hospitals in Europe reported having to close clinics and cancel procedures.

                      New York’s 911 and emergency systems were also impacted. While the state’s chief cyber officer said that fixes were underway, there was no clarity on when services would be fully restored. New Hampshire’s emergency 911 services are functioning again after a failure in which operators could see calls coming in but couldn’t answer them.

                      Ils va falloir combien de probléme de ce type avant qu'on prenne ENFIN ce probléme au sérieux ?

                      Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

                • [^] # Quelque update sur la cause racine

                  Posté par  . Évalué à 5 (+3/-0).

                  Juste un partage de quelque liens issue de ma veille sur le sujet (sans p-code ;) ).

                  L'analyse technique la plus détaillé que j'ai pu lire :

                  Technical details of the Windows BSOD disaster due to CrowdStrike

                  La solution a ce type de probléme selon Brendan Gregg, un expert du domaine :

                  No More Blue Fridays

                  (plaidoyer pour la généralisation d'eBPF qui permet l'exécution en mode sandbox de code avec des privilèges élevés, implémenté sous linux, et en cours sous windows )

                  Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

                  • [^] # Re: Quelque update sur la cause racine

                    Posté par  (Mastodon) . Évalué à 4 (+1/-0).

                    De ce que j'ai lu eBPF sous windows manque encore pas mal de sondes pour faire tout ce que veux Crowdstrike alors il faudra attendre pas mal de temps pour que ça remplace correctement un driver noyau.

              • [^] # Re: lien

                Posté par  . Évalué à 2 (+1/-0).

                En tout cas le Boss de Crowdstrike va devoir s'expliquer fissa (d'ici mercredi 24/07) devant la commission de la sécurité intérieure de la Chambre des représentants

                https://www.lefigaro.fr/secteur/high-tech/panne-geante-de-microsoft-le-pdg-de-crowdstrike-devra-s-expliquer-devant-la-chambre-des-representants-20240723

                J'imagine qu'il va passer au grill et qu'on va lui tirer les vers du nez mais, je ne sais pas si des informations pertinentes sortiront de cette audition.

                "Si tous les cons volaient, il ferait nuit" F. Dard

                • [^] # Re: lien

                  Posté par  . Évalué à 3 (+1/-0).

                  je ne sais pas si des informations pertinentes sortiront de cette audition.

                  L’âge moyen/median de la maison est de 58 ans, et ils sont pas franchement technique, donc t’attends pas à voir une analyse technique détaillée qui explique comment ils se sont retrouvé à de référencer un dangling pointer, malheureusement.

                  Ils vont lui casser les couilles sévère, il va dire pardon, on l’a pas fait exprès, on le fera plus, il va repartir avec son ego froissé et se mettre une caisse le soir pour oublier. Et pas grand chose de plus, parce que le congrès est un corps législatif et ne peut pas faire grand chose d’autre.

                  Le congress va potentiellement se servir de ça pour créer une nouvelle loi, mais vu comment ils sont complètement bloqués dans des querelles de clocher, et le fric en jeu dans le milieu, je m’attendrais pas à des miracles.

                  Linuxfr, le portail francais du logiciel libre et du neo nazisme.

                  • [^] # Re: lien

                    Posté par  . Évalué à 2 (+1/-0).

                    Ah oui. Je ne l'entendais pas comme cela, mais ce que tu dis est effectivement tout à fait plausible.
                    Je voyais plutôt "commission sécurité intérieure <=> infos publiques bien filtrées"

                    "Si tous les cons volaient, il ferait nuit" F. Dard

  • # Détails pour réparer un poste Windows affecté

    Posté par  (site web personnel) . Évalué à 6 (+4/-0).

    The Register: https://www.theregister.com/2024/07/19/crowdstrike_falcon_sensor_bsod_incident/


    Brody Nisbet, CrowdStrike's chief threat hunter: https://x.com/brody_n77/status/1814185935476863321

    There is a faulty channel file, so not quite an update.

    There is a workaround…
    1. Boot Windows into Safe Mode or WRE.
    2. Go to C:\Windows\System32\drivers\CrowdStrike
    3. Locate and delete file matching "C-00000291*.sys"
    4. Boot normally.

    There is a fix of sorts so some devices in between BSODs should pick up the new channel file and remain stable.

    P0 incident ongoing.


    En clair, il faut démarrer le poste Windows en poste sans échec ou dans l'environnement de récupération Windows (WinRE/WRE).

  • # des bugs crowdstrike sous linux, ça a déjà existé

    Posté par  (Mastodon) . Évalué à 10 (+11/-0). Dernière modification le 19 juillet 2024 à 14:05.

    Sans impacter aussi globalement que cette panne, des kernel panic linux lié à crowdstrike sont déjà arrivées:

    https://access.redhat.com/solutions/7068083

    https://forums.rockylinux.org/t/crowdstrike-freezing-rockylinux-after-9-4-upgrade/14041

    Dans ce cas c'était plutôt des bugs kernels activés par crowdstrike mais bon on n'est pas forcément à l'abri des suprises sous linux.

  • # Tous les antivirus ont un bout de code en espace noyau ?

    Posté par  . Évalué à 5 (+4/-0).

    Peut-être devrais tu préciser les limites de cette affirmation, je connais plusieurs antivirus qui n'ont pas de code en espace noyau. Pour ne parler que du libre, clamav peut éventuellement utiliser l'API noyau fanotify, mais ce n'est pas du code de l'antivirus.

    • [^] # Re: Tous les antivirus ont un bout de code en espace noyau ?

      Posté par  (site web personnel) . Évalué à 5 (+3/-0).

      Dire que crowdstrike est un anti-virus est au mieux réducteur au pire complétement faux

      C'est un outil d'analyse d'intrusion par étude comportementale, il se greffe au noyaux soit via un module dédié soit via eBPF pour tracer les appels systèmes des applications et analyser leurs comportements.

      (Bon en pratique c'est de la daube intersidérale vendue une fortune comme tout les XDR qui rend une machine 'juste' complètement inutilisable)

      Clamav ne sait qu'analyser des fichiers pour y détecter chaînes d'octets connues comme néfastes.

  • # il manque la nimage nironique

    Posté par  (Mastodon) . Évalué à 10 (+13/-0).

    62minutes, image promotionnelle crowdstrike

    • [^] # Re: il manque la nimage nironique

      Posté par  (site web personnel) . Évalué à 7 (+5/-0).

      C'est triste de voir comment cette publicité est implicitement ok avec les pratiques mafieuses des entreprises : attaque de réseaux, vols d'informations, etc.; pour vanter ses outils.

      • [^] # Re: il manque la nimage nironique

        Posté par  . Évalué à 3 (+1/-0).

        Je ne comprends pas ce qui te permet d'affirmer cela. Se protéger d'un risque n'est pas le cautionner. A ce compte là, c'est comme dure que Verisure est OK avec le cambriolage…

        • [^] # Re: il manque la nimage nironique

          Posté par  (site web personnel) . Évalué à 4 (+3/-1).

          Ce qui me permet de dire cela, c'est le vocabulaire employé par Crowdstrike:
          an adversary, adservary intelligence.

          En utilisant ce vocabulaire de la compétition, Crowdstrike fait clairement référence à des pratiques liées à la concurrence entre les entreprises, mais rien dans le discours ne positionnent ces pratiques comme illégitimes.

          • [^] # Re: il manque la nimage nironique

            Posté par  . Évalué à 5 (+3/-0).

            Ah, OK, j'en avais pas la même lecture que toi…

            Après, je fais de la sécurité, et on parle souvent d'adversaire dans les modèles de sécurité, sans penser forcément à un concurrent. On peut donc sans doute considérer ce terme comme jargonnant, et expliquer la différence de perception.

          • [^] # Re: il manque la nimage nironique

            Posté par  . Évalué à 6 (+5/-0).

            C'est le terme adapté dans le domaine de la sécurité (https://csrc.nist.gov/glossary/term/adversary), mais c'est effectivement dommage qu'ils n'aient pas adapté la communication comme le marketing sait si bien le faire dès fois.

  • # sysadmin day

    Posté par  (site web personnel) . Évalué à 6 (+4/-0). Dernière modification le 19 juillet 2024 à 14:48.

    Pas cool de déployer une mise à jour un Vendredi, weekend pourri pour des dizaines de sysadmins. Petite pensée pour eux.

    c'est vendredi prochain le 26 juillet la journée pour apprécier l'administrateur système

    sur wikipedia le gâteau évoque une méthode pour éviter le mauvais sort :D

  • # Incompetence

    Posté par  . Évalué à 9 (+7/-0).

    Déployer des MaJ sur tout le parc en même temps…. Certains méritent ce qui leur arrive

    • [^] # Re: Incompetence

      Posté par  (site web personnel) . Évalué à 6 (+4/-0).

      c'est censé avoir été testé en amont ;-)

      là ce n'est plus du je-m'en-foutisme à tous les échelons, c'est une très mauvaise analyse du risque à tous les échelons, mais qui aurait pu y penser ?! bin tous !

      • [^] # Re: Incompetence

        Posté par  (site web personnel) . Évalué à 4 (+2/-0).

        l' architecture sécurité c'est toujours se poser la question « mais qu'est-ce qui ferait que ça ne fonctionnerait pas, combien de cas, quelle ampleur ? » et apporter les réponses en terme de remédiation, les faire accepter _a priori_si cela doit se produire :/ (plutôt que de les négocier après-coup)

      • [^] # Re: Incompetence

        Posté par  (site web personnel) . Évalué à 7 (+4/-0).

        qui aurait pu y penser ?!

        Les running gags, mes préférés xD

  • # Un vendredi et alors ?

    Posté par  . Évalué à 10 (+17/-1). Dernière modification le 19 juillet 2024 à 18:27.

    Jsuis adminsys, heureusement en vacances et de toute façon je travaille que sur infra linux, mais j'ai travaillé dans d'autres domaines avant l'informatique et le vendredi, c'est un jour de semaine comme un autre.

    Vous savez, ya pleins de gens qui travaillent le samedi et le dimanche. Les avions et aéroport ne s'arrête pas de tourner le vendredi soir, les trains pareil, etc.

    Si la mise à jour avait eu lieu mercredi, cela n'aurait pas été mieux, cela n'aurait pas été plus simple à gérer. Ce ne sont pas les même personnes qui auraient été impacté les jours suivants, c'est tout.

    Si une entreprise à besoin de 3 jours pour la remédiation de son parc, ça va lui coûter moins cher avec un début de panne le vendredi, car samedi et dimanche, la majorité des salariés ne seront pas au chômage. Si c'était panne le mercredi, c'était 3 jours d'immobilisation de tous le personnel.

    Faut arrêter avec cette vision du vendredi. Si on a peur de devoir intervenir un weekend, bas on choisit un métier qui n'a pas de lien avec la production. La production, c'est avoir le risque de panne, et les pannes, c'est pas juste du lundi au vendredi, de 8h à 17h.

    Si on aime la production, on accepte les contraintes qui vont avec.

    Si on est pompier, on sait que l'on va devoir intervenir à des moments qui font chier. Si on ne le souhaite pas, on fait une autre activitée.

    Là, ce qui est bizarre, c'est l'impact international tout au même moment. Et dans beaucoup de cas, c'est à l'allumage de la machine ce matin. Donc la mise en production n'était pas vendredi (la mise à jour à dû être récupérée la veille, et c'est appliqué au démarrage suivant. Donc mise en prod le jeudi, et là, l'histoire du vendredi perd tout son sens 😛 ).

    • [^] # Re: Un vendredi et alors ?

      Posté par  (site web personnel) . Évalué à 3 (+0/-0).

      Oui, mais ca ne veut pas dire que c'est agréable, et pourquoi rejeter un peu d'empathie ? (bordel)

      • [^] # Re: Un vendredi et alors ?

        Posté par  . Évalué à 2 (+1/-0).

        Non, ça veut pas dire que c'est agréable, mais c'est aussi le piment de la production. En général quand tu fais de la production, tu aimes quand même les imprévus (en tout cas après coup, t'en a de bon souvenirs 😇 ). Si c'est un imprévu sur les heures habituelles de travail, c'est plus vraiment un imprévu 😁😁

        J'ai de l'empathie pour ceux qui en chie pour restaurer les systèmes. Mais pour autant, je ne considère pas que leur boulot aurait été plus simple un mardi ou un mercredi.

        Une grande partie de ceux qui vont devoir bosser ce weekend, n'auront pas de pression autre que remettre en route l'infra. En semaine, ils auraient eu la pression des autres salariés en plus. Pas sûr que ce soit plus agréable.
        Faudrait avoir des retours sur le ressenti des équipes après la résolution de cette panne géante 🤓🤓

    • [^] # Re: Un vendredi et alors ?

      Posté par  . Évalué à 5 (+3/-0).

      La production, c'est avoir le risque de panne, et les pannes, c'est pas juste du lundi au vendredi, de 8h à 17h.

      C'est juste que c'est plus simple d'avoir toutes tes équipes sur le pied de guerre un mercredi a midi que ca l'est un vendredi a 17 heures, ce qui évite de retarder la resolution.

      Apres c'est aussi souvent parce que ce genre de pratiques sont poussees par des boites grand public, qui ont tendance a voir plus de traffic le week end qu'en semaine. Et que donc, pour eux, ya un plus gros impact un vendredi soir qu'un mardi apres midi.

      Linuxfr, le portail francais du logiciel libre et du neo nazisme.

      • [^] # Re: Un vendredi et alors ?

        Posté par  . Évalué à 4 (+3/-0). Dernière modification le 20 juillet 2024 à 00:39.

        Je ne suis pas complétement d'accord, mais oui, d'un point de vue équipe qui doit remédier au merdier, c'est plus simple de s'organiser en cas de panne en semaine 😎

        Ma remarque, c'est "juste" qu'en fonction des métiers derrière, la panne coûte moins cher si intervention le weekend qu'en semaine (10 adminsys le weekend, c'est moins cher que 300 salariés qui peuvent pas bosser pendant 2-3 jours, même avec les heures supp payé pour les 10).

        Une panne sur le métro parisien le weekend aura moins d'impact que la même panne en semaine. Et ok ta les équipes plus étoffé en semaine, mais ta beaucoup plus de clients impacté. Et donc de boulot et de communication pour rassurer tous le monde et pas passer pour des nuls. Le weekend, l'impact médiatique sera moindre.

        Il sera intéressant d'avoir des chiffres sur les pertes financières que cet incident aura eu (et le nombre de personnes impacté), et à partir de là, on pourra évaluer s'il fallait mieux la même panne en milieu de semaine. La panne aurait été identique, mais l'impacte financier n'aurait sans doute pas été le même.

        Dans tout les cas, les mises en production le vendredi ne sont pas forcément évitable (là où je bosse, je préfère être dérangé pour dépanner le weekend, car moment de quasi inactivité commercial, donc stress minimum, par rapport à une panne en semaine).
        Et pour pas mal de métier, il n'y a pas de bonne période pour avoir une panne de ce genre : transport international, banque, hôpitaux, etc. Pour tout ces métiers là, si tu leur dit "quel est le jour où l'on peut se permettre de casser la production au minimum 24h, tu n'auras pas de réponse positive, même si c'est mardi ou mercredi" 🤓🤓🤓

    • [^] # Re: Un vendredi et alors ?

      Posté par  . Évalué à 3 (+1/-0).

      Tout le monde n'est pas à l'état de l'art avec "des équipes". Ce qui implique non seulement d'avoir des plusieurs équipes mais aussi d'avoir plus d'une personne.

      Si tu as des astreintes il faut aussi que ces personnes en astreintes sachent réparer, j'en ai vu qui ne savent pas faire sans l'aide de l'équipe qui elle n'a pas d'astreintes…

      Et des situations comme ça tu peux en avoir plein. Est-ce que c'est des situations merdiques ? Tout à fait, mais ceux qui font bien les choses n'ont juste pas eu le problème, ils ont juste qualifié un défaut lors d'une mise à jour.

      Je suis d'accord que ne pas vouloir mettre en prod le vendredi est révélateur de problème, mais c'est qu'il faut questionner ses problèmes et ne pas croire qu'ils n'existent pas.

      https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

  • # Rien à dire

    Posté par  . Évalué à 6 (+4/-1). Dernière modification le 19 juillet 2024 à 20:54.

    Avis lapidaire, non argumenté, reposant sur une expérience relativement modeste mais bien réelle de confrontation avec cette chose. Avis qui ne porte pas sur les principes sur lesquels repose l’outil mais sur le logiciel en tant que tel et son éditeur :

    Falcon sensor c’est de la merde, et Crowdstrike des bonimenteurs.

  • # Incroyable ...

    Posté par  (site web personnel) . Évalué à 10 (+10/-0).

    Bonjour,

    Pendant des années tu passes pour le "mec négatif" qui voit les problèmes la il n'y en a pas etc …

    Et puis malgré tes écrits, tes conseils certains responsable s'obstinent à continuer à effectuer en AUTOMATIQUE les mises à jours de la PROD sur l'ERP de Gestion, le logiciel qui gère l'activité de TOUTE la boite

    résultat : MAJ Windows => problème de perf sur la BDD => 1 journée et 1/2 de perdue pour l'entreprise, sans compter le retard accumulé

    C'était il y a plus de 10 ans, et bien on peut constater que les RSI DSI et autres "responsables" continuent de lire les magazines qui leurs sont dédiés mais oublie le bon sens commun en informatique :

    On ne change pas une équipe qui gagne, et on ne met pas à jour la PROD sans effectuer des tests.

    Surtout que de nos jours avec la virtualisation, une PREPROD coute certainement moins chère qu'un arrêt brutal des services.

    Et si on faisait la liste des entreprise "NORMALES" qui n'ont pas eu de problème ?
    pour moi c'est un gage de qualité de ne PAS choisir M$ ou de faire preuve de bon sens

    • [^] # Re: Incroyable ...

      Posté par  . Évalué à 6 (+5/-2). Dernière modification le 20 juillet 2024 à 19:37.

      MS c’est une chose. Mais Falcon sensor je trouve que ça dépasse les bornes.

      • A été conçu pour Windows, puis porté sur Linux : bonjour le bricolage

      • Est “cloud-based” : on offre potentiellement toutes les données à Crowdstrike, le seul garde-fou est d’ordre juridique. Techniquement c’est open bar. Et zéro transparence, de la pure boite noire.

      • Est “AI-powered” : bien que sur le papier ce soit séduisant (se reposer sur le deep-learning pour détecter/catégoriser/remédier à des attaques c’est une idée intéressante), mais de fait, on assume qu’un comportement non prévu puisse se manifester. On accepte de servir à entraîner une IA que l’éditeur pourra ensuite monnayer auprès d’autres acteurs, voire auprès de nous même.

      • La seule « documentation » accessible publiquement consiste en des plaquettes commerciales à très forte teneur en vulgaires foutaises.

      Un logiciel de ce type pour être viable doit être open-source et le service fonctionner de la manière la plus transparente qui soit. D’ailleurs je ne doute pas qu’on assiste un jour à l’avènement d’un outil de ce type dans l’écosystème libriste, à l’instar de ce qu’est ClamAV, une solution d’antivirus à papa opensource.

      À noter, pour parler la même langue et donc discuter avec vos décideurs pressés : ne parlez pas d’un « antivirus », vous signeriez votre qualité de dinosaure muni d’œillères rampant sur la dernière ligne droite vers sa retraite. Non, il s’agit d’une solution « EDR » Endpoint Detection and Response. Autant vous dire que c’est un cran au dessus de OpenOffice !

    • [^] # Re: Incroyable ...

      Posté par  . Évalué à 6 (+3/-0).

      pour moi c'est un gage de qualité de ne PAS choisir M$ ou de faire preuve de bon sens

      Ne pas le choisir systématiquement, je suis d’accord. Maintenant, c’est pas les plus mauvais bougres Microsoft, si on compare par exemple à IBM ou Oracle… et leurs logiciels ne sont pas tous aussi médiocres que peut l’être Windows, loin de là.

      Les GAFAM sont incontournables aujourd’hui, mais je pense en effet que ne pas mettre tous ses œufs chez l’un ou l’autre, mais plutôt diversifier les solutions qu’on achète, en prenant chez l’un et chez l’autre c’est indispensable.

      Bien entendu le souci d’homogénéité et de rationalisation des coûts incite à tout prendre chez le même, mais il faut garder en tête le besoin de ne pas se retrouver captif. J’ai l’impression qu’on néglige trop souvent ce deuxième point, surtout en France. J’ose espérer que cet épisode de bug mondial pourra faire évoluer les mentalités dans le bon sens.

  • # Espace de pub a louer [humour]

    Posté par  (site web personnel) . Évalué à 10 (+12/-0). Dernière modification le 20 juillet 2024 à 14:45.

    Les BSOD pourraient devenir un espace publicitaire très demandé, vu le nombre de personnes que cela concerne, à mon avis il y a une idée à creuser.

    (soyons honnête : j'ai vu cette remarque sur le forum de nos camarades de chez développez

  • # crowdstrike

    Posté par  . Évalué à -7 (+0/-6).

    Crowstrike est impliqué dans le projet des GAFAM et startups implantés en Israël de contrôle et surveillance de la population GOY…occidentale dans le monde.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.