Sommaire
Introduction
Ce journal se place dans la continuité de l'excellent journal de Liorel à l'origine, cela constituait ce que je comptais poster comme une réponse, mais cela s'est étoffé progressivement au point de faire un journal.
Disclamer: L'épidémio n'est pas mon domaine.
Liorel expliquait ce qu'était un modèle à compartiment en épidémiologie dans le cadre du modèle simple, et utilisait ce modèle pour discuter du régime asymptotique (équilibre, propagation, etc.). Toutefois, ce modèle est aussi utilisable en prédiction de dynamique, c'est ce que je vais tenter de faire dans ce journal.
Du modèle SIR au modèle SEIQR
Comme expliqué précédemment, le modèle suppose l’existence de trois compartiments, attention, je n'utilise pas les même notations pour les paramètres que Liorel dans mon écriture:
- : Compartiment des Susceptibles.
- : Compartiment des infectés contagieux.
- : Compartiment des guéris et des morts (qui sont confondus dans ce modèle).
Ce modèle simple a de très bonnes propriétés pour l'étude du régime permanent, mais deux phénomènes sont à prendre en compte pour la dynamique:
- L'incubation, les infectés ne sont pas immédiatement contagieux. Ne pas le prendre en compte consisterait à prédire une dynamique beaucoup plus rapide.
- La prise en charge, la contagion ne se produit que dans la première phase, en effet après, les infectés sont traités et confinés. Ne pas le prendre en compte consisterait à prédire une dynamique moins rapide.
On obtient donc un modèle à 5 compartiments:
- : Compartiment des Susceptibles.
- : Compartiment des exposés (les personnes en incubation).
- : Compartiment des infectés contagieux qui contaminent.
- : Compartiment des infectés en quarantaine.
- : Compartiment des guéris et des morts (qui sont confondus dans ce modèle).
Les équations sont donc les suivantes:
L'idée est exactement la même que dans le modèle SIR de Liorel, et je vous conseille de lire l'explication dans son journal. Pour résumer:
- Le passage de à est proportionnel au nombre de contact possibles entre les susceptibles et les infectés contagieux .
- Le passage de à est proportionnel à , cela correspond à un temps d'attente individuel suivant une loi exponentielle de moyenne .
- Le passage de à est proportionnel à , cela correspond à un temps d'attente individuel suivant une loi exponentielle de moyenne .
- Le passage de à est proportionnel à , cela correspond à un temps d'attente individuel suivant une loi exponentielle de moyenne .
Les paramètres sont:
- : paramètre d'infection par unité de contact susceptible d'un infecté. Difficilement interprétable seul.
- : paramètre régissant l'incubation.
- : paramètre régissant le temps pendant lequel un infecté est effectivement contagieux.
- : paramètre régissant la guérison ou mort.
Cela a l'air abscons, mais on peut dire que:
- , et ça c'est intéressant, car on connaît (enfin on est capable d'aller dans la littérature chercher des valeurs plausibles).
- est le temps moyen d'incubation.
- est le temps moyen pendant lequel un individu infectieux contamine.
- est le temps moyen qu'un individu contagieux qui ne contamine plus (car isolé) reste en traitement avant mort ou guérison.
Simulation
Pour cela, j'ai choisi les hypothèses suivantes:
- temps moyen avant mort ou guérison d'un individu infecté: 12 jours. (Cela s'exprime comme .
- temps moyen pendant lequel un infecté est effectivement contagieux avant isolement: 2 jours. (Cela s'exprime comme .
- temps moyen d'incubation: 5.4 jours (en utilisant les statistiques trouvées sur worldometer.
- de 1.5 (hypothèse optimiste) ou 3.5 (hypothèse pessimiste).
Pour initialiser le modèle, j'ai choisi d'utiliser les données du 3 mars:
- (oui de considérer que tous le monde est contagieux dès le départ, cela induit peut être le fait de voir le pic 1 ou 2 jours trop tôt).
- de telle manière à avoir qui correspond au flux (en utilisant les données de la veille).
- , puisque j'ai mis tous les infectés dans .
- , 12 guéris + 4 morts.
- .
Il faut bien comprendre qu'une mauvaise initialisation conduit à décaler le pic dans un sens ou dans l'autre de quelques jours. Il ne faut pas s'acharner dessus, mais il faut qu'elle soit cohérente. Il faudra faire également attention à ne pas vraiment interpréter ce qu'on va avoir à une date donnée, mais plus comme moyen de comparer des scénarios.
Ainsi j'obtiens les courbes suivantes:
Essayez par vous-même
L'intérêt de ces modèles, ce n'est pas de voir des courbes et considérer que
c'est la réalité, mais de comparer différents scénario pour essayer de
comprendre la dynamique. Ainsi, tout est sur un notebook, c'est un peu à
l'arrache, mais l'important c'est que cela fonctionne.
Tout est libre, faites en un truc plus léché et fini si vous le souhaitez (ou complètement autre chose c'est le principe du libre).
Attention
Il y a plein d'hypothèses faites, celles que je trouve les plus importantes sont les suivantes:
- propagation non spacialisée. La probabilité de contact ne dépend que des nombres de susceptibles et d'infectés. On sait que c'est faux. Mais cela donne souvent un premier résultat intéressant.
- constant dans le temps. Le virus supportera t'il l'air sec de l'été ?
- les guéris le restent et ne redeviennent pas susceptibles.
Conclusion
On voit que le nombre de contaminés en même temps n'est pas soutenable pour le système de santé si est trop élevé. Notre seul vrai moyen d'action est de réduire pour réduire . Il convient donc de tous participer à réduire , s'isoler quand on suspecte une infection, porter un masque si on est infecté, se laver les mains dans tous les cas, tout le temps, etc.
# Quelques articles pour aller plus loin ...
Posté par epot (site web personnel) . Évalué à 4.
Tant l'article de Liorel que celui-ci, de jben, sont intéressants. Pour ceux qui souhaitent aller plus loin, au-moins quatre groupes ont publié (ou sont en train de publier) leurs modèles dynamiques:
- Prof. Wu (University of Hong Kong) dans le Lancet
- Jennifer Ciarochi dans un blog (bien explique visuellement)
- Iwata et Miyakoshi (Hopital universitaire de Kobe) dans un Preprint
- Zhou et al dans JEBM
[^] # Re: Quelques articles pour aller plus loin ...
Posté par jben . Évalué à 4. Dernière modification le 04 mars 2020 à 20:30.
Merci, je n'en avais vu qu'un sur les trois, je n'avais pas vu le blog non plus. Je viens de les regarder en diagonale, la majorité sont des SEIR. C'est équivalent au SEIQR proposé ici puisque Q et R peuvent être fusionnés. L'intérêt de séparer Q et R, c'est principalement de mettre en évidence qui correspond au nombre de malades à traiter en même temps (pour mettre en évidence les propos de Liorel en particulier « Ralentir l'épidémie évite d'engorger les hôpitaux. »).
Enfin, ce que j'ai fait n'a en aucun cas la qualité d'une publication scientifique, il faudrait choisir et justifier précisément le choix des paramètres en se resituant dans la littérature, il faudrait explorer les marges d'erreur et étudier la propagation des erreurs sur le résultat).
Le choix des paramètres, c'est juste histoire d'être dans des gammes de valeurs plausibles. L'objectif principal est de donner moyen à tous de « bouger les curseurs » afin de comprendre l'impact des choix sur l'évolution de l'épidémie.
# Si je comprends bien…
Posté par flan (site web personnel) . Évalué à 2.
Tout d'abord, merci pour l'info :)
On voit l'importance de retarder tant que faire se peut l'épidémie, des fois que le virus ne résisterait pas à l'été.
Dans le cas R0=3,5 et si on reste sur 10% de malades devant être hospitalisés, on a un résultat pas terrible, vu que ça se traduirait par un système de santé incapable de suivre et donc un taux de mortalité probablement plus élevé (soit en gros 1M de morts), et surtout qu'à peu près tout le monde le choppe.
Même avec R0=1,5, on a en gros deux chances sur trois de chopper le virus.
[^] # Re: Si je comprends bien…
Posté par Eh_Dis_Mwan . Évalué à 1.
Après,, sur les 66% de chances, on à 20% de chances de developper des symptomes:
Ce qui fait 12% d'être malade suite à une infection par ce coronavirus
[^] # Re: Si je comprends bien…
Posté par Bruno Michel (site web personnel) . Évalué à 4.
D'où vient ce pourcentage ? Il me semblait que, dans le précédent journal, on parlait de 20% de porteurs sains, donc 80% de chances de développer des symptômes.
[^] # Re: Si je comprends bien…
Posté par Colin Pitrat (site web personnel) . Évalué à 6. Dernière modification le 05 mars 2020 à 12:26.
En fait c'est 20% de chance d'être hospitalisé (pas malade) qui est important ici pour déterminer si le système de santé peut faire face à la situation.
[^] # Re: Si je comprends bien…
Posté par Bruno Michel (site web personnel) . Évalué à 5.
Oui, le pourcentage de chances d'être hospitalisé est plus important pour déterminer si le système de santé peut faire face à la situation. Mais, ici aussi, je me demande d'où sort le 20%. Pour moi, ça devrait être 8% : jusqu'ici, on parlait de 80% des contaminés sont des malades avec des symptômes, et 10% des malades avec symptômes nécessitent une hospitalisation.
# Bis repetita ;)
Posté par _kaos_ . Évalué à 1.
Salut !
Merci pour la présentation de cet autre modèle.
N'ayant pas eu de réponse dans la présentation du
SIR
je repose ma question ici au cas où, bien que je pense que si pas de réponse à côté vaut pour ici.Le modèle me semble linéaire (je peux me tromper sur les formules).
Qu'en serait-il d'autres modèles comme les arbres de décision ou de régression pour l'analyse ?
Loin de moi l'idée de dire que le modèle présenté est "simple", mais j'aime bien les comparaisons entre différentes méthodologies.
Encore merci pour la présentation !
Matricule 23415
[^] # Re: Bis repetita ;)
Posté par Liorel . Évalué à 10.
J'avais vu ton commentaire, je n'ai juste pas eu le temps d'y répondre ;).
Je dirais qu'il y a quand même quelques différences fondamentales entre les modèles SIR et le modèle linéaire.
Tout d'abord, le modèle linéaire est avant tout destiné à l'inférence, là où le modèle SIR est destiné à la prédiction.
Le modèle linéaire (et ses généralisations) excelle quand il s'agit de trouver les corrélations entre une (ou plusieurs) variable prédictrice et une variable prédite. Il permet aisément de prendre en compte des facteurs de confusion. Même quand ses hypothèses de bases sont partiellement violées, il est relativement robuste et ses résultats, sans être parfaits, restent bons, et sont quasiment toujours utiles. Par contre, s'agissant de déterminer une valeur plausible pour une variable Y connaissant les prédicteurs X, le modèle linéaire est dépassé par bon nombre d'autres algorithmes en termes d'erreur quadratique moyenne (il conserve cependant un intérêt car il est extrêmement rapide à ajuster et à exécuter).
De plus, le modèle linéaire n'est pas un modèle "représentatif". Il n'est pas basé sur une compréhension même grossière du mécanisme sous-jacent au phénomène expliqué. Pour faire un modèle linéaire, on se contente de faire une somme pondérée des variables explicatrice (plus une constante) et c'est tout.
Le modèle SIR n'a pas pour but de réaliser de l'inférence. Analyser ses coefficients n'apportera rien puisqu'ils doivent même lui être fournis par un autre modèle. Par contre, ses qualités prédictrices restent bonnes même quand ses hypothèses de départ sont violées.
Le modèle SIR est de plus un modèle représentatif : il est basé sur une hypothèse concernant la diffusion de la maladie. Ceci explique qu'il ne soit applicable qu'aux maladies infectieuses. Pour la petite histoire, j'ai dû, au cours de mes études, élaborer un modèle SIR à titre d'exercice pour le chikungunya. Il a fallu me renseigner sur les mécanismes de contamination du moustique, la dynamique des populations de moustiques… Rien de tout ça n'aurait été nécessaire avec un modèle linéaire.
Est-ce que d'autres modèles, plus complexes, type machine learning, ont été testés ? Oui. Ils ont un inconvénient : la plupart des modèles de machine learning sont destinés à prendre en compte des données multidimensionnelles (nombreuses variables par individu), potentiellement hétérogènes, et fiables car récoltées informatiquement. Ici, on est face au cas inverse : les données se limitent à un nombre de contaminations par jour, on a peu de covariables, et elles ne sont de toute façon pas fiables. On est dans un cas où le modèle SIR marche bien, mais où les algos de machine learning sont limités.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
[^] # Re: Bis repetita ;)
Posté par _kaos_ . Évalué à 2.
Salut,
Pas d'inquiétude :)
Merci pour la réponse ici du coup ;)
Bin c'était un peu de l'ordre de mon questionnement. Dans le
SIR
ou évolution plus complexe, j'ai l'impression qu'un individu ayant une valeur "manquante" va être sauté, là où d'autres algos le prennent quand même en compte.Je parlais effectivement de machine-learning "basique" (arbres de décision), sans plus pousser. Mais oui, pour faire un arbre, il faut du multi-dimentionnel, c'est clair.
Matricule 23415
[^] # Re: Bis repetita ;)
Posté par jben . Évalué à 7.
Pour compléter cette réponse, je vais formuler les choses différement.
Tout d'abord du point de vue technique, le système d'équation n'est pas linéaire à cause du , ça n'a l'air de rien mais c'est toute la complexité du problème, et c'est ce qui induit le comportement du modèle.
Ensuite sur le fond, beaucoup de méthodes en machine learning supposent un modèle qui est générique, et qui ne sera appris que via des données, un grand nombre, et avec des variables explicatives (autrement nommées covariables). Pour résumer la connaissance du phénomène est apportée par la donnée et non pas par le modèle.
Une approche de modélisation, qu'elle soit par une modélisation déterministe type système dynamique (avec des modèles de type SIR par exemple) ou statistique (avec des extensions stochastiques du modèle SIR par exemple) reposent sur une autre approche, la connaissance est apportée dans le modèle, et non via les données.
Des modèles que je manipule pour ma part son des modèles de croissance de plante et de modèlisation de couverts en agronomie, les agronomes mettent toute la connaissance qu'ils ont dans la croissance de la plante dans le modèle, et l'utilisation de ces modèles permet de comprendre les phénomènes impliqués.
Un aspect très important est de comprendre pourquoi on fait une modèlisation, l'objectif est-il de:
Les méthodes de machine learning sont excellentes dans le 1, et dans le 3.1. Quand je dis excellente, je pèse mes mots. Les résultats sont bluffant sur des problèmes complexes en grande dimension comme on le voit en analyse d'image avec les méthodes de deep learning.
Les méthodes plus orientées modèlisation sont pertinente dans le cas 1, 2, et 3.1 et 3.2. Elles ont souvent de moins bonnes performances dans les cas d'interpolation, mais leur performances ne s'effondrent pas en extrapolation.
De manière générale, en prédiction d'extrapolation, les méthodes fondées sur des modèles sont d'autant plus pertinente que le modèle est simple.
J'ai un peu caricaturé la situation, en effet certaines méthodes sont entre les deux, comme les méthodes à noyau où une connaissance du phénomène peut être utilisée dans la construction d'un noyau, et ça rentre dans le machine learning.
Ici, l'objectif des modèles SIR sont ses capacités extrapolatrices, et le fait que nous voulons comprendre le phénomène pour savoir sur quoi agir. (Et mon objectif personnel n'était que de faire comprendre le phénomène).
[^] # Re: Bis repetita ;)
Posté par _kaos_ . Évalué à 1. Dernière modification le 05 mars 2020 à 21:35.
Salut,
Merci pour la précision.
Je ne vois pas du tout de terme B dans les équations. Suis-je aveugle (ou beta :) ) ?
Matricule 23415
[^] # Re: Bis repetita ;)
Posté par jben . Évalué à 3.
Non mais c'est moi, il fallait lire . C'est le terme qui correspond au nombre de contacts potentiel qui lui n'est pas linéaire.
[^] # Re: Bis repetita ;)
Posté par Thomas (site web personnel) . Évalué à 4. Dernière modification le 05 mars 2020 à 22:00.
Je complète ou réformule ce que dit jben plus haut : pourquoi vouloir caser du ML (machine learning) sur ce problème ?
Lea différents algorithmes de ML servent à déterminer et calculer les paramètres des modèles qu'on leur injecte. Soit les modéles sont explicites, soient ils sont implicites.
Les modèles explicites sont du type SIR présentés dans ce journal : on injecte de l'intelligence viq le modèle. Soit les modèles sont implicites, via le calcul de critères/indicateurs à partir des données brutes. Dans les deux cas, on applique ensuite une méthode qui va calculer les paramètres adéquats pour faire correspondre entrées et sorties.
Bref. Pas besoin de sortir du ML pour fixer quelques paramètres à partir d'un modèle intelligent, les méthodes usuelles (régression, moindres carrés etc) suffisent. On sort le ML quand on est infoutu de trouver un modèle intelligent. Pour caricature, je dirais qu'avoir recours à du ML c'est, quelque part, faire un aveu de faiblesse intellectuelle.
[^] # Re: Bis repetita ;)
Posté par Mais qui suis-je ? :) . Évalué à 2.
Tiens question idiote, lorsque j'étais jeune et travaillait avec des données ont disait ML pour Maximum-Likelihood c'est quand que l'abréviation a shifté vers Machine Learning ?
[^] # Re: Bis repetita ;)
Posté par ʭ ☯ . Évalué à 2.
Peut-être que le ML n'est qu'une nouvelle manière d'obtenir une ML ;-)
⚓ À g'Auch TOUTE! http://afdgauch.online.fr
[^] # Re: Bis repetita ;)
Posté par jyes . Évalué à 6.
Désolé, mais je ne vois pas le rapport avec les Mailing-Lists !
[^] # Re: Bis repetita ;)
Posté par Liorel . Évalué à 3.
Depuis qu'on dit MLE (Maximum Likelihood Estimation) :p.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
[^] # Re: Bis repetita ;)
Posté par _kaos_ . Évalué à 1.
Salut,
Au risque de me prendre une volée de bois par des gens plus intelligents que moi…
Je crois que ML réfère à la fonction, et MLE à son résultat. :)
Matricule 23415
[^] # Re: Bis repetita ;)
Posté par jben . Évalué à 3.
On dit toujours ML pour Maximum Liklihood, et on dit aussi ML pour machine learning (ça ne mérite pas les capitales (attention, créature mythologique poilue en liberté)).
Et fait, c'est un très bon indicateur de la communauté, si tu dis ML, suivant ce que comprend ton interlocuteur, tu va pouvoir savoir si il vient de la communauté statistiques/mathématiques appliquée ou de la communauté apprentissage/informatique.
Liorel dans un de ses commentaires précédent avait déjà montré cette différence de vocabulaire entre communautés, cela m'avait fait sourire, dans une de ces précédentes réponses:
Ces deux communautés sont différentes, utilisent des vocabulaires différents, mais utilisent les mêmes méthodes, et beaucoup de gens (dont moi) ont un pied dans chaque communauté. Mais je reste intrinsèquement un tout petit peu plus un statisticien, et quand je veux parler de machine learning, je l'écris en toutes lettres.
[^] # Re: Bis repetita ;)
Posté par Thomas (site web personnel) . Évalué à 1.
Depuis 4-5 ans environ, juste après la bulle des Grosses Données.
[^] # Re: Bis repetita ;)
Posté par _kaos_ . Évalué à 1. Dernière modification le 06 mars 2020 à 10:26.
Salut,
Alors attention, loin de moi l'idée de vouloir absolument "caser" du machine-learning. C'était plus par curiosité.
Oui, cela a été expliqué, et j'ai bien compris ces réponses je pense :)
Note quand-même que les méthodologies (arbres de décision/régression) que j'ai proposé se basent exactement sur ça : calcul d'entropie ou minimisation de moindres carrés, régression simple ou multiple… on n'est pas dans le cas du deep learning où les coefs internes sont impossibles à analyser. Un point de coupure dans un arbre, c'est assez clair.
La réponse donnée précédemment me convainc bien plus : on n'est pas dans le cadre d'une analyse multi-dimentionnelle, il s'agit pour le moment de prédire, pas d'analyser.
Matricule 23415
[^] # Re: Bis repetita ;)
Posté par _kaos_ . Évalué à -2.
Re-salut :)
En fait je prend très mal cette partie, donc même si je ne voulais pas y aller dans mon commentaire précédent, j'y vais dans celui-ci, tant pis pour mon karma.
Et tu fais quoi ? Une ANOVA augmentée par une VARIMAX ? Tu n'es pas sûr d'avoir perdu 99% des décideurs pressés avec ça plutôt qu'un modèle "compréhensible" par un non statisticien ?
Matricule 23415
[^] # Re: Bis repetita ;)
Posté par jben . Évalué à 5.
Juste par curiosité, j'aimerai bien que tu me cites un exemple de « modèle "compréhensible" par un non statisticien ». N'y vois aucune malice, mais tu t'attaques à un modèle statistique raisonnablement complexe (en fait non, mais il est perçu comme tel), sur un argument pas forcément pertinent.
J'ajouterais de plus qu'utiliser une procédure varimax est la majorité du temps complètement incohérent du point de vue statistique, que cela soit au niveau modélisation qu'au niveau interprétation ou au niveau robustesse. Si je voulais tacler les gens qui font du machine learning, je dirais que c'est introduire tous les problèmes des méthodes de machine learning en perdant toutes les bonnes propriétés statistiques pour gagner un quart de poil de cuisse de grenouille sur un critère de performance ad-hoc qui n'a aucun sens hors de l'esprit de celui qui écrit la méthode. Attention, je dis la majorité du temps, il y a des cas pour lesquels c'est utile, cohérent et justifié, c'est pour cela que la méthode existe et est implémenté. Chaleureusement certains considèrent que si ça existe, c'est qu'on doit s'en servir.
Prend note également que les arbres de décisions ne sont pas un modèle explicable (car je sens que c'est la réponse que tu pourrais donner), malgré ce que peuvent dire certains adorateurs de ces méthodes. Enfin si ils le sont, dans sa version pédagogique, la plus simple. Dans le fait, il faut expliquer le choix de l'orthogonalité des frontières, le choix de la « meilleure coupe » et donc du critère, le choix de la profondeur de l'arbre, et ce que ça implique sur l'erreur d'apprentissage et l'erreur générale, et donc de parler de sur-apprentissage et de capacités de généralisation. de plus, pour les rendres performants, il faut souvent les améliorer avec des extensions, sous ou sur-echantillonnage, forêt aléatoires, etc. et ça aussi ça doit être compris.
Ne vois aucune attaque dans ce commentaire, mais j'ai l'impression que tu tiens dur comme fer à justifier des méthodes de machine learning, quitte à utiliser des arguments discutables.
[^] # Re: Bis repetita ;)
Posté par _kaos_ . Évalué à 1.
Salut,
Ah, alors ne vois aucune attaque dans l'autre sens non plus :)
Je ne cherche absolument pas à "caser" du machine-learning.
En machine-learning ou en statistique ?
Là dessus, on tombe d'accord. J'ai forcé un peu le trait. ;)
Je ne parle pas d'explication, mais de facilité de lecture pour le décideur pressé.
Alors, au cas où l'argument de l'arbre de décision (oublie qu'on parle de coupe orthogonales, de minimisation d'entropie, d'élagage… voir de forêts aléatoires pour estimer des paramètres de calcul) n'est pas satisfaisant, je t'en propose un autre que je connais mieux : les règles d'associations.
Bien évidemment, là on sort du cadre du post initial, mais c'est le truc le plus bête à expliquer en apprentissage non-supervisé.
La sortie de l'algo dit que s'il y'a A alors il y'a de fortes chances qu'il y ait B aussi (exemple classique : si un client achète des couches-culottes, il y a de fortes chances qu'il achète de la bière).
Et je ne vais pas dans le détail de l'algo, sur la notion de treillis de gallois, de frontière, de matrice de contingence à trois degrés de liberté, etc. Le résultat s'explique par l'exemple en une phrase. Et, généralement, les gens que j'ai croisé comprennent assez vite via l'exemple de wallmart.
Bon, c'est sûr, la méthode ne s'applique pas à tous les jeux de données. Et la stat peut résoudre, en mieux, bien d'autres catégories de problèmes.
Sincèrement, c'est la partie qui m'a semblé directement à charge contre le machine-learning qui m'a fait tiquer. Je ne l'ai pas spécialement prise personnellement (je pense bien être capable d'être au delà de ça), mais plus comme une charge de la stat contre le ML.
A mon sens, il faut être flexible et capable d'utiliser l'un ou l'autre en fonction de la situation.
Matricule 23415
[^] # Re: Bis repetita ;)
Posté par Thomas (site web personnel) . Évalué à 3.
Quand je parle de faiblesse intellectuelle, c'est une boutade.
Quand on ne veut pas comprendre ni expliquer, juste décrire ou reproduire, alors on peut faire appel à l'apprentissage automatique. Si on a assez de données et que les autres approches plus explicites ne marchent pas.
Je m'explique : les modèles ML sont souvent (pas toujours) des boîtes noires. On aura souvent du mal à expliquer pourquoi le modèle a pris telle décision plutôt que telle autre. Certains modèles sont sympathiques et permettent de faire du post-mortem (ex: modèles linéaires économes en paramètre type Lasso), alors que d'autres sont infects (neural nets en tête).
Lors les différents projets que l'équipe que j'encadre a faits, le choix du ML s'impose quand on ne peut pas faire autre chose. Je préfère largement faire des stats classiques (PCA en tête) que devoir se frapper des machins imbittables … souvent imbattables :)
[^] # Re: Bis repetita ;)
Posté par mahikeulbody . Évalué à 5. Dernière modification le 07 mars 2020 à 08:45.
En l'occurrence (COVID-19), les préférences intellectuelles des chercheurs me paraissent secondaires, on cherche la meilleure efficacité, où qu'elle soit.
Alors si un infect réseau neuronal donne des infos pertinentes tirées d'une boite noire, je prend (quitte à essayer de comprendre ensuite par d'autres méthodes).
Notably, the Canadian artificial intelligence company BlueDot, which launched in 2014, famously issued a warning to its customers about traveling to Wuhan on December 31, 2019—nine days before the WHO released a similar alert to the public. BlueDot uses natural language processing and machine learning algorithms to analyze […]
[^] # Re: Bis repetita ;)
Posté par Thomas (site web personnel) . Évalué à 6.
Ah oui.
Les décideurs pressés, on les perd dès qu'on dépasse la régression linéaire. Ils demandent souvent à comprendre comment ça marche, au moins dans l'idée, et la difficulté consiste à leur donner une image à peu près correcte dans les noyer dans les maths. Dans les faits, ils décrochent au bout de 2-3 phrases. Ils achètent quelque chose qu'ils ne comprennent pas (comme d'hab ?).
[^] # Re: Bis repetita ;)
Posté par ted (site web personnel) . Évalué à 3.
On pourrait essayer de les remplacer directement par des modèles ML, ça ferait une couche en moins
Un LUG en Lorraine : https://enunclic-cappel.fr
[^] # Re: Bis repetita ;)
Posté par Fabrice Devaux . Évalué à 2.
Qu'on entraînerait avec les décideurs en question, ça devrait pas coûter trop cher ! :)
# Taux de mortalité du covid
Posté par Nitchevo (site web personnel) . Évalué à 3. Dernière modification le 09 mars 2020 à 14:10.
Bonjour et merci pour ce journal,
Je m'interroge sur la taux de mortalité associé à cette maladie qui est annoncé aux alentours de 2% ce qui correspond en fait au ration nombre de décès/nombre de cas déclarés. Or le calcul supposerait que l'on prenne en compte, comme tu le suggère dans ton article, le ration nombre de décès / nombre de cas à J-12. On à alors un taux de mortalité plus proche de 4% que de de 2. J'ai bien en tête que ce ration ne prend pas en compte les cas asymptomatiques mais je ne peux pas m'empêcher de penser que le mode de calcul participe à une volonté de réduire l'inquiétude au mépris de le justesse de l'information. Dans le même ordre d'idée je suis surpris de voir le nombre de cas déclarés suivre une progression géométrique alors que la courbe du nombre de décès évolue de manière quasi-linéaire. Alors qu'il ne semble pas y avaoir de progrès dans le traitement de la maladie et que rien ne dit que le virus soit de moins en moins dangereux.
Sources : https://www.mongodb.com/blog/post/tracking-coronavirus-news-with-mongodb-charts
[^] # Re: Taux de mortalité du covid
Posté par Psychofox (Mastodon) . Évalué à 5.
En même temps beaucoup des gens ne sont pas testés si leur pronostic vital n'est pas engagé.
Un de mes neuveux est suspecté de l'avoir mais il n'a subit aucun test car on considère que les enfants récupère bien (c'est un peu sans penser à son entourage comme mes parents qui en ont entamés leur 8ème décennie et s'occupent de lui après l'école).
[^] # Re: Taux de mortalité du covid
Posté par Marco . Évalué à 3.
Je trouve déjà les gens bien inquiet :
Bref j'ai l'impression que l'inquiétude des gens ne pourrait pas être plus importante
C'est très compliqué à évaluer car le coronavirus peut être qu'un accélérateur. Une personne de plus de 80 ans déjà mal en point est elle considéré comme décédé du coronavirus si elle avait d'autres problèmes de santé à côté ? Si elle est décédé 6 mois plus tôt que prévu.
[^] # Re: Taux de mortalité du covid
Posté par Nitchevo (site web personnel) . Évalué à 3.
Je trouve que les gens ont une perception tronquée de la situation qui peut en elle-même être source d'inquiétude et expliquer les achats de pq.Par ailleurs il est de notoriété publique que nous allons tous mourir un jour alors un décès doit-il être imputé au coronavirus ou juste à notre condition d'être vivant? A peu de chose près c'est le sens de ta remarque.
[^] # Re: Taux de mortalité du covid
Posté par Renault (site web personnel) . Évalué à 4.
Non, son propos est de relativiser certaines choses. Non pas qu'on ne meurt pas du coronavirus mais que l'attribution au coronavirus n'a pas à être automatique.
Par exemple, un diabétique qui a le coronavirus et a son diabète qui est décompensé et en meurt. Quelle est la raison de sa mort ? Le diabète ? Le coronavirus ? Les deux ? Arbitrer n'est pas simple et pourtant cela influence les statistiques.
Admettons également que la personne précédente avait 85 ans et en temps normal aurait dû mourir dans 6 mois. Est-ce que attribuer ce décès au coronavirus a un sens particulier ? Pas forcément. Bien sûr on n'a aucun moyen de savoir avec exactitude ce qui se serait passé.
On peut même aller plus loin. On ne meurt pas du SIDA directement. Les décès sont dus à une maladie opportuniste qui a tué quelqu'un sans défense immunitaire efficiente. Quelle est la cause de la mort dans ce cas ? Globalement il est attribué au SIDA et suivant l'infection qui a eu lieu, aux deux.
[^] # Re: Taux de mortalité du covid
Posté par Nitchevo (site web personnel) . Évalué à 1.
C'est le débat que connaissent tous les juristes entre causalité adéquate et équivalence des conditions: un fait dommageable, ici le décès a toujours des causes multiples: une personne meurt-elle du coronavirus ou du fait d'avoir passé un moment avec sa maîtresse qui revenait, au hasard, d'Egypte où elle avait contracté cette maladie? Est-il mort parce qu'il trompait sa femme? La réponse à ces questions, on peut développer à l'infini, dépend de ta conception de la causalité, mais systématiquement réduire le rôle du virus qui est décisif dans un grand nombre de cas me parait quelques peu lénifiant.
[^] # Re: Taux de mortalité du covid
Posté par Marco . Évalué à 1. Dernière modification le 09 mars 2020 à 16:14.
Ce que j'en pense c'est que beaucoup de gens présentant peu de risque (c'est à dire adulte en bonne santé)
Tu transformes franchement le propos, Renault te parle de sida et moi de personnes présentant déjà des problèmes de santé.
La question c'est : si la personne n'avait pas attrapé le virus serait elle décédé d'une autre cause la semaine ou le mois suivant.
C'est un peu comme la canicule de 2003 qui a fait de nombreux mort, je serai curieux de savoir si il y a eu un creux de décès l'hiver suivant.
Bref j'en ai juste marre qu'on en parle en boucle cela amplifie la psychose.
[^] # Re: Taux de mortalité du covid
Posté par Pol' uX (site web personnel) . Évalué à 6.
https://www.insee.fr/fr/statistiques/2383440
Adhérer à l'April, ça vous tente ?
[^] # Re: Taux de mortalité du covid
Posté par CHP . Évalué à 1.
ou l'année suivante ? ou la décénie suivante ? Pour le siècle suivant, on est à peu près certain : oui.
Bref, qui décide où on met la limite ?
Mais en réalité on s'en fout. Peu importe que cette personne avait de grands risques de mourrir dans les 6 mois : elle avait aussi des chances de vivre encore de nombreuses années. Et dans ces années supplémentaires, elle pouvait très bien sauver la vie du prochain prix nobel de médecine.
[^] # Re: Taux de mortalité du covid
Posté par Kerro . Évalué à 3.
Ce n'est pas un bon argument car il est nettement plus probable que ce soit l'inverse : elle pouvait très bien tuer une personne en conduisant, pourrir la vie de ses voisins, refiler un herpès génital, etc.
[^] # Re: Taux de mortalité du covid
Posté par Liorel . Évalué à 4. Dernière modification le 10 mars 2020 à 20:09.
Il y a énormément de commentaires dans le précédent sujet, donc ce n'est pas facile à lire, mais j'ai déjà répondu à cette remarque ici. Oui, mesurer le nombre d'années de vie perdues serait une mesure bien plus pertinente, et elle a évidemment déjà été proposée. Elle est, en pratique, totalement irréalisable, et elle est complètement absconse pour 90% de la population. Donc on se rabat sur une métrique bien plus facile à calculer, plus parlante pour la majorité, mais qui a le défaut de prêter le flanc à la critique des 10% restants qui savent faire des maths.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
[^] # Re: Taux de mortalité du covid
Posté par jben . Évalué à 2.
Cette métrique est complétement irréalisable autrement que conceptuellement, ça je l'ai bien compris et je suis d'accord.
Mais sur le coté abscons pour 90% de la population, je pense qu'il serait possible de le quantifier en « équivalent français moyen ». Alors ça pose un problème éthique, ça correspond à dire un truc comme « quatre vieux = un français moyen = 4 jeunes » qui politiquement me parait difficile, mais il y a nombre de cas où on a une mesure non compréhensible que l'on calcule en nombre équivalent.
Par exemple, quand on calcul un nombre d'heures assurées en heure complémentaires à l'université, ça ne parle à personne, on le converti en nombre de services d'enseignant-chercheurs, même si vu la nature des heures, il n'y aurait aucune cohérence à recruter des gens pour faire ces heures-là précisément, on fait un compte équivalent qui est beaucoup plus parlant.
[^] # Re: Taux de mortalité du covid
Posté par Liorel . Évalué à 3.
Oui mais même comme ça ça coince. Un vieux de 75 ans en bonne santé, sans antécédents et pratiquant régulièrement une activité physique a probablement de meilleures chances de survivre au coronavirus qu'un jeune de 25 ans avec une mucoviscidose (j'ai bien dit "probablement". Je n'ai pas de chiffres et cet exemple est fourni uniquement à titre d'illustration). Donc, à moins que tu aies la granularité suffisante pour remplir des dossiers ultra-détaillés pour chaque décès (ou pour un échantillon tel que les fluctuations d'échantillonnage soient faibles), tu ne peux pas compter en années de vie perdues.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
[^] # Re: Taux de mortalité du covid
Posté par Kerro . Évalué à 3.
Tes exemples sont cas individuels, ils ne sont pas pertinents pour les statistiques. Ce qui compte c'est tout le monde, donc le mec de 75 ans très en forme, la nana de 50 qui est malade, le voisin, etc. Des millions de cas individuels qu'on mouline pour résumer en quelques nombres.
Du point de vue statistique on sait combien de temps on va vivre. Donc on sait que si on meurt à 47 ans, c'est 31 ans (au pif) trop tôt par rapport aux statistiques.
[^] # Re: Taux de mortalité du covid
Posté par Liorel . Évalué à 4.
Sauf que justement, ceux qui meurent, ce sont précisément les outliers. Par définition, mourir, c'est basculer dans le cas de figure le plus extrême de la mauvaise santé. C'est plus facile si on en est déjà proche. Donc compter le temps de vie moyen restant pour la tranche d'âge n'a aucun sens : si on est mort, c'est (généralement) qu'il nous restait déjà peu de temps à vivre.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
[^] # Re: Taux de mortalité du covid
Posté par jben . Évalué à 3.
Pour moi le problème ce n'est pas la notion d'outlier, mais la notion d'indépendance.
Le raisonnement de Kerro pourrait tenir si l'on considère que la variable A=« l'individu est décédé de covid-19 » et la variable B=« l'individu a/avait des pathologies truc, bidule, et machin dans tel cas » sont indépendantes. En effet, il est clair que la variable B est lié au temps restant à vivre (qui est une variable aléatoire qu'on arrive à décrire), et ainsi, si on considère cette indépendance, alors on peut justement estimer le temps restant à vivre à la louche sans que ça ait une influence sur le résultat final.
Toutefois, ton discours Liorel (et ce que je lis dans la littérature scientifique, et ce qu'on entend partout) c'est que justement A et B sont très fortement liée. Il faudrait pouvoir décrire précisément le temps restant à vivre sachant B (pour chaque B possible, qui est combinatoire, ce qui semble long, et fastidieux selon la littérature que je viens de chercher, mais pas infaisable), mais il faudrait aussi pouvoir pour chaque mort caractériser finement B, ce que tu dis (et là, ça semble être ta pratique professionnelle, et je te crois sur parole), c'est que c'est infaisable.
TL;DR; Le problème ce n'est pas les outliers, mais la dépendance forte entre la mort par covid-19 et les pathologies déja présentes qui influent sur le temps restant à vivre.
[^] # Re: Taux de mortalité du covid
Posté par Kerro . Évalué à 3.
Très juste. C'est évident mais je n'avais pas vu cela.
Pour que les stats soient faisables, il faut évaluer l'état de santé des personnes, donc évaluer un temps de vie restant. Ce n'est pas la même chanson.
Ou un entre-deux : tel âge avec telle pathologie donne telle espérance de vie. Ce n'est pas précis, mais ça donne une meilleure information.
[^] # Re: Taux de mortalité du covid
Posté par CHP . Évalué à 0.
La personne à qui je met une balle dans la tete est-elle considérée victime d'homicide, alors qu'elle est juste décédée 80 ans plus tot que prévu (dans la meilleure hypothèse) ?
Raisonnement qui ne tient pas…
[^] # Re: Taux de mortalité du covid
Posté par Marco . Évalué à 0.
allez hop on transforme le propos. Je te parle de personne qui ont déjà un pied sous la tombe, tu tombes tout de suite dans le meurtre…
A la base on parle du fait du taux de mortalité du corona, tout ce que je pense c'est que chez certaines personnes à l'état de santé plus fragile, on peut juste dire que le corona donne le coup de grâce. Tout comme l'overdose de morphine chez quelqu'un en phase terminale de cancer n'est pas mort de cette dose.
Les moins de 60 ans ont moins de 1.3 % (et dans ces 1.3%, y a des gens qui ont des problèmes de santé annexe) d'y passer, on est dans une situation où les gens pensent que l'humanité va y passer. Qu'il faut se planquer dans un bunker anti nucléaire.
Par contre le palu qui touche l'afrique, tout le monde s'en fout ca touche pas les européens/américains/ceux qui ont les moyens de se soigner, la famine en afrique ce n'est pas notre pb. Bref coronavirus encore une maladie de riche…
[^] # Re: Taux de mortalité du covid
Posté par Psychofox (Mastodon) . Évalué à 2. Dernière modification le 10 mars 2020 à 10:57.
À part si cette personne est atteinte d'une pathologie grave genre cancer généralisé, c'est impossible de parler d'une personne qu'elle un pied dans la tombe juste parce qu'elle est agée.
Une personne agée de 80 ans peut très bien faire une chute et mourir le lendemain, faire un avc le mois suivant, attraper la grippe l'année suivante ou ne rien subir de tout cela et atteindre les 90 ans voire plus.
[^] # Re: Taux de mortalité du covid
Posté par Marco . Évalué à 2. Dernière modification le 10 mars 2020 à 11:01.
Juste pour précision ma phrase d'origine était :
Une personne de plus de 80 ans déjà mal en point est elle considéré comme décédé du coronavirus si elle avait d'autres problèmes de santé à côté
Bref tout le monde meurt, il faut l'accepter, pour tout dire mes parents ont été soulagés de voir ma grand mère mourir tellement sa santé s'était dégradé (elle ne reconnaissait plus personne, avait besoin de beaucoup d'assistance etc.)
[^] # Re: Taux de mortalité du covid
Posté par Renault (site web personnel) . Évalué à 3. Dernière modification le 10 mars 2020 à 11:09.
Tu as pourtant beaucoup de malades dont la survie est précaire et ooù la moindre infection peut avoir des conséquences graves systématiquement. Surtout quand tu es âgé.
Mais pour expliquer mon point de vue et montrer que les statistiques sont toujours à interpréter.
Le coronavirus tue globalement les personnes âgées et fragiles d'un point de vue de la santé. Ok. Cela signifie qu'un pays plus âgé en moyenne comme l'Europe ou le Japon aura un taux de mortalité globale de ce virus plus élevé que des pays jeunes comme l'Inde ou en Afrique.
De même, la répartition des problèmes de santé n'est pas homogène. En Afrique tu as beaucoup de malade du SIDA, dans les pays riches beaucoup plus de diabétiques et de cancers, etc. Donc le taux de mortalité dans chaque pays peut fortement varier rien que parce qu'à la base la population n'est pas homogène.
Les systèmes de santé ne sont pas les mêmes non plus, les cas sévères dans un pays sous équipé seront probablement plus mortels qu'ailleurs.
Et cela signifie que si la population change, la gravité du coronavirus change aussi. Donc tous ces chiffres que l'on collecte à ce sujet doivent toujours être mis en regard des autres indicateurs qui peuvent fortement influencer ce résultat.
[^] # Re: Taux de mortalité du covid
Posté par CHP . Évalué à 2.
On peut virer le meurtre si tu prefere : Une personne de plus de 20 ans déjà mal en point est elle considéré comme décédé du coronavirus si elle avait d'autres problèmes de santé à côté ? Si elle est décédé 65 ans plus tôt que prévu.
Ce que je veux dire, c'est que cette histoire de "6 mois plus tot que prévu" c'est n'importe quoi… On est tous des cadavres ambulants, il suffit de changer l’échelle de temps. Et c'est pas parce que Mamie Duchmol n'avait que 6 mois d’espérance de vie que ce n'est pas grave de lui enlever ces 6 mois. Elle pouvait vivre beaucoup plus que ces 6 mois (combien de personne à qui on dit "il vous reste 6 mois" et qui vivent des années ?), et même si elle ne vivait que 6 mois, en 6 mois elle pouvait avoir un réel impact (sauver la vie du futur prix nobel de médecine ?)
[^] # Re: Taux de mortalité du covid
Posté par Albert_ . Évalué à 2.
Si la loi statistique utilisée est celle des grands nombres la réponse est simple … peu, très peu c'est ce que l'on appelle la queue de la distribution et tu as l'inverse ceux qui en ont pour 6 mois et qui meurent la semaine suivante.
[^] # Re: Taux de mortalité du covid
Posté par jben . Évalué à 5.
Je suis désolé mais je me dois de réagir. Je risque sembler très négatif, mais je ne peux laisser passer de telles horreurs.
La loi des grands nombres n'est pas une loi de probabilité. Les lois des grands nombres (car il existe deux versions, une faible, une forte) sont des théorèmes. Ce n'est en aucun cas comparable avec de qu'on appelle une loi statistique comme une loi normale, une loi de Poisson, etc. Oui, le terme loi est polysémique.
Même si je comprends la première partie de la phrase comme « si la loi statistique utilisée admet une espérance, on peut appliquer la loi faible des grands nombres, la réponse est simple…», et que l'espérance en question est bien 6 mois (ce qui est non précisé), ça pourrait marcher sauf que ça ne marche pas. La question c'est combien de personne, et tu réponds très peu, c'est une confusion entre nombre et proportion.
En supposant qu'en effet, l'espérance est bien de 6 mois, sur n personnes à qui on a sorti cette phrase, on peut dire que :
C'est à cause des mauvais usages du genre que la statistique a aussi mauvaise réputation. Confondre un phénomène au niveau d'une population n'implique pas le phénomène au niveau individuel, c'est une erreur que ne devrait jamais faire un pratiquant de la statistique.
J'aurais pu tolérer cette erreur, sans m’énerver. Mais utiliser un vernis statistique avec un vocabulaire de sachant (loi des grand nombres, queue de distribution) tout en racontant des énormités du genre est une pratique qui entraîne le lecteur dans un raisonnement faux tout en lui donnant l'illusion de la rigueur.
[^] # Re: Taux de mortalité du covid
Posté par Albert_ . Évalué à 1.
Prenons un exemple
https://academic.oup.com/neurosurgery/article-abstract/7/5/435/2746758
Ta réponse est donc 7.5% à 2 ans.
On peut considérer que c'est un gros chiffre ou pas… Maintenant à une personne et sa famille atteinte de ce genre de maladie siras tu qu'il a une espérance de vie de 2 ans ou de 6 mois?
[^] # Re: Taux de mortalité du covid
Posté par xcomcmdr . Évalué à -2. Dernière modification le 12 mars 2020 à 06:26.
Du Albert_ tout craché quoi. Pareil sur tous les sujets (systemd, …)
"Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
[^] # Re: Taux de mortalité du covid
Posté par Albert_ . Évalué à 2.
Oui oui bien sur tu ne peux pas te retenir d'insulter!
Mais bon cela ne changera pas que la majorité des personnes à qui on annonce 6 mois de sursis pour un cancer ne verrons jamais les 'plusieurs années' que toi et tes semblables pretendent vont avoir…
[^] # Re: Taux de mortalité du covid
Posté par xcomcmdr . Évalué à 1.
Je t'ai insulté où ?
"Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
[^] # Re: Taux de mortalité du covid
Posté par Liorel . Évalué à 6.
C'est quoi cette vision utilitariste de Mamie Duchmol ? Même si elle ne peut avoir aucun impact parce qu'elle est, par exemple, cloîtrée dans son lit, il reste du devoir de chacun, médecin ou non, de lui permettre de vivre et de profiter de ces 6 mois sans la juger.
Ça, ce sont les sources. Le mouton que tu veux est dedans.
[^] # Re: Taux de mortalité du covid
Posté par CHP . Évalué à 2.
Je suis d'accord
[^] # Re: Taux de mortalité du covid
Posté par flan (site web personnel) . Évalué à 2.
Sans compter que ce sont peut-être ces six derniers mois qui compteront le plus dans sa vie (parce qu'elle a vu le petit-fils dont elle avait toujours rêvé…)
# Des courbes
Posté par vmagnin (site web personnel) . Évalué à 0.
On trouvera ici en particulier des courbes superposées pour différents pays :
https://www.les-crises.fr/suivi-coronavirus/
Un graphique de comparaison grippe/coronavirus :
https://www.les-crises.fr/comparaison-de-la-mortalite-par-age-de-la-grippe-et-du-coronavirus-covid-19/
# Avec un peu de recul
Posté par Anonyme . Évalué à 3.
C'est amusant comment le premier graphique de cet article commence à ce voir de plus en plus depuis quelques jours dans les médias (pas ce graphique là spécifiquement, mais les deux courbes de modélisation avec deux valeurs de R0).
Merci encore à l'auteur pour cet article qui est encore plus éclairant avec le recul. Perso je considère avoir eu de la chance de lire les articles sur le sujet qui ont été posté ici, ça m'a permis de faire quelques provisions à ce moment là et de sensibiliser mes collègues, nous sommes tous en télétravail depuis 2 semaines.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.