Décès de Leland Wilkinson, « parrain » du paquet ggplot2 de R
Leland Wilkinson était un chercheur américain ayant contribué à la discipline de la visualisation des données. Il est l’auteur du livre Grammar of Graphics en 1999, et a notamment aidé un des cocréateurs du paquet ggplot2
de R
à en faire son implémentation. Son décès a été annoncé le 13 décembre 2021 sur le blog spécialisé Flowing Data.
Journal Préparation de figures avec R : automatiser l'ajout d'annotations manuelles
R est un outil libre destiné aux statistiques utilisé pour l'analyse de données et la production de figures scientifiques. Une bonne reproductibilité des résultats peut être obtenue en utilisant des scripts R et un logiciel de gestion de version comme Git. Néanmoins, il est parfois pratique d'ajouter quelques annotations à la main sur une figure, ce qui va à l'encontre de la reproductibilité désirée.
Ce journal présente une approche permettant d'incorporer ces annotations manuelles dans une figure de manière (…)
Journal Une brève introduction à l'utilisation des données OpenStreetMap
Introduction
Vous connaissez sans doute OpenStreetMap (ou OSM), une base de données géographiques libre et collaborative que chacun peut éditer, et qui a souvent été mentionnée sur LinuxFr (voir quelques liens rappelés en fin de journal). Si en théorie tout le monde peut réutiliser ces données (sous licence ouverte ODbl), il peut être difficile pour un nouvel arrivant de savoir par où commencer pour y accéder.
Ce journal s'adresse aux personnes curieuses au sujet d'OpenStreetMap et intéressées par un (…)
Lien Microsoft R Open: The Enhanced R Distribution
Journal Gnu R version 4.0.0 est disponible
R est un langage de programmation et un logiciel libre destiné aux statistiques et à la science des données. La version 4.0.0 est sorti le 24 avril
La liste complète des changements est disponible ici : https://cran.r-project.org/doc/manuals/r-release/NEWS.html.
Une des évolutions est potentiellement relativement impactante sur les scripts existants. Dans les versions précédentes, les chaînes de caractères étaient par défaut transformées en factor dans les fonctions read.table et data.frame (paramètre par défaut StringsAsFactor=TRUE), ce n'est plus le cas dans la (…)
Atelier Barcamp I. A. & Droit le 7 novembre 2017 à Paris
Lors des six derniers mois, magistrats, avocats et juristes de l’association Open Law, dont la démarche est résolument orientée sur la production de ressources ouvertes, ont travaillé d’arrache‐pied pour créer un jeu de données de Natural Language Processing (NLP) en langue française.
Le 7 novembre prochain au Square, un événement est organisé pour faire se rencontrer juristes et développeurs afin de déterminer des cas d’usage concrets pour ce jeu de données. Affichage du plan des décisions, recherche ciblée dans la jurisprudence, extraction d’informations précises, outils de justice prédictive… Quels usages et quels services peuvent être créés grâce à ce jeu de données ? Telle est la problématique qui sera mise à l’honneur à l’occasion de ce prochain rendez‐vous, au cours duquel nous définirons ensemble les défis qui seront portés le 7 décembre prochain lors du Hackathon I. A. & Droit organisé dans le cadre du Paris Open Source Summit.
Date et lieu :
- mardi 7 novembre 2017 à 18 h 30
- Le Square, 3 passage Saint‐Pierre Amelot, 75011 Paris
Journal [Parution] R et Espace (géographie) -- collection Framabook
Bonjour à tous,
La collection Framabook (projet Framasoft) ne s'arrête pas ! Cette fois, nous proposons un ouvrage d'initiation au logiciel libre R appliqué à l'analyse géographique.
Pourquoi un tel ouvrage ? D'abord parce que R est un logiciel libre (issu du projet GNU) possédant sans doute un des plus larges éventail de fonctionnalités tant ses contributeurs l'enrichissent depuis plus de 15 ans.
Le livre R et espace est une illustration des nombreux domaines dans lesquels R peut être appliqué.
ANNONCE DE
(…)Pandas, une bibliothèque pour manipuler facilement des données
À l'occasion de la sortie de la version 0.13, je vous présente cette bibliothèque basée sur Python qui permet de travailler simplement et efficacement avec des données structurées. Jusqu'à présent, les versions se sont enchaînées rapidement mais celle-ci arrive plusieurs mois après la précédente. On peut donc espérer qu'un code développé pour cette nouvelle version demandera moins de maintenance.
Les principales possibilités sont :
- récupérer des données depuis des fichiers CSV, tableaux Excel, des pages web, HDF5, etc. ;
- grouper, découper, alléger, déplacer, écrire les données ;
- ces données peuvent être à une ou deux dimensions, avec des manques, ou encore temporelles avec ou sans périodicité.
Pour peu que les données soient correctement formatées, pandas peut s'en sortir même dans le cas où la quantité dépasse les capacités de votre machine en traitant les sources morceaux par morceaux.
Le développement de cette bibliothèque s'inscrit dans la problématique de disposer d'outils pour manipuler de gros volumes de données dans le but de leur exploitation scientifique ou commerciale.
Note : pandas fonctionne avec la même base de code sur Python 2 et 3 mais ce n'est, peut-être, pas le cas de toutes les dépendances.
Sortie de R version 3.0.0
Le projet R annonce la sortie de la version 3.0.0 du logiciel statistique du même nom (pre-release le 7 mars 2013, sortie officielle le 3 avril).
R désigne à la fois un langage de programmation et son interpréteur. Historiquement, R est un dialecte dérivé du langage S, implémenté dans le logiciel propriétaire S-PLUS. L'aventure R a débuté en 1993, mais c'est à partir des années 2000 qu'il a pris une importance majeure dans le paysage des langages destinés aux applications statistiques. R rivalise aujourd'hui avec ses concurrents SAS (Statistical Analysis System), SPSS (Statistical Package for the Social Sciences), ou STATA ; il est devenu incontournable dans certaines disciplines, notamment la biologie.
Le changement de version majeur (2.15.3 vers 3.0) ne signale pas une transition importante (voir le changelog), mais marque une évolution progressive (la version 2.0 date de 2004). La mise à jour requiert cependant une réinstallation complète.
R fonctionne de manière modulaire, avec un cœur relativement réduit, sur lequel peuvent se greffer des bibliothèques de fonctions fournies sous forme de « paquets ». R doit certainement une partie de son succès à l'activité de sa communauté, puisque plus de 4700 paquets activement maintenus sont disponibles au téléchargement sur le site officiel, sans compter les projets indépendants, comme bioconductor.
R est avant tout destiné au traitement et à l'analyse des données : tests statistiques, data mining, et production de graphiques de qualité (destinés à la publication). Le langage est de plus en plus utilisé pour produire des scripts portables, ou pour réaliser des simulations numériques (MCMC, typiquement). Réputé inefficace en tant que langage interprété, la possibilité de coder les fonctions critiques en C tout en utilisant la syntaxe « haut-niveau » de R ouvre une niche écologique significative pour le développement d'applications statistiques.
R-project bouge, R version 2.2.0 sort
R implémente notamment en open-source le langage S (des laboratoires Bell maintenant Lucent Technologies), dont les programmes tournent quasiment sans modification avec R, ce qui en fait un outil de choix pour les recherches mettant en oeuvre les statistiques : bioinformatique, analyse de marchés financiers, analyse de données spatiales...
Le projet R est encore bien peu connu du public probablement à cause de son coté austère et ciblé. C'est pourquoi les sorties se font discrètes. Hier c'est la version 2.2.0 qui a été publiée, avec son lot de changements concernant principalement le confort d'utilisation.
R peut certes sembler rebutant pour l'étudiant souhaitant faire quelques calculs statistiques, mais - une fois pris en main - il se révèle très efficace.
Le projet R
Il s'agit d'un projet pas forcément très grand public, mais qui est sans doute appelé à prendre de l'envergure, notamment quand on connaît le prix des licences de logiciels de type SAS ou SPSS.
A suivre, donc...