Vandy Berten avatar

Interests: Network analytics, Graph Databases, GIS (spatial) Analytics, Fraud Detection, Data visualisation, Data Sciences, Data quality, Email reliability, Social Media.

Email: vandy.bertenblah [at] blah blahsmals.be

Twitter:@VandyBERTEN

List of blog posts:

  • Peut-on toujours atteindre une maternité en 30 minutes ?

    Peut-on toujours atteindre une maternité en 30 minutes ?

    Posted on

    by

    Peut-on, de partout en Belgique, atteindre une maternité en moins de 30 minutes en voiture ? Si certaines maternités fermaient, quel en serait l’impact ? Le gouvernement Bruxellois a décidé de ne pas ouvrir de centre de vaccination Covid dans le sud-est de Bruxelles (Watermael-Boitsfort et Auderghem) : quel est l’impact en termes d’accessibilité ?

    Continue reading→


  • La jointure spatiale, la clé de l’analytique géographique

    La jointure spatiale, la clé de l’analytique géographique

    Posted on

    by

    Dans cet article, nous allons explorer un concept fondamental de l’analytique géographique (GIS Analytics) : la jointure spatiale. Cet article est accompagné d’un notebook Python (lien git – lien nbviewer), permettant à chacun d’approfondir la question et de manipuler les différents exemples. La jointure spatiale est l’équivalent géographique de la jointure classique, ou attributaire, que

    Continue reading→


  • Le web scraping : utile pour l’eGov ?

    Le web scraping : utile pour l’eGov ?

    Posted on

    by

    Le web scraping, parfois appelé web crawling ou web harvesting, reprend toutes les techniques d’extraction de contenu sur des sites web, au moyen d’outils (scripts, programmes, plugins…) dans le but de son utilisation dans un autre contexte. Cette extraction se fera sans que des outils dédiés aient été proposés par les propriétaires du site web,

    Continue reading→


  • Géocodage : contourner les lacunes d’OpenStreetMap (partie 2)

    Géocodage : contourner les lacunes d’OpenStreetMap (partie 2)

    Posted on

    by

    Dans notre article précédent, nous présentions les difficultés que nous avons rencontrées dans notre tentative de géocoder (convertir une adresse en coordonnées géographiques, et standardiser cette adresse) avec Nominatim, le géocodeur d’OpenStreetMap. Nous avons aussi évoqué qu’en modifiant légèrement les adresses que Nominatim n’avait par reconnues, elles le devenaient. Nous avons considéré un ensemble de

    Continue reading→


  • Géocodage : contourner les lacunes d’OpenStreetMap (partie 1)

    Géocodage : contourner les lacunes d’OpenStreetMap (partie 1)

    Posted on

    by

    Pour divers clients, nous avons été à la recherche d’une solution permettant de nettoyer (standardiser) des adresses postales, principalement en Belgique. Nous avions besoin d’une solution « on-premise », idéalement en Open-Source. Nous avons voulu construire une solution basée sur OpenStreetMap, qui permettait de rencontrer ces deux contraintes. Mais il s’est vite avéré qu’OpenStreetMap n’était

    Continue reading→


  • Data quality : mesurer la similarité interne

    Data quality : mesurer la similarité interne

    Posted on

    by

    Dans notre article précédent, nous présentons une méthode permettant de mesurer et visualiser l’importance des valeurs rares dans une liste de données où l’on s’attend à une grande redondance, souvent signes d’un problème de qualité. La méthode en question se basait uniquement sur un comptage des occurrences des valeurs, sans du tout en examiner le

    Continue reading→


  • Data Quality : mesurer les valeurs rares

    Data Quality : mesurer les valeurs rares

    Posted on

    by

    Des données, à partir du moment où elles vivent et sont alimentées, souffrent presque systématiquement de problèmes de qualité. Le domaine de la Qualité des données (Data Quality) est vaste, très actif tant dans le monde académique qu’industriel. Il y a bien évidemment des aspects méthodologiques (améliorer les processus pour que les données qui rentrent

    Continue reading→


  • Sept (bonnes) raisons d’utiliser une Graph Database

    Sept (bonnes) raisons d’utiliser une Graph Database

    Posted on

    by

    Ces dernières années, les bases de données orientées graphes (ou Graph DB, présentées dans nos blogs précédents [1, 2]), et plus généralement les bases de données NoSQL, ont énormément gagné en popularité et en visibilité. Pour preuve, Neo4j, le leader actuel du marché des Graph Databases, apparaît depuis 2014 dans le “Magic Quadrant for Operational

    Continue reading→


  • Le marché du travail salarié en Belgique : une analyse réseau (partie 3/3)

    Le marché du travail salarié en Belgique : une analyse réseau (partie 3/3)

    Posted on

    by

    Dans le premier article de notre série consacrée à l’analyse réseau du marché du travail en Belgique, nous avons présenté les données constituant le graphe (ou réseau) de Dimona, sur lequel se base cette série de trois articles, et montré quelques métriques, permettant par exemple d’évaluer le nombre de personnes actives à un moment donné,

    Continue reading→


  • Le marché du travail salarié en Belgique : une analyse réseau (partie 2/3)

    Le marché du travail salarié en Belgique : une analyse réseau (partie 2/3)

    Posted on

    by

    Dans notre article précédent, nous avons montré quelques éléments d’analyse réseau appliquée à la base de données “Dimona”, qui recense, en Belgique, les relations de travail entre tous les employeurs et leurs employés. Nous y avons principalement analysé la notion de degré, permettant de voir le nombre d’employeurs par employé, et le nombre d’employés par

    Continue reading→