Structurer vos données de sinistres sous R
Découvrez comment transformer un historique de sinistres brut en base tarifaire exploitable sous R. De la qualité des données dépend directement la robustesse de vos modèles GLM fréquence × sévérité.
Publié le 23 avril 2026
Poser les fondations : une base de données tarifaire solide
En Non‑Vie, la qualité de la tarification commence par la qualité de la donnée. Avant même de parler de GLM ou de machine learning, il faut transformer des extractions parfois hétérogènes en un portefeuille propre, documenté et reproductible.
Sous R, cette étape repose sur quelques principes clés :
- centraliser les différentes sources (production, sinistres, comptabilité technique) ;
- définir une granularité cible (contrat‑garantie, risque, police…) cohérente avec les objectifs tarifaires ;
- tracer chaque transformation dans des scripts versionnés plutôt que dans des fichiers manuels.
Nettoyage et contrôles de cohérence
Les données de sinistres sont souvent bruitées : doublons, dates incohérentes, montants négatifs, sinistres ouverts depuis trop longtemps, etc. Un pipeline R bien conçu permet de :
- mettre en place des contrôles systématiques (règles métier, bornes, typologies d’anomalies) ;
- traiter les valeurs manquantes par imputation raisonnée ou exclusion documentée ;
- gérer les sinistres atypiques (outliers) via des méthodes robustes ou des plafonnements adaptés ;
- conserver un journal des corrections pour répondre aux exigences d’audit et de conformité.
L’objectif est double : fiabiliser les indicateurs (fréquence, coût moyen, ratio de sinistres) et sécuriser la suite de la chaîne de modélisation.
Structuration par exposition et construction des variables
Pour passer à la tarification, il est indispensable de ramener les sinistres à une base d’exposition homogène. Sous R, on met en place :
- le calcul de l’exposition (en années‑risque, mois, jours) ;
- l’agrégation des sinistres par période d’observation ;
- la prise en compte des mouvements de portefeuille (résiliations, avenants, changements de garanties).
Vient ensuite la création de variables dérivées, essentielles pour la segmentation :
- ancienneté du contrat et de l’assuré ;
- indicateurs de multi‑détention et de multi‑canal ;
- historique de sinistres (nombre, montants, récence) ;
- variables comportementales ou marketing (scores, segments RFM, appétence digitale).
Ces enrichissements se font idéalement dans des fonctions R réutilisables, afin de garantir la cohérence entre études ponctuelles et production.
Préparer les GLM fréquence × sévérité
Une fois la base structurée, on peut préparer les modèles de tarification. La décomposition classique fréquence × sévérité nécessite :
- une table d’exposition pour la fréquence, avec nombre de sinistres et offset en log(exposition) ;
- une table de sinistres pour la sévérité, filtrée et éventuellement tronquée ;
- des variables explicatives harmonisées entre les deux volets pour faciliter l’interprétation.
Les GLM de type Poisson ou binomiale négative pour la fréquence, et Gamma ou log‑normale pour la sévérité, exigent des hypothèses de distribution et de lien qu’il faut vérifier via des diagnostics (déviance, résidus, sur‑dispersion). Une structuration rigoureuse des données rend ces contrôles plus fiables et les résultats plus stables.
Industrialiser le pipeline R
Pour que la tarification soit réellement opérationnelle, la préparation des données ne doit pas rester un exercice ponctuel. Il s’agit d’industrialiser :
- un pipeline ETL sous R (scripts, fonctions, éventuellement packages internes) ;
- des rapports automatisés de qualité de données et de descriptifs de portefeuille ;
- des exports standardisés vers les outils de tarification et de pilotage.
Une session dédiée, comme celle proposée dans ce type d’accompagnement en analyse de données d’assurance sous R, permet de passer rapidement d’un historique de sinistres imparfait à une base tarifaire prête pour les GLM et les méthodes avancées.
Sources
- STATISTIQUE D’ASSURANCE SOUS « R » – modélisations actuarielles, théorie et pratique — caritat.fr — 2025-06-01
- GLM appliqués à la tarification et au provisionnement (formation professionnelle) — caritat.fr — 2022-11-01
- Tarification avancée : théorie et applications en R – Chapitre « Tarification en actuariat » — bookdown.org
- Comparaison méthodologique d’une optimisation tarifaire en affaire nouvelle — lactuariel.fr — 2019-01-01
- Création d’un outil de tarification auto et habitation avec R (projet ESILV) — esilv.fr — 2024-01-01
- Tarification IARD – support GLM et méthodes avancées — planchet.net — 2025-06-01
- Contributions à l’évaluation des risques en assurance (GLM fréquence des sinistres) — core.ac.uk — 2025-11-01
- Segmentation RFM : segmentation et analyse du portefeuille client — business3d.fr — 2024-02-01
Découvrir le Spark lié : Tarification actuarielle et analyse des sinistres avec R