Méthodologie

Pourquijevote est une plateforme civique non-partisane. Notre objectif est d'aider les citoyens à comprendre les responsables politiques français à partir de matériaux vérifiés, datés, sourcés et faciles à naviguer.

Principe central

Chaque affirmation présentée comme factuelle doit être liée à une source.

Architecture des données

Personnalités, partis, affiliations et événements de carrière.
Sources avec niveau de fiabilité (officiel, institutionnel, média, archive, collaboratif).
Discours, écrits, vidéos liés à des sources d'origine.
Citations, positions par thème, promesses, actions, affaires juridiques.
Toute extraction par IA conserve : modèle, version du prompt, identifiants des sources, date, niveau de confiance.

Tri éditorial des contenus

Sur chaque profil de personnalité, l'onglet « Discours » ne présente que des contenus par la personnalité (discours, entretiens, tribunes, communiqués), jamais des articles de presse à propos d'elle. Chaque contenu est classé par un système déterministe et indépendant de tout modèle d'IA :

Rôle (by / about / mention) détecté à partir du domaine source, des verbes (« dénonce », « réagit »…), du suffixe de presse (« | TF1 INFO ») et des motifs de titre.
Format : entretien long, discours, tribune, communiqué, article, clip court, direct, post réseaux. Les entretiens longs et discours sont mis en avant en premier.
Score qualité 0–100 et niveau (high /medium / low / excluded) basé sur la longueur, la présence d'une transcription manuelle, et l'absence de signaux off-topic (sport, people).
Un module IA optionnel peut affiner ce score, mais le résultat reste exploitable sans aucun appel à un modèle externe — la qualité ne dépend pas du fournisseur d'IA configuré.

Enrichissement IA des contenus

Pour chaque contenu de qualité high ou medium attribué à une personnalité, un orchestrateur enchaîne trois prompts français versionnés (summarize_content_v2, extract_promises_v2, classify_positions_v2) :

Un résumé neutre de 2 à 4 phrases est ajouté à chaque discours et entretien. Il met en avant les points factuels et ignore les jugements de valeur. Modèle, version du prompt et date sont enregistrés à côté de chaque résumé.
Les promesses ne sont retenues que si elles sont explicites, concrètes (cible chiffrée, calendrier, réforme nommée) et attribuables à l'orateur. Le texte de la promesse est une citation littérale du contenu source ; chaque promesse pointe vers son contenu et sa source d'origine.
Les positions politiques sont classées par thème (économie, Europe, sécurité, environnement, …) et datées à partir de la date de publication du contenu source. C'est ce qui permet de tracer l'évolution chronologique des idées sur l'onglet « Idées » : chaque position conserve sa phrase de preuve (evidence_phrase) et un niveau de confiance.

Toute extraction par IA est traçable : la table ai_extraction_runs conserve le modèle utilisé, la version du prompt, le hash de l'input, la sortie JSON et la confiance. Le pipeline est idempotent : repasser l'enrichissement ne ré-écrit que les contenus dont la version de prompt a changé.

Statut juridique des informations

Les affaires judiciaires sont décrites par leur statut procédural : rumeur, plainte, enquête, mise en examen, procès, condamnation (en première instance, en appel, définitive), relaxe, classement.