Recrutement en cours
REFINe

Reasoning Enhancement With Feedback From a Generative AI in Nephrology (REFINe): A Randomized Evaluation of Generative AI Support in Nephrology Diagnosis

0 critères remplis à partir de votre profilVoyez en un coup d'œil comment votre profil répond à chaque critère d'éligibilité.
Ce qui est testé

AI suggestion

Autre
Qui peut participer

Disease

+ Pathologic Processes
+ Pathological Conditions, Signs and Symptoms
À partir de 18 ans
Voir tous les critères d'éligibilité
Comment se déroule l'étude

Étude diagnostique

Interventionnel
Date de début : novembre 2025
Voir le détail du protocole

Résumé

Sponsor principalUniversity Hospital, Lille
Contacts de l'étudeRaphaël BENTEGEAC, MD, MPH
Dernière mise à jour : 21 janvier 2026
Issu d'une base de données validée par les autorités. Revendiquer cette étude
Date de début de l'étude : 20 novembre 2025Date à laquelle le premier participant a commencé l'étude.

This study evaluates whether providing clinicians with real-time diagnostic suggestions from a high-reasoning large language model (GPT-5) improves diagnostic accuracy, confidence, and efficiency when solving nephrology clinical vignettes. Prior to selecting the model for the trial, the research team benchmarked several state-of-the-art models across a pilot set of nephrology cases, including: GPT-5, GPT-5-mini, O3, GPT-4o, Llama-4 Maverick-17B, Gemini-2.5-Pro, Qwen-3 VL-235B Thinking, DeepSeek-V3.2-Exp, MedGEMMA-27B, Claude Sonnet-4.5, and Magistral-Medium-2509. GPT-5 (high-reasoning) demonstrated the highest diagnostic performance, stability, and interpretability, and was selected as the AI system used in the intervention arm. Participants include medical students, residents, fellows, and practicing physicians. After creating an account, participants complete a demographic questionnaire (specialty, years of experience, practice type, age category, AI familiarity) and must explicitly agree to the use of these data for research purposes before accessing the vignettes. No directly identifying information is collected. Participants are randomized (with stratification by professional status) to either the AI-supported arm or the control arm. Each participant is assigned 10 nephrology vignettes in French or English and may complete them over multiple sessions. Once a vignette is submitted, it cannot be revisited ("no backtracking"). Completion time per vignette is automatically recorded. Control Arm Participants view each vignette and provide up to three diagnoses ("Top-3"), followed by a confidence rating (0-10). AI-Supported Arm Participants first enter an initial Top-3 diagnosis and confidence rating without AI assistance. The system then displays GPT-5's diagnostic suggestions, after which participants may revise their diagnoses once. The vignette is locked after submission. The study collects: * initial and final diagnoses, * confidence ratings before and (if applicable) after AI suggestions, * completion times, * participant demographic variables, * and the AI model's own diagnostic outputs. Partial completion is permitted; all completed vignettes contribute to the analysis. Primary and secondary outcomes include diagnostic accuracy (Top-3 and Top-1), accuracy improvement before vs. after AI, changes in diagnostic confidence, AI-induced diagnostic errors, human-versus-AI benchmarking, completion-time efficiency metrics, and the proportion of assigned vignettes completed. The primary analysis will compare diagnostic accuracy between the control arm (physicians alone) and the experimental arm (physicians assisted by the AI model). Accuracy is analyzed as a binary outcome (correct vs incorrect diagnosis). Because each participant evaluates multiple clinical vignettes, accuracy will be modeled using a mixed-effects logistic regression with a fixed effect for study arm and random intercepts for both participant and vignette. This approach accounts for clustering and varying difficulty across cases. The primary hypothesis test uses a two-sided α = 0.05. Effect sizes will be reported as odds ratios with 95% confidence intervals. Secondary analyses will explore whether accuracy varies by demographic factors (e.g., experience level, specialty) using interaction terms. Because each participant evaluates multiple vignettes, the team also performed simulation-based power analyses using mixed-effects logistic regression models with random intercepts for both participant and vignette, assuming an intra-participant ICC of 0.10. Under these assumptions, a total sample of 100 participants (50 per arm) with 10 vignettes per participant provides >99% power to detect a clinically meaningful improvement in diagnostic accuracy. The investigators therefore plan to enroll approximately 100 participants overall. This study aims to quantify whether AI-augmented reasoning meaningfully improves diagnostic performance and decision-making when clinicians evaluate complex nephrology cases.

Titre officielReasoning Enhancement With Feedback From a Generative AI in Nephrology (REFINe): A Randomized Evaluation of Generative AI Support in Nephrology Diagnosis 
Sponsor principalUniversity Hospital, Lille
Contacts de l'étudeRaphaël BENTEGEAC, MD, MPH
Dernière mise à jour : 21 janvier 2026
Issu d'une base de données validée par les autorités. Revendiquer cette étude

Protocole

Cette section fournit des détails sur le plan de l'étude, y compris la manière dont l'étude est conçue et ce qu'elle évalue.
Détails du design
100 participants à inclureNombre total de participants que l'essai clinique vise à recruter.
Diagnostic
Cette étude évalue de nouvelles méthodes pour diagnostiquer ou identifier une maladie, afin de la détecter plus facilement et plus tôt.

Comment les participants sont répartis entre les groupes de l'étude
Dans cette étude clinique, les participants sont répartis de manière aléatoire, comme lors d'un tirage au sort. Cela garantit l'équité et réduit les biais, rendant les résultats plus fiables. En attribuant les participants au hasard, les chercheurs peuvent comparer les traitements sans influence extérieure.

Autres méthodes de répartition
Répartition non aléatoire
: basée sur des critères spécifiques comme l'état de santé ou la décision du médecin.

Aucune (un seul groupe de participants)
: tous les participants reçoivent le même traitement, aucune répartition n'est nécessaire.

Comment les traitements sont administrés aux participants
Les participants sont répartis en groupes distincts, chaque groupe recevant un traitement différent en même temps. Cela permet de comparer directement l'efficacité de plusieurs traitements.

Autres façons d'administrer les traitements
Groupe unique
: tous les participants reçoivent le même traitement.

Affectation croisée
: les participants passent d'un traitement à un autre au cours de l'étude.

Plan factoriel
: les participants reçoivent des combinaisons de traitements pour évaluer leurs interactions.

Plan séquentiel
: les traitements sont administrés successivement selon un ordre prédéterminé, pouvant varier selon la réaction du participant.

Autre type d'attribution
: L'attribution des traitements ne suit pas de schéma standard ni de protocole prédéfini.

Comment l'efficacité du traitement est contrôlée
Dans ce type d’étude, aucun participant ne reçoit de placebo. Tous reçoivent soit le traitement expérimental, soit un autre traitement actif, souvent le traitement de référence. Ce modèle permet de comparer les effets de deux interventions réelles, sans inclure de substance inactive.

Autres options possibles
Contrôlée par placebo
: un placebo est utilisé pour comparer les effets du traitement expérimental à ceux d'une substance inactive, ce qui permet d'évaluer son efficacité réelle.

Comment la nature du traitement est tenue confidentielle
Dans une étude en ouvert, tous les participants ainsi que les chercheurs savent quel traitement est administré. Ce type de protocole est utilisé lorsqu'il n'est pas nécessaire ou pas possible de masquer les traitements.

Autres méthodes de masquage
Simple aveugle
: les participants ignorent le traitement reçu, mais les chercheurs le connaissent.

Double aveugle
: ni les participants ni les chercheurs ne savent quel traitement est administré.

Triple aveugle
: Les participants, les chercheurs et les personnes qui analysent les résultats ne savent pas quel traitement est administré.

Quadruple aveugle
: Les participants, les chercheurs, les personnes qui analysent les résultats et les professionnels de santé en charge du suivi ne savent pas non plus quel traitement est administré.

Éligibilité

Les chercheurs recherchent des patients correspondant à une certaine description appelée critères d'éligibilité : état de santé général ou traitements antérieurs du patient.
Conditions
Critères
Tout sexeLe sexe biologique des participants éligibles à s'inscrire.
À partir de 18 ansTranche d'âge des participants éligibles à participer.
Volontaires sains autorisésIndique si les individus en bonne santé et ne présentant pas la condition étudiée peuvent participer.
Conditions
Pathologie
Disease
Pathologic Processes
Pathological Conditions, Signs and Symptoms
Critères

Inclusion Criteria: Adults aged 18 years or older. Able to read and answer clinical vignettes in English or French. Access to a computer or smartphone with an internet connection. Provides informed consent online. Participants are expected to have at least basic medical training (e.g., medical students, residents, fellows, or practicing clinicians), although no formal verification is required. Exclusion Criteria: Individuals under 18 years of age. Inability to complete online study procedures. Prior involvement in the design, development, or evaluation of the AI system used in this study.


Plan de l'étude

Découvrez tous les traitements administrés dans cette étude, leur description détaillée et ce qu'ils impliquent.
Groupes de traitement
Objectifs de l'étude
Un seul groupe d'intervention 

est désigné dans cette étude

Cette étude ne comporte pas de groupe placebo. 

Groupes de traitement
Groupe I
Expérimental
Participants in this arm will complete the same clinical case vignettes as the control group. For each case, they will receive a suggested diagnosis generated by a large language model (GPT-5, high-reasoning configuration), which was selected after internal benchmarking. Participants can review the AI suggestion before entering their own final diagnostic answer. No additional information, prompts, or coaching is provided. The intervention consists solely of displaying the AI-generated diagnostic suggestion during the case-solving task.

This intervention consists of displaying an AI-generated diagnostic suggestion during the clinical case-solving task. After reading each vignette, participants see the top diagnostic proposal produced by a large language model (GPT-5, high-reasoning configuration), selected after internal benchmarking. The AI suggestion appears once per vignette and cannot be requested again or modified. Participants may revise their diagnostic answer after viewing the suggestion, but they cannot return to the vignette later. No additional guidance, coaching, or interactive features are provided.
Objectifs de l'étude
Objectifs principaux

For each participant, proportion of vignettes where the correct main diagnosis is included in the participant's final top-3 diagnoses. Compare final top-3 accuracy between the AI arm (after AI suggestions) and the control arm (no AI). Percentage of correctly diagnosed cases (top-3).

Centres d'étude

Ce sont les hôpitaux, cliniques ou centres de recherche où l'essai est conduit. Vous pouvez trouver le site le plus proche de vous ainsi que son statut.
Cette étude comporte 1 site
Recrutement en cours
Lille University Hospital (online study)Lille, FranceVoir le site

Recrutement en cours
1 Centres d'Étude