Reclutando
REFINe

Reasoning Enhancement With Feedback From a Generative AI in Nephrology (REFINe): A Randomized Evaluation of Generative AI Support in Nephrology Diagnosis

0 criterios cumplidosConsulta de un vistazo cómo tu perfil cumple con cada criterio de elegibilidad.
Qué se está evaluando

AI suggestion

Otro
Quiénes están siendo reclutados

Disease

+ Pathologic Processes
+ Pathological Conditions, Signs and Symptoms
A partir de 18 años
Ver todos los criterios de elegibilidad
Cómo está diseñado el estudio

Estudio Diagnóstico

Intervencional
Inicio del estudio: noviembre de 2025
Ver detalles del protocolo

Resumen

Patrocinador PrincipalUniversity Hospital, Lille
Contacto del EstudioRaphaël BENTEGEAC, MD, MPH
Última actualización: 21 de enero de 2026
Extraido de una base de datos validada por el gobierno.Reclamar como socio
Fecha de inicio: 20 de noviembre de 2025Fecha en la que se inscribió al primer participante.

This study evaluates whether providing clinicians with real-time diagnostic suggestions from a high-reasoning large language model (GPT-5) improves diagnostic accuracy, confidence, and efficiency when solving nephrology clinical vignettes. Prior to selecting the model for the trial, the research team benchmarked several state-of-the-art models across a pilot set of nephrology cases, including: GPT-5, GPT-5-mini, O3, GPT-4o, Llama-4 Maverick-17B, Gemini-2.5-Pro, Qwen-3 VL-235B Thinking, DeepSeek-V3.2-Exp, MedGEMMA-27B, Claude Sonnet-4.5, and Magistral-Medium-2509. GPT-5 (high-reasoning) demonstrated the highest diagnostic performance, stability, and interpretability, and was selected as the AI system used in the intervention arm. Participants include medical students, residents, fellows, and practicing physicians. After creating an account, participants complete a demographic questionnaire (specialty, years of experience, practice type, age category, AI familiarity) and must explicitly agree to the use of these data for research purposes before accessing the vignettes. No directly identifying information is collected. Participants are randomized (with stratification by professional status) to either the AI-supported arm or the control arm. Each participant is assigned 10 nephrology vignettes in French or English and may complete them over multiple sessions. Once a vignette is submitted, it cannot be revisited ("no backtracking"). Completion time per vignette is automatically recorded. Control Arm Participants view each vignette and provide up to three diagnoses ("Top-3"), followed by a confidence rating (0-10). AI-Supported Arm Participants first enter an initial Top-3 diagnosis and confidence rating without AI assistance. The system then displays GPT-5's diagnostic suggestions, after which participants may revise their diagnoses once. The vignette is locked after submission. The study collects: * initial and final diagnoses, * confidence ratings before and (if applicable) after AI suggestions, * completion times, * participant demographic variables, * and the AI model's own diagnostic outputs. Partial completion is permitted; all completed vignettes contribute to the analysis. Primary and secondary outcomes include diagnostic accuracy (Top-3 and Top-1), accuracy improvement before vs. after AI, changes in diagnostic confidence, AI-induced diagnostic errors, human-versus-AI benchmarking, completion-time efficiency metrics, and the proportion of assigned vignettes completed. The primary analysis will compare diagnostic accuracy between the control arm (physicians alone) and the experimental arm (physicians assisted by the AI model). Accuracy is analyzed as a binary outcome (correct vs incorrect diagnosis). Because each participant evaluates multiple clinical vignettes, accuracy will be modeled using a mixed-effects logistic regression with a fixed effect for study arm and random intercepts for both participant and vignette. This approach accounts for clustering and varying difficulty across cases. The primary hypothesis test uses a two-sided α = 0.05. Effect sizes will be reported as odds ratios with 95% confidence intervals. Secondary analyses will explore whether accuracy varies by demographic factors (e.g., experience level, specialty) using interaction terms. Because each participant evaluates multiple vignettes, the team also performed simulation-based power analyses using mixed-effects logistic regression models with random intercepts for both participant and vignette, assuming an intra-participant ICC of 0.10. Under these assumptions, a total sample of 100 participants (50 per arm) with 10 vignettes per participant provides >99% power to detect a clinically meaningful improvement in diagnostic accuracy. The investigators therefore plan to enroll approximately 100 participants overall. This study aims to quantify whether AI-augmented reasoning meaningfully improves diagnostic performance and decision-making when clinicians evaluate complex nephrology cases.

Título OficialReasoning Enhancement With Feedback From a Generative AI in Nephrology (REFINe): A Randomized Evaluation of Generative AI Support in Nephrology Diagnosis 
Patrocinador PrincipalUniversity Hospital, Lille
Contacto del EstudioRaphaël BENTEGEAC, MD, MPH
Última actualización: 21 de enero de 2026
Extraido de una base de datos validada por el gobierno.Reclamar como socio

Protocolo

Esta sección proporciona detalles del plan del estudio, incluyendo cómo está diseñado y qué se está evaluando.
Detalles del Diseño
Se reclutarán 100 pacientesNúmero total de participantes que el ensayo clínico espera reclutar.
Estudio Diagnóstico
Los estudios diagnósticos se centran en mejorar como se detecta o confirma una enfermedad. Prueban nuevas herramientas o técnicas que podrían ofrecer diagnósticos más rápidos o precisos.

Cómo se asignan los participantes a diferentes grupos/brazos
En este estudio clínico, los participantes se colocan en grupos de forma aleatoria, como si se lanzara una moneda. Esto garantiza que el estudio sea justo e imparcial, lo que hace que los resultados sean más confiables. Al asignar a los participantes al azar, los investigadores pueden comparar mejor los tratamientos sin influencias externas.

Otras formas de asignar participantes
Asignación no aleatoria
: Los participantes se asignan en función de factores específicos, como su condición médica o la decisión de un médico.

Ninguna (ensayo de un solo brazo)
: Si el estudio tiene un solo grupo, todos los participantes reciben el mismo tratamiento y no se necesita asignación.

Cómo se administran los tratamientos a los participantes
Los participantes se dividen en diferentes grupos, y cada uno recibe un tratamiento específico al mismo tiempo. Esto ayuda a los investigadores a comparar la eficacia de los distintos tratamientos entre sí.

Otras formas de asignar tratamientos
Asignación a un solo grupo
: Todos reciben el mismo tratamiento.

Asignación cruzada
: Los participantes cambian de tratamiento durante el estudio.

Asignación factorial
: Los participantes reciben diferentes combinaciones de tratamientos.

Asignación secuencial
: Los participantes reciben tratamientos uno tras otro en un orden específico, posiblemente según su respuesta individual.

Otra asignación
: La asignación de tratamientos no sigue un diseño estándar o predefinido.

Cómo se controla la efectividad del tratamiento
En un estudio no controlado con placebo, ningún participante recibe una sustancia inerte (placebo) para comparar los resultados. En su lugar, todos los participantes reciben el tratamiento experimental o una alternativa activa (a menudo el tratamiento estándar). Este método permite comparar los efectos del tratamiento experimental con los de otra intervención activa, en lugar de un placebo.

Otras opciones
Controlado con placebo
: Se utiliza un placebo para comparar los efectos del tratamiento experimental con los de una sustancia inerte, aislando así el efecto real del tratamiento.

Cómo se mantiene la confidencialidad de las intervenciones asignadas a los participantes
Todos los involucrados en el estudio saben qué tratamiento se está administrando. Esto se utiliza cuando no es posible o necesario ocultar los detalles del tratamiento a los participantes o investigadores.

Otras formas de enmascarar la información
Simple ciego
: Los participantes no saben qué tratamiento están recibiendo, pero los investigadores sí.

Doble ciego
: Ni los participantes ni los investigadores saben qué tratamiento se está administrando.

Triple ciego
: Participantes, investigadores y evaluadores de resultados no saben qué tratamiento se está administrando.

Cuádruple ciego
: Participantes, investigadores, evaluadores de resultados y personal de atención no saben qué tratamiento se está administrando.

Elegibilidad

Los investigadores buscan pacientes que cumplan ciertos criterios, conocidos como criterios de elegibilidad: estado general de salud o tratamientos previos.
Condiciones
Criterios
Cualquier sexoSexo biológico de los participantes elegibles para inscribirse.
A partir de 18 añosRango de edades de los participantes que pueden unirse al estudio.
Voluntarios sanos permitidosIndica si personas sanas, sin la condición que se estudia, pueden participar.
Condiciones
Patología
Disease
Pathologic Processes
Pathological Conditions, Signs and Symptoms
Criterios

Inclusion Criteria: Adults aged 18 years or older. Able to read and answer clinical vignettes in English or French. Access to a computer or smartphone with an internet connection. Provides informed consent online. Participants are expected to have at least basic medical training (e.g., medical students, residents, fellows, or practicing clinicians), although no formal verification is required. Exclusion Criteria: Individuals under 18 years of age. Inability to complete online study procedures. Prior involvement in the design, development, or evaluation of the AI system used in this study.


Plan de Estudio

Conoce todos los tratamientos administrados en este estudio, su descripción detallada y en qué consisten.
Grupos de Tratamiento
Objetivos del Estudio
Un solo grupo de intervención 

está designado en este estudio

0% de probabilidad 

de ser asignado al grupo placebo

Grupos de Tratamiento
Grupo I
Experimental
Participants in this arm will complete the same clinical case vignettes as the control group. For each case, they will receive a suggested diagnosis generated by a large language model (GPT-5, high-reasoning configuration), which was selected after internal benchmarking. Participants can review the AI suggestion before entering their own final diagnostic answer. No additional information, prompts, or coaching is provided. The intervention consists solely of displaying the AI-generated diagnostic suggestion during the case-solving task.

This intervention consists of displaying an AI-generated diagnostic suggestion during the clinical case-solving task. After reading each vignette, participants see the top diagnostic proposal produced by a large language model (GPT-5, high-reasoning configuration), selected after internal benchmarking. The AI suggestion appears once per vignette and cannot be requested again or modified. Participants may revise their diagnostic answer after viewing the suggestion, but they cannot return to the vignette later. No additional guidance, coaching, or interactive features are provided.
Objetivos del Estudio
Objetivos Primarios

For each participant, proportion of vignettes where the correct main diagnosis is included in the participant's final top-3 diagnoses. Compare final top-3 accuracy between the AI arm (after AI suggestions) and the control arm (no AI). Percentage of correctly diagnosed cases (top-3).

Centros del Estudio

Estos son los hospitales, clínicas o centros de investigación donde se lleva a cabo el estudio. Puedes encontrar la ubicación más cercana a ti y su estado de reclutamiento.
Este estudio tiene una ubicación
Reclutando
Lille University Hospital (online study)Lille, FranceVer ubicación

Reclutando
1 Centros de Estudio