MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs

Wu, Juncheng; Deng, Wenlong; Li, Xingxuan; Liu, Sheng; Mi, Taomian; Peng, Yifan; Xu, Ziyang; Liu, Yi; Cho, Hyunjin; Choi, Chang-In; Cao, Yihan; Ren, Hui; Li, Xiang; Li, Xiaoxiao; Zhou, Yuyin

Computer Science > Computation and Language

arXiv:2504.00993 (cs)

[Submitted on 1 Apr 2025 (v1), last revised 4 Apr 2025 (this version, v2)]

Title:MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs

Authors:Juncheng Wu, Wenlong Deng, Xingxuan Li, Sheng Liu, Taomian Mi, Yifan Peng, Ziyang Xu, Yi Liu, Hyunjin Cho, Chang-In Choi, Yihan Cao, Hui Ren, Xiang Li, Xiaoxiao Li, Yuyin Zhou

View PDF HTML (experimental)

Abstract:Medical tasks such as diagnosis and treatment planning require precise and complex reasoning, particularly in life-critical domains. Unlike mathematical reasoning, medical reasoning demands meticulous, verifiable thought processes to ensure reliability and accuracy. However, there is a notable lack of datasets that provide transparent, step-by-step reasoning to validate and enhance the medical reasoning ability of AI models. To bridge this gap, we introduce MedReason, a large-scale high-quality medical reasoning dataset designed to enable faithful and explainable medical problem-solving in large language models (LLMs). We utilize a structured medical knowledge graph (KG) to convert clinical QA pairs into logical chains of reasoning, or ``thinking paths'', which trace connections from question elements to answers via relevant KG entities. Each path is validated for consistency with clinical logic and evidence-based medicine. Our pipeline generates detailed reasoning for various medical questions from 7 medical datasets, resulting in a dataset of 32,682 question-answer pairs, each with detailed, step-by-step explanations. Experiments demonstrate that fine-tuning with our dataset consistently boosts medical problem-solving capabilities, achieving significant gains of up to 7.7% for DeepSeek-Ditill-8B. Our top-performing model, MedReason-8B, outperforms the Huatuo-o1-8B, a state-of-the-art medical reasoning model, by up to 4.2% on the clinical benchmark MedBullets. We also engage medical professionals from diverse specialties to assess our dataset's quality, ensuring MedReason offers accurate and coherent medical reasoning. Our data, models, and code is available at this https URL.

Comments:	18 pages, 11 figures, 6 tables. Project page: this https URL
Subjects:	Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2504.00993 [cs.CL]
	(or arXiv:2504.00993v2 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2504.00993

Submission history

From: Juncheng Wu [view email]
[v1] Tue, 1 Apr 2025 17:31:44 UTC (22,232 KB)
[v2] Fri, 4 Apr 2025 18:29:18 UTC (22,232 KB)

Computer Science > Computation and Language

Title:MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators