Generating Structured Radiological Reports from Brain MRI Data Based on SigLIP2 Frozen Embeddings

Андрій Володимирович Шеруда

doi:10.18372/1990-5548.88.20960

Автор(и)

Андрій Володимирович Шеруда Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

DOI:

https://doi.org/10.18372/1990-5548.88.20960

Ключові слова:

медична візуалізація, генерація звітів, МРТ головного мозку, SigLIP2, GPT-2, трансферне навчання, few-shot learning

Анотація

Автоматична генерація клінічних звітів за медичними зображеннями є актуальним завданням, здатним знизити навантаження на лікарів-рентгенологів та стандартизувати документацію. У цій роботі досліджується підхід до генерації структурованих звітів за даними МРТ головного мозку з використанням попереднього мультимодальної моделі SigLIP2 в якості екстрактора ознак. Ми пропонуємо архітектуру, в якій візуальні ембеддінги, отримані із замороженого SigLIP2, проектуються у простір уявлень мовної моделі GPT-2 для подальшої генерації тексту. Експерименти проведені на відкритому датасеті BIOSE MRI [1], що містить 34 пари "МРТ-зображення + клінічний звіт". Показано, що запропонований підхід дозволяє генерувати семантично осмислені звіти, досягаючи якості, порівнянної з більш складними архітектурами, за значно менших обчислювальних витрат. Додатково досліджено вплив попереднього SigLIP2 на завдання класифікації (версія Brain3-Anomaly-SigLIP2) на якість генерації. Результати демонструють потенціал використання заморожених vision енкодерів у медичних генеративних завданнях в умовах обмежених даних.

Біографія автора

Андрій Володимирович Шеруда , Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Аспірант

Кафедра інформаційних систем

Факультет інформатики та обчислювальної техніки

Посилання

T. Noor Rahman, T. Paul, T. Zarin Tasnim, et al. “BIOSE MRI: A Multimodal Brain MRI Dataset with Clinical Findings for Neuroimaging Research,” Mendeley Data, vol. 2, 2025. https://doi.org/10.17632/9mcp5pbtbr.2

Z. Wang, Z. Wu, D. Agarwal, and J. Sun, “MedCLIP: Contrastive learning from unpaired medical images and text,” In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, pp. 3876–3887. https://doi.org/10.18653/v1/2022.emnlp-main.256

A. Radford, J. W. Kim, C. Hallacy, et al., “Learning transferable visual models from natural language supervision,” In International Conference on Machine Learning, 2021, pp. 8748–8763. PMLR.

Y. Zhang, H. Jiang, Y. Miura, C. D. Manning, and C. P. Langlotz, “Contrastive Learning of Medical Visual Representations from Paired Images and Text,” In Machine Learning for Healthcare (MLHC), pp. 123–138, 2023.

S. C. Huang, L. Shen, M. P. Lungrenand S. Yeung, “GLoRIA: A multimodal global-local representation learning framework for label-efficient medical image recognition,” In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 3942–3951. https://doi.org/10.1109/ICCV48922.2021.00391

X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer, (2023). “Sigmoid loss for language image pre-training,” In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). https://doi.org/10.1109/ICCV51070.2023.01100

Google Research. (2024). SigLIP2: Improved Vision-Language Pretraining with Dense Features. Technical Report.

Hugging Face. (2025). Brain3-Anomaly-SigLIP2: Fine-tuned classification model for brain anomalies. https://huggingface.co/models

S. C. Huang, L. Shen, M. P. Lungren, S. Yeung, “GLoRIA: A multimodal global-local representation learning framework for label-efficient medical image recognition,” In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 3942–3951. https://doi.org/10.1109/ICCV48922.2021.00391

K. You, J. Gu, J. Ham, et al., “CXR-CLIP: Toward large scale chest x-ray language-image pre-training,” In International Conference on Medical Image Computing and Computer-Assisted Intervention, 2023, pp. 101–111. Springer. https://doi.org/10.1007/978-3-031-43895-0_10

C. Zhang, et al., (2023). “MEDBind: Unifying Language and Multimodal Medical Data Embeddings,” In Medical Image Computing and Computer Assisted Intervention, – MICCAI 2024. Springer.

MedVAG: Medical Visual Answer Generation, 2024, Technical Report.

AIM-X: Attention-based Interpretable Medical Report Generation, 2024, Technical Report.

AutoRG-Brain: Automated Report Generation for Brain MRI, 2024, Technical Report.

I. Lopez, F. N. Haredasht, K. Caoili, et al., (2025). Embedding-Driven Diversity Sampling to Improve Few-Shot Synthetic Data Generation. arXiv preprint arXiv:2501.11199.

E. Frayling, J. Lever, and G. McDonald, (2024). Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records. arXiv preprint arXiv:2403.08664.

A. E. Johnson, T. J. Pollard, N. R. Greenbaum, et al. (2019). MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs. arXiv preprint arXiv:1901.07042. https://doi.org/10.1038/s41597-019-0322-0

T. Noor Rahman, T. Paul, T. Zarin Tasnim, et al., (2025). BIOSE MRI: A Multimodal Brain MRI Dataset with Clinical Findings for Neuroimaging Research. Mendeley Data, V2. https://doi.org/10.17632/9mcp5pbtbr.2

A. Radford, J. Wu, R. Child, et al., (2019). Language models are unsupervised multitask learners. OpenAI Blog.

I. Loshchilov, and F. Hutter, (2018). Decoupled weight decay regularization. In ICLR.

Генерація структурованих радіологічних звітів за даними МРТ мозку на основі заморожених ембеддингів SigLIP2

Автор(и)

DOI:

Ключові слова:

Анотація

Біографія автора

Андрій Володимирович Шеруда , Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

##plugins.block.developedBy.blockTitle##

Мова

Інформація

Подати статтю

Logo