Генерація структурованих радіологічних звітів за даними МРТ мозку на основі заморожених ембеддингів SigLIP2
DOI:
https://doi.org/10.18372/1990-5548.88.20960Ключові слова:
медична візуалізація, генерація звітів, МРТ головного мозку, SigLIP2, GPT-2, трансферне навчання, few-shot learningАнотація
Автоматична генерація клінічних звітів за медичними зображеннями є актуальним завданням, здатним знизити навантаження на лікарів-рентгенологів та стандартизувати документацію. У цій роботі досліджується підхід до генерації структурованих звітів за даними МРТ головного мозку з використанням попереднього мультимодальної моделі SigLIP2 в якості екстрактора ознак. Ми пропонуємо архітектуру, в якій візуальні ембеддінги, отримані із замороженого SigLIP2, проектуються у простір уявлень мовної моделі GPT-2 для подальшої генерації тексту. Експерименти проведені на відкритому датасеті BIOSE MRI [1], що містить 34 пари "МРТ-зображення + клінічний звіт". Показано, що запропонований підхід дозволяє генерувати семантично осмислені звіти, досягаючи якості, порівнянної з більш складними архітектурами, за значно менших обчислювальних витрат. Додатково досліджено вплив попереднього SigLIP2 на завдання класифікації (версія Brain3-Anomaly-SigLIP2) на якість генерації. Результати демонструють потенціал використання заморожених vision енкодерів у медичних генеративних завданнях в умовах обмежених даних.
Посилання
T. Noor Rahman, T. Paul, T. Zarin Tasnim, et al. “BIOSE MRI: A Multimodal Brain MRI Dataset with Clinical Findings for Neuroimaging Research,” Mendeley Data, vol. 2, 2025. https://doi.org/10.17632/9mcp5pbtbr.2
Z. Wang, Z. Wu, D. Agarwal, and J. Sun, “MedCLIP: Contrastive learning from unpaired medical images and text,” In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, pp. 3876–3887. https://doi.org/10.18653/v1/2022.emnlp-main.256
A. Radford, J. W. Kim, C. Hallacy, et al., “Learning transferable visual models from natural language supervision,” In International Conference on Machine Learning, 2021, pp. 8748–8763. PMLR.
Y. Zhang, H. Jiang, Y. Miura, C. D. Manning, and C. P. Langlotz, “Contrastive Learning of Medical Visual Representations from Paired Images and Text,” In Machine Learning for Healthcare (MLHC), pp. 123–138, 2023.
S. C. Huang, L. Shen, M. P. Lungrenand S. Yeung, “GLoRIA: A multimodal global-local representation learning framework for label-efficient medical image recognition,” In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 3942–3951. https://doi.org/10.1109/ICCV48922.2021.00391
X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer, (2023). “Sigmoid loss for language image pre-training,” In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). https://doi.org/10.1109/ICCV51070.2023.01100
Google Research. (2024). SigLIP2: Improved Vision-Language Pretraining with Dense Features. Technical Report.
Hugging Face. (2025). Brain3-Anomaly-SigLIP2: Fine-tuned classification model for brain anomalies. https://huggingface.co/models
S. C. Huang, L. Shen, M. P. Lungren, S. Yeung, “GLoRIA: A multimodal global-local representation learning framework for label-efficient medical image recognition,” In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 3942–3951. https://doi.org/10.1109/ICCV48922.2021.00391
K. You, J. Gu, J. Ham, et al., “CXR-CLIP: Toward large scale chest x-ray language-image pre-training,” In International Conference on Medical Image Computing and Computer-Assisted Intervention, 2023, pp. 101–111. Springer. https://doi.org/10.1007/978-3-031-43895-0_10
C. Zhang, et al., (2023). “MEDBind: Unifying Language and Multimodal Medical Data Embeddings,” In Medical Image Computing and Computer Assisted Intervention, – MICCAI 2024. Springer.
MedVAG: Medical Visual Answer Generation, 2024, Technical Report.
AIM-X: Attention-based Interpretable Medical Report Generation, 2024, Technical Report.
AutoRG-Brain: Automated Report Generation for Brain MRI, 2024, Technical Report.
I. Lopez, F. N. Haredasht, K. Caoili, et al., (2025). Embedding-Driven Diversity Sampling to Improve Few-Shot Synthetic Data Generation. arXiv preprint arXiv:2501.11199.
E. Frayling, J. Lever, and G. McDonald, (2024). Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records. arXiv preprint arXiv:2403.08664.
A. E. Johnson, T. J. Pollard, N. R. Greenbaum, et al. (2019). MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs. arXiv preprint arXiv:1901.07042. https://doi.org/10.1038/s41597-019-0322-0
T. Noor Rahman, T. Paul, T. Zarin Tasnim, et al., (2025). BIOSE MRI: A Multimodal Brain MRI Dataset with Clinical Findings for Neuroimaging Research. Mendeley Data, V2. https://doi.org/10.17632/9mcp5pbtbr.2
A. Radford, J. Wu, R. Child, et al., (2019). Language models are unsupervised multitask learners. OpenAI Blog.
I. Loshchilov, and F. Hutter, (2018). Decoupled weight decay regularization. In ICLR.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Науковий журнал "Електроніка та системи управління" дотримується принципів відкритого доступу (Open Access) та забезпечує вільний, негайний і постійний доступ до всіх опублікованих матеріалів без фінансових, технічних або юридичних обмежень для читачів.
Усі статті публікуються у відкритому доступі відповідно до ліцензії Creative Commons Attribution 4.0 International (CC BY 4.0).
Авторські права
Автори, які публікують свої роботи в журналі ""Електроніка та системи управління":
-
зберігають за собою авторські права на свої публікації;
-
надають журналу право на перше опублікування статті;
-
погоджуються на поширення матеріалів за ліцензією CC BY 4.0;
-
мають право повторно використовувати, архівувати та поширювати свої роботи (у тому числі в інституційних та тематичних репозитаріях) за умови посилання на первинну публікацію в журналі.




