Comparative Analysis of LLM-based Graph Represenation Construction for Domain-specific Documents

Ілля Михайлович Савенко

doi:10.18372/1990-5548.88.20970

Автор(и)

Ілля Михайлович Савенко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

DOI:

https://doi.org/10.18372/1990-5548.88.20970

Ключові слова:

інтелектуальний аналіз тексту, обробка природної мови, текстові ембединг-подання, графове представлення, машинне навчання, великі мовні моделі, RAG

Анотація

Останні досягнення у сфері великих мовних моделей суттєво покращили розуміння природної мови та розширили можливості їх застосування в широкому спектрі предметних областей. Проте вузькоспеціалізовані галузі, зокрема право та медицина, і надалі залишаються складними для опрацювання, оскільки їхні документи часто характеризуються складною структурою, предметно-специфічною термінологією та щільними логічними залежностями. За таких умов великі мовні моделі можуть припускатися помилок, якщо важлива структурна інформація не зберігається явно в поданні документа. Для подолання цього обмеження запропоновано новий підхід до декомпозиції документів у графові представлення, що дає змогу точніше відображати структурні та семантичні зв’язки в межах складних текстів. Розроблено метод опрацювання неструктурованих юридичних документів українського домену з використанням конвеєра декомпозиції на основі великої мовної моделі, який перетворює їх на структуровані графові представлення, здатні посилювати контекстний пошук і підтримувати retrieval-augmented generation. Запропонований метод покращує розуміння документів завдяки збереженню ключових контекстуальних залежностей і підвищенню якості представлення юридичних знань у подальших прикладних завданнях.

Біографія автора

Ілля Михайлович Савенко , Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Аспірант

Кафедра штучного інтелекту

Інститут прикладного системного аналізу

Посилання

Bryan Perozzi, Rami Al-Rfou, Steven Skiena, DeepWalk: Online Learning of Social Representations, in Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 701–710, 2014. https://doi.org/10.1145/2623330.2623732

Aditya Grover, Jure Leskovec, node2vec: Scalable Feature Learning for Networks, in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 855–864, 2016. https://doi.org/10.1145/2939672.2939754

Thomas N. Kipf, Max Welling, Semi-Supervised Classification with Graph Convolutional Networks, in International Conference on Learning Representations (ICLR), 2017.

William L. Hamilton, Rex Ying, Jure Leskovec, Inductive Representation Learning on Large Graphs, in Advances in Neural Information Processing Systems 30 (NeurIPS 2017), 2017.

Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, Yoshua Bengio, Graph Attention Networks, in International Conference on Learning Representations (ICLR), 2018.

Rex Ying, Ruining He, Kaifeng Chen, Pong Eksombatchai, William L. Hamilton, Jure Leskovec, Graph Convolutional Neural Networks for Web-Scale Recommender Systems, in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2018. https://doi.org/10.1145/3219819.3219890

Ziniu Hu, Yuxiao Dong, Kuansan Wang, Yizhou Sun, Heterogeneous Graph Transformer, in Proceedings of The Web Conference 2020, pp. 2704–2710, 2020. https://doi.org/10.1145/3366423.3380027

Fenxiao Chen, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo, Graph Representation Learning: A Survey, IEEE Access, vol. 8, pp. 211799–211823, 2020.

Nuo Xu, Pinghui Wang, Long Chen, Li Pan, Xiaoyan Wang, Junzhou Zhao, Distinguish Confusing Law Articles for Legal Judgment Prediction, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 3086–3095, 2020. https://doi.org/10.18653/v1/2020.acl-main.280

Qian Zhao, Tong Gao, Shanshan Zhou, Dongping Li, Yanyan Wen, Legal Judgment Prediction via Heterogeneous Graphs and Knowledge of Law Articles, Applied Sciences, vol. 12, no. 5, article 2531, 2022. https://doi.org/10.3390/app12052531

Farid Ariai, Gianluca Demartini, Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges, ACM Computing Surveys, 2024.

Hassan S. Al Khatib, Subash Neupane, Harish Kumar Manchukonda, Noorbakhsh Amiri Golilarz, Sudip Mittal, Amin Amirlatifi, Shahram Rahimi, Patient-Centric Knowledge Graphs: A Survey of Current Methods, Challenges, and Applications, Frontiers in Artificial Intelligence, vol. 7, 2024. https://doi.org/10.3389/frai.2024.1388479

Zheng Liu, Xiaohan Li, Hao Peng, Lifang He, Philip S. Yu, Heterogeneous Similarity Graph Neural Network on Electronic Health Records, 2021. https://doi.org/10.1109/BigData50022.2020.9377795

Maya Rotmensch, Yoni Halpern, Amr Tlimat, Steven Horng, David Sontag, Learning a Health Knowledge Graph from Electronic Medical Records, Scientific Reports, vol. 7, article 5994, 2017. https://doi.org/10.1038/s41598-017-05778-z

Hejie Cui, Jiaying Lu, Ran Xu, Shiyu Wang, Wenjing Ma, Yue Yu, Shaojun Yu, Xuan Kan, Chen Ling, Liang Zhao, Zhaohui S. Qin, Joyce C. Ho, Tianfan Fu, Jing Ma, Mengdi Huai, Fei Wang, Carl Yang, A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises, Journal of Biomedical Informatics, 2025. https://doi.org/10.1016/j.jbi.2025.104861

Yanjun Gao, Ruizhe Li, John Caskey, Dmitriy Dligach, Timothy Miller, Matthew M. Churpek, Majid Afshar, Leveraging Medical Knowledge Graphs Into Large Language Models for Diagnosis Prediction: Design and Application Study, JMIR AI, vol. 4, article e58670, 2025. https://doi.org/10.2196/58670

Порівняльний аналіз побудови графових представлень на основі великих мовних моделей для предметно-специфічних документів

Автор(и)

DOI:

Ключові слова:

Анотація

Біографія автора

Ілля Михайлович Савенко , Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

##plugins.block.developedBy.blockTitle##

Мова

Інформація

Подати статтю

Logo