Порівняльний аналіз побудови графових представлень на основі великих мовних моделей для предметно-специфічних документів
DOI:
https://doi.org/10.18372/1990-5548.88.20970Ключові слова:
інтелектуальний аналіз тексту, обробка природної мови, текстові ембединг-подання, графове представлення, машинне навчання, великі мовні моделі, RAGАнотація
Останні досягнення у сфері великих мовних моделей суттєво покращили розуміння природної мови та розширили можливості їх застосування в широкому спектрі предметних областей. Проте вузькоспеціалізовані галузі, зокрема право та медицина, і надалі залишаються складними для опрацювання, оскільки їхні документи часто характеризуються складною структурою, предметно-специфічною термінологією та щільними логічними залежностями. За таких умов великі мовні моделі можуть припускатися помилок, якщо важлива структурна інформація не зберігається явно в поданні документа. Для подолання цього обмеження запропоновано новий підхід до декомпозиції документів у графові представлення, що дає змогу точніше відображати структурні та семантичні зв’язки в межах складних текстів. Розроблено метод опрацювання неструктурованих юридичних документів українського домену з використанням конвеєра декомпозиції на основі великої мовної моделі, який перетворює їх на структуровані графові представлення, здатні посилювати контекстний пошук і підтримувати retrieval-augmented generation. Запропонований метод покращує розуміння документів завдяки збереженню ключових контекстуальних залежностей і підвищенню якості представлення юридичних знань у подальших прикладних завданнях.
Посилання
Bryan Perozzi, Rami Al-Rfou, Steven Skiena, DeepWalk: Online Learning of Social Representations, in Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 701–710, 2014. https://doi.org/10.1145/2623330.2623732
Aditya Grover, Jure Leskovec, node2vec: Scalable Feature Learning for Networks, in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 855–864, 2016. https://doi.org/10.1145/2939672.2939754
Thomas N. Kipf, Max Welling, Semi-Supervised Classification with Graph Convolutional Networks, in International Conference on Learning Representations (ICLR), 2017.
William L. Hamilton, Rex Ying, Jure Leskovec, Inductive Representation Learning on Large Graphs, in Advances in Neural Information Processing Systems 30 (NeurIPS 2017), 2017.
Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, Yoshua Bengio, Graph Attention Networks, in International Conference on Learning Representations (ICLR), 2018.
Rex Ying, Ruining He, Kaifeng Chen, Pong Eksombatchai, William L. Hamilton, Jure Leskovec, Graph Convolutional Neural Networks for Web-Scale Recommender Systems, in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2018. https://doi.org/10.1145/3219819.3219890
Ziniu Hu, Yuxiao Dong, Kuansan Wang, Yizhou Sun, Heterogeneous Graph Transformer, in Proceedings of The Web Conference 2020, pp. 2704–2710, 2020. https://doi.org/10.1145/3366423.3380027
Fenxiao Chen, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo, Graph Representation Learning: A Survey, IEEE Access, vol. 8, pp. 211799–211823, 2020.
Nuo Xu, Pinghui Wang, Long Chen, Li Pan, Xiaoyan Wang, Junzhou Zhao, Distinguish Confusing Law Articles for Legal Judgment Prediction, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 3086–3095, 2020. https://doi.org/10.18653/v1/2020.acl-main.280
Qian Zhao, Tong Gao, Shanshan Zhou, Dongping Li, Yanyan Wen, Legal Judgment Prediction via Heterogeneous Graphs and Knowledge of Law Articles, Applied Sciences, vol. 12, no. 5, article 2531, 2022. https://doi.org/10.3390/app12052531
Farid Ariai, Gianluca Demartini, Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges, ACM Computing Surveys, 2024.
Hassan S. Al Khatib, Subash Neupane, Harish Kumar Manchukonda, Noorbakhsh Amiri Golilarz, Sudip Mittal, Amin Amirlatifi, Shahram Rahimi, Patient-Centric Knowledge Graphs: A Survey of Current Methods, Challenges, and Applications, Frontiers in Artificial Intelligence, vol. 7, 2024. https://doi.org/10.3389/frai.2024.1388479
Zheng Liu, Xiaohan Li, Hao Peng, Lifang He, Philip S. Yu, Heterogeneous Similarity Graph Neural Network on Electronic Health Records, 2021. https://doi.org/10.1109/BigData50022.2020.9377795
Maya Rotmensch, Yoni Halpern, Amr Tlimat, Steven Horng, David Sontag, Learning a Health Knowledge Graph from Electronic Medical Records, Scientific Reports, vol. 7, article 5994, 2017. https://doi.org/10.1038/s41598-017-05778-z
Hejie Cui, Jiaying Lu, Ran Xu, Shiyu Wang, Wenjing Ma, Yue Yu, Shaojun Yu, Xuan Kan, Chen Ling, Liang Zhao, Zhaohui S. Qin, Joyce C. Ho, Tianfan Fu, Jing Ma, Mengdi Huai, Fei Wang, Carl Yang, A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises, Journal of Biomedical Informatics, 2025. https://doi.org/10.1016/j.jbi.2025.104861
Yanjun Gao, Ruizhe Li, John Caskey, Dmitriy Dligach, Timothy Miller, Matthew M. Churpek, Majid Afshar, Leveraging Medical Knowledge Graphs Into Large Language Models for Diagnosis Prediction: Design and Application Study, JMIR AI, vol. 4, article e58670, 2025. https://doi.org/10.2196/58670
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Науковий журнал "Електроніка та системи управління" дотримується принципів відкритого доступу (Open Access) та забезпечує вільний, негайний і постійний доступ до всіх опублікованих матеріалів без фінансових, технічних або юридичних обмежень для читачів.
Усі статті публікуються у відкритому доступі відповідно до ліцензії Creative Commons Attribution 4.0 International (CC BY 4.0).
Авторські права
Автори, які публікують свої роботи в журналі ""Електроніка та системи управління":
-
зберігають за собою авторські права на свої публікації;
-
надають журналу право на перше опублікування статті;
-
погоджуються на поширення матеріалів за ліцензією CC BY 4.0;
-
мають право повторно використовувати, архівувати та поширювати свої роботи (у тому числі в інституційних та тематичних репозитаріях) за умови посилання на первинну публікацію в журналі.




