Підходи до попереднього оброблення графу сумісної зустрічальності термів в методі острівної кластеризації текстів
DOI:
https://doi.org/10.18372/2073-4751.4.12841Ключові слова:
кластеризація, острівна кластеризація, апроксимація графу, попереднє оброблення графуАнотація
В статті запропоновано три нових підходи до попереднього оброблення графу сумісноїзустрічальності термів в методі острівної кластеризації текстів. Визначено алгоритми, які реалізують дані підходи. Проведено тестування точності та швидкості виконання острівної кластеризації текстів з використанням запропонованих підходівПосилання
Information explosion [Електронний ресурс]. – Режим доступу:https://en.oxforddictionaries.com/definition/i
nformation_explosion. – Назва з екрану. – (Дата звернення: 15.12.2017).
Gantz J., Reinsel D. The digital universe in 2020: Big data bigger digital shadows and biggest growth in the far east //IDC iView: IDC Anal. Future. – 2012. – №2007. – С. 1-16.
Berry M.W. Survey of Text Mining // Springer. – 2003.
Шмулевич М.М., Киселев М.В., Пивоваров В.С. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к аналізу тематической структуры новостного потока, а также ее динамики // Интернет-математика 2005. – 2005. –С. 412-435.
Шмулевич М. М. Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен
объектов и последующем построении графов совместной встречаемости ключевых термов : дис. канд. фіз.-мат. наук / Шмулевич Марк Михайлович – Москва, 2009. – 120 с.
Spielman D.A., Srivastava N. Graph sparsification by effective resistances // Symposium on Theory of Computing 2004. – 2004. – С.81-90.
Ghosh A., Boyd S., Saberi A. Minimizing effective resistance of a graph // 17th International Symposium on
Mathematical Theory of Networks and Systems. – 2006. – С.1185-1196.
BBC News [Електронний ресурс]. – Режим доступу:
http://www.bbc.com/news. – Назва з екрану. – (Дата звернення: 15.11.2017).
Reuters-21578 [Електронний ресурс]. – Режим доступу: http://www.daviddlewis.com/resources/testc
ollections/reuters21578/. – Назва з екрану. – (Дата звернення: 13.11.2017).
Template Method / E.Gamma, R. Helm, R. Johnson, J. Vlissides // Design Patterns / E.Gamma, R. Helm, R. Johnson, J. Vlissides., 1994. – С. 325–330.
The Stanford CoreNLP Natural Language Processing Toolkit / [C. D. Manning, M. Surdeanu, J. Bauer та ін.] //
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations / [C. D. Manning, M. Surdeanu, J. Bauer та ін.]., 2014. – С. 55–60.
SimpleNetNlp [Електронний ресурс]. – Режим доступу: https://github.com/yakivyusin/SimpleNetNlp
. – Назва з екрану. – (Дата звернення: 15.11.2017).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Науковий журнал дотримується принципів відкритого доступу (Open Access) та забезпечує вільний, негайний і постійний доступ до всіх опублікованих матеріалів без фінансових, технічних або юридичних обмежень для читачів.
Усі статті публікуються у відкритому доступі відповідно до ліцензії Creative Commons Attribution 4.0 International (CC BY 4.0).
Авторські права
Автори, які публікують свої роботи в журналі:
-
зберігають за собою авторські права на свої публікації;
-
надають журналу право на перше опублікування статті;
-
погоджуються на поширення матеріалів за ліцензією CC BY 4.0;
-
мають право повторно використовувати, архівувати та поширювати свої роботи (у тому числі в інституційних та тематичних репозитаріях) за умови посилання на первинну публікацію в журналі.