Approaches to the preliminary processing of terms co-occurrence graph in the method of island text clustering
DOI:
https://doi.org/10.18372/2073-4751.4.12841Keywords:
кластеризація, острівна кластеризація, апроксимація графу, попереднє оброблення графуAbstract
Three new approaches to the preliminary processing of terms co-occurrence graph in the method ofisland text clustering are proposed in the article. The algorithms that implement these approaches aredefined. Testing of accuracy and speed of island text clustering using the proposed approaches hasbeen carried out.References
Information explosion [Електронний ресурс]. – Режим доступу:https://en.oxforddictionaries.com/definition/i
nformation_explosion. – Назва з екрану. – (Дата звернення: 15.12.2017).
Gantz J., Reinsel D. The digital universe in 2020: Big data bigger digital shadows and biggest growth in the far east //IDC iView: IDC Anal. Future. – 2012. – №2007. – С. 1-16.
Berry M.W. Survey of Text Mining // Springer. – 2003.
Шмулевич М.М., Киселев М.В., Пивоваров В.С. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к аналізу тематической структуры новостного потока, а также ее динамики // Интернет-математика 2005. – 2005. –С. 412-435.
Шмулевич М. М. Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен
объектов и последующем построении графов совместной встречаемости ключевых термов : дис. канд. фіз.-мат. наук / Шмулевич Марк Михайлович – Москва, 2009. – 120 с.
Spielman D.A., Srivastava N. Graph sparsification by effective resistances // Symposium on Theory of Computing 2004. – 2004. – С.81-90.
Ghosh A., Boyd S., Saberi A. Minimizing effective resistance of a graph // 17th International Symposium on
Mathematical Theory of Networks and Systems. – 2006. – С.1185-1196.
BBC News [Електронний ресурс]. – Режим доступу:
http://www.bbc.com/news. – Назва з екрану. – (Дата звернення: 15.11.2017).
Reuters-21578 [Електронний ресурс]. – Режим доступу: http://www.daviddlewis.com/resources/testc
ollections/reuters21578/. – Назва з екрану. – (Дата звернення: 13.11.2017).
Template Method / E.Gamma, R. Helm, R. Johnson, J. Vlissides // Design Patterns / E.Gamma, R. Helm, R. Johnson, J. Vlissides., 1994. – С. 325–330.
The Stanford CoreNLP Natural Language Processing Toolkit / [C. D. Manning, M. Surdeanu, J. Bauer та ін.] //
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations / [C. D. Manning, M. Surdeanu, J. Bauer та ін.]., 2014. – С. 55–60.
SimpleNetNlp [Електронний ресурс]. – Режим доступу: https://github.com/yakivyusin/SimpleNetNlp
. – Назва з екрану. – (Дата звернення: 15.11.2017).
Downloads
Published
How to Cite
Issue
Section
License
The scientific journal adheres to the principles of Open Access and provides free, immediate, and permanent access to all published materials without financial, technical, or legal barriers for readers.
All articles are published in Open Access under the Creative Commons Attribution 4.0 International (CC BY 4.0) license.
Copyright
Authors who publish their works in the journal:
-
retain the copyright to their publications;
-
grant the journal the right of first publication of the article;
-
agree to the distribution of their materials under the CC BY 4.0 license;
-
have the right to reuse, archive, and distribute their works (including in institutional and subject repositories), provided that proper reference is made to the original publication in the journal.