Оптимизация сегментов данных и количества ядер для определения популярности казахских слов с помощью apache spark

Авторы

  • М. Мералиев Suleyman Demirel University
  • К. Орынбекова Suleyman Demirel University
  • А. Таласбек Suleyman Demirel University
  • Д. Карибоз Suleyman Demirel University
  • A. Исабек Suleyman Demirel University

DOI:

https://doi.org/10.51301/vest.su.2021.i3.06

Ключевые слова:

Apache Spark, RDD, расчленение данных, NLP, MapReduce парадигма.

Аннотация

Казахский язык является сложным агглютинативным языком. В данной работе мы использовали Apache Spark для оптимизации алгоритма выявления самых часто используемых слов в трех популярных казахских произведений. Основная цель заключалась в том, чтобы найти лучшую скорость вычислений, оптимизируя количество сегментов данных для определенного количества ядер. Данные были поделены на несколько сегментов и вычисления были выполнены на кластере с разным количеством ядер. Результаты показали, что скорость вычисления прямо зависит от количества сегментов данных.

Загрузки

Опубликован

2021-06-30

Как цитировать

Meraliyev М. . . . . ., Orynbekova, K. . . . . . ., Talasbek А. . . . . . . . . . . . . ., Kariboz, D. . . ., & Issabek, A. . . . . . . . . . (2021). Оптимизация сегментов данных и количества ядер для определения популярности казахских слов с помощью apache spark. Engineering Journal of Satbayev University, 143(3), 39–42. https://doi.org/10.51301/vest.su.2021.i3.06

Выпуск

Раздел

Физико-математические науки