Оптимизация сегментов данных и количества ядер для определения популярности казахских слов с помощью apache spark

Авторы

  • М. Мералиев Suleyman Demirel University
  • К. Орынбекова Suleyman Demirel University
  • А. Таласбек Suleyman Demirel University
  • Д. Карибоз Suleyman Demirel University
  • A. Исабек Suleyman Demirel University

DOI:

https://doi.org/10.51301/vest.su.2021.i3.06

Ключевые слова:

Apache Spark, RDD, расчленение данных, NLP, MapReduce парадигма.

Аннотация

Казахский язык является сложным агглютинативным языком. В данной работе мы использовали Apache Spark для оптимизации алгоритма выявления самых часто используемых слов в трех популярных казахских произведений. Основная цель заключалась в том, чтобы найти лучшую скорость вычислений, оптимизируя количество сегментов данных для определенного количества ядер. Данные были поделены на несколько сегментов и вычисления были выполнены на кластере с разным количеством ядер. Результаты показали, что скорость вычисления прямо зависит от количества сегментов данных.

Загрузки

Опубликован

2021-06-30

Как цитировать

Мералиев, М. . . . ., Орынбекова, К. ., Таласбек, А. . . . . . . . . . . . . ., Карибоз, Д. . . . ., & Исабек A. . . . . . . . . . . (2021). Оптимизация сегментов данных и количества ядер для определения популярности казахских слов с помощью apache spark. Engineering Journal of Satbayev University, 143(3), 39–42. https://doi.org/10.51301/vest.su.2021.i3.06

Выпуск

Раздел

Физико-математические науки