Optimization of data segments and number of cores for defining popularity of kazakh words using apache spark

М.     Мералиев; К.  Орынбекова; А.              Таласбек; Д.     Карибоз; A.           Исабек

doi:10.51301/vest.su.2021.i3.06

Оптимизация сегментов данных и количества ядер для определения популярности казахских слов с помощью apache spark

Авторы

М. Мералиев Suleyman Demirel University
К. Орынбекова Suleyman Demirel University
А. Таласбек Suleyman Demirel University
Д. Карибоз Suleyman Demirel University
A. Исабек Suleyman Demirel University

DOI:

https://doi.org/10.51301/vest.su.2021.i3.06

Ключевые слова:

Apache Spark, RDD, расчленение данных, NLP, MapReduce парадигма.

Аннотация

Казахский язык является сложным агглютинативным языком. В данной работе мы использовали Apache Spark для оптимизации алгоритма выявления самых часто используемых слов в трех популярных казахских произведений. Основная цель заключалась в том, чтобы найти лучшую скорость вычислений, оптимизируя количество сегментов данных для определенного количества ядер. Данные были поделены на несколько сегментов и вычисления были выполнены на кластере с разным количеством ядер. Результаты показали, что скорость вычисления прямо зависит от количества сегментов данных.

Загрузки

pdf (English)

Опубликован

2021-06-30

Как цитировать

Мералиев, М. . . . ., Орынбекова, К. ., Таласбек, А. . . . . . . . . . . . . ., Карибоз, Д. . . . ., & Исабек A. . . . . . . . . . . (2021). Оптимизация сегментов данных и количества ядер для определения популярности казахских слов с помощью apache spark. Engineering Journal of Satbayev University, 143(3), 39–42. https://doi.org/10.51301/vest.su.2021.i3.06

Скачать ссылку

Выпуск

Том 143 № 3 (2021): Вестник КазНИТУ

Раздел

Физико-математические науки

Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.

<div class="pkpfooter-son">
<a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc/4.0/80x15.png"></a><br>This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/">Creative Commons Attribution-NonCommercial 4.0 International License</a>.
</div>