Оптимизация сегментов данных и количества ядер для определения популярности казахских слов с помощью apache spark
DOI:
https://doi.org/10.51301/vest.su.2021.i3.06Ключевые слова:
Apache Spark, RDD, расчленение данных, NLP, MapReduce парадигма.Аннотация
Казахский язык является сложным агглютинативным языком. В данной работе мы использовали Apache Spark для оптимизации алгоритма выявления самых часто используемых слов в трех популярных казахских произведений. Основная цель заключалась в том, чтобы найти лучшую скорость вычислений, оптимизируя количество сегментов данных для определенного количества ядер. Данные были поделены на несколько сегментов и вычисления были выполнены на кластере с разным количеством ядер. Результаты показали, что скорость вычисления прямо зависит от количества сегментов данных.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2021 Вестник Satbayev University
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
<div class="pkpfooter-son">
<a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc/4.0/80x15.png"></a><br>This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/">Creative Commons Attribution-NonCommercial 4.0 International License</a>.
</div>