Optimization of data segments and number of cores for defining popularity of kazakh words using apache spark

М.   Мералиев; K.    Орынбекова; А.   Таласбек; Д.   Карибоз; A.  Исабек

doi:10.51301/vest.su.2021.i3.06

Қазақ сөздерінің танымалдығын анықтау үшін apache spark пайдалану арқылы мәлімет сегменттерін және ядролардын санын оптимизациялау

Авторы

М. Мералиев Suleyman Demirel University
K. Орынбекова Suleyman Demirel University
А. Таласбек Suleyman Demirel University
Д. Карибоз Suleyman Demirel University
A. Исабек Suleyman Demirel University

##plugins.pubIds.doi.readerDisplayName##:

https://doi.org/10.51301/vest.su.2021.i3.06

Ключевые слова:

Apache Spark, RDD, Деректер бөлшектері, NLP, MapReduce парадигмасы.

Аннотация

Қазақ тілі құрылымы күрделі агглютинативті тіл. Берілген жұмыста біз Apache Spark-ті қолданыстағы үш танымал әдеби шығармаларында сөздердің жиілігін анықтау үшін қолдандық. Басты мақсат есептеудің ең жақсы жылдамдығын табу үшін берілген ядролардың саны бойынша мәліметтер сегменттерінің оңтайлы санын табу болды. Ол үшін мәліметтер бірнеше сегменттерге бөлінді және әр уақытта ядролардың саны әртүрлі кластерде өңделді. Нәтиже мәліметтер сегменттерінің саны есептеу жылдамдығына тікелей әсер ететіндігін көрсетті.

Загрузки

pdf (English)

Опубликован

2021-06-30

Как цитировать

Мералиев, М. . ., Орынбекова K. . . ., Таласбек, А. . ., Карибоз, Д. . ., & Исабек A. . (2021). Қазақ сөздерінің танымалдығын анықтау үшін apache spark пайдалану арқылы мәлімет сегменттерін және ядролардын санын оптимизациялау. Engineering Journal of Satbayev University, 143(3), 39–42. https://doi.org/10.51301/vest.su.2021.i3.06

##plugins.generic.citationStyleLanguage.style.apa##

Скачать ссылку

Выпуск

Том 143 № 3 (2021): ҚазҰЗТУ Хабаршысы

Раздел

Физика-математикалық ғылымдар

Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.

<div class="pkpfooter-son">
<a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc/4.0/80x15.png"></a><br>This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/">Creative Commons Attribution-NonCommercial 4.0 International License</a>.
</div>