Қазақ сөздерінің танымалдығын анықтау үшін apache spark пайдалану арқылы мәлімет сегменттерін және ядролардын санын оптимизациялау

Авторы

  • М. Мералиев Suleyman Demirel University
  • K. Орынбекова Suleyman Demirel University
  • А. Таласбек Suleyman Demirel University
  • Д. Карибоз Suleyman Demirel University
  • A. Исабек Suleyman Demirel University

##plugins.pubIds.doi.readerDisplayName##:

https://doi.org/10.51301/vest.su.2021.i3.06

Ключевые слова:

Apache Spark, RDD, Деректер бөлшектері, NLP, MapReduce парадигмасы.

Аннотация

Қазақ тілі құрылымы күрделі агглютинативті тіл. Берілген жұмыста біз Apache Spark-ті қолданыстағы үш танымал әдеби шығармаларында сөздердің жиілігін анықтау үшін қолдандық. Басты мақсат есептеудің ең жақсы жылдамдығын табу үшін берілген ядролардың саны бойынша мәліметтер сегменттерінің оңтайлы санын табу болды. Ол үшін мәліметтер бірнеше сегменттерге бөлінді және әр уақытта ядролардың саны әртүрлі кластерде өңделді. Нәтиже мәліметтер сегменттерінің саны есептеу жылдамдығына тікелей әсер ететіндігін көрсетті.

Загрузки

Опубликован

2021-06-30

Как цитировать

Meraliyev М. . . . . ., Orynbekova, K. . . . . . ., Talasbek А. . . . . . . . . . . . . ., Kariboz, D. . . ., & Issabek, A. . . . . . . . . . (2021). Қазақ сөздерінің танымалдығын анықтау үшін apache spark пайдалану арқылы мәлімет сегменттерін және ядролардын санын оптимизациялау. Engineering Journal of Satbayev University, 143(3), 39–42. https://doi.org/10.51301/vest.su.2021.i3.06

Выпуск

Раздел

Физика-математикалық ғылымдар