Қазақ сөздерінің танымалдығын анықтау үшін apache spark пайдалану арқылы мәлімет сегменттерін және ядролардын санын оптимизациялау
##plugins.pubIds.doi.readerDisplayName##:
https://doi.org/10.51301/vest.su.2021.i3.06Ключевые слова:
Apache Spark, RDD, Деректер бөлшектері, NLP, MapReduce парадигмасы.Аннотация
Қазақ тілі құрылымы күрделі агглютинативті тіл. Берілген жұмыста біз Apache Spark-ті қолданыстағы үш танымал әдеби шығармаларында сөздердің жиілігін анықтау үшін қолдандық. Басты мақсат есептеудің ең жақсы жылдамдығын табу үшін берілген ядролардың саны бойынша мәліметтер сегменттерінің оңтайлы санын табу болды. Ол үшін мәліметтер бірнеше сегменттерге бөлінді және әр уақытта ядролардың саны әртүрлі кластерде өңделді. Нәтиже мәліметтер сегменттерінің саны есептеу жылдамдығына тікелей әсер ететіндігін көрсетті.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2021 VESTNIK KAZNRTU
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
<div class="pkpfooter-son">
<a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc/4.0/80x15.png"></a><br>This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/">Creative Commons Attribution-NonCommercial 4.0 International License</a>.
</div>