Методи оцінки енергоефективності великих мовних моделей
DOI:
https://doi.org/10.18372/2073-4751.85.21093Ключові слова:
Green AI, великі мовні моделі, енергоефективність, LLM, benchmarkingАнотація
У статті розглядаються методи оцінки енергоефективності авторегресивних великих мовних моделей, побудованих на архітектурі трансформерів, зокрема представників сімейств Cogito, Phi-4, Mistral та RNJ-1. З огляду на стрімке зростання обчислювальної складності механізмів уваги та відповідних енергетичних витрат під час використання моделей, дослідження зосереджується на експериментальному вимірюванні споживаної потужності моделей на споживчому графічному процесорі NVIDIA RTX 3070 Ti із використанням прискорення CUDA. Запропонований підхід дозволяє кількісно оцінити середні, мінімальні та максимальні показники енергоспоживання, а також визначити відносну енергоефективність різних моделей у типових сценаріях генерації тексту. Отримані результати доцільно використовувати для подальших досліджень енергоощадного розгортання систем штучного інтелекту та підкреслюють промислову й екологічну важливість оптимізації енергоспоживання сучасних LLM. Крім того, у статті наведено ряд інших підходів щодо покращення енергоефективності LLM таких як маршрутизація запитів а також динамічна зміна потужності при розшифруванні запиту. Комплексне використання різних методологій оптимізації є важливим фактором в розробці та впровадженні нейромереж LLM.
Посилання
Green AI / R. Schwartz, J. Dodge, N. A. Smith, O. Etzioni. Communications of the ACM. 2020. Vol. 63, No. 12. P. 54–63.
E. Strubell, A. Ganesh, A. McCallum, “Energy and Policy Considerations for Deep Learning in NLP,” ACL 2019. https://aclanthology.org/P19-1355
NVIDIA Corp., “Energy Efficiency Trends in AI Inference,” NVIDIA Whitepaper, 2024. https://developer.nvidia.com
Hu et al., “LoRA: Low-Rank Adaptation of Large Language Models,” arXiv preprint, 2021. https://arxiv.org/abs/2106.09685
Hugging Face, “Optimum-Benchmark GitHub Repository,” 2025. https://github.com/huggingface/optimum-benchmark
Zhang et al., “Distributed Inference of Large Language Models: Challenges and Opportunities,” IEEE TPDS, 2024.
Li et al., “Adaptive Energy-Aware Scheduling for Distributed Transformer Inference,” ACM SoCC, 2024.
ThUnderVolt: Enabling Aggressive Voltage Underscaling and Timing Error Resilience for Energy Efficient Deep Neural Network Accelerators https://arxiv.org/abs/1802.03806
”FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance” https://openreview.net/forum?id=XUZ2S0JVJP
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Науковий журнал дотримується принципів відкритого доступу (Open Access) та забезпечує вільний, негайний і постійний доступ до всіх опублікованих матеріалів без фінансових, технічних або юридичних обмежень для читачів.
Усі статті публікуються у відкритому доступі відповідно до ліцензії Creative Commons Attribution 4.0 International (CC BY 4.0).
Авторські права
Автори, які публікують свої роботи в журналі:
-
зберігають за собою авторські права на свої публікації;
-
надають журналу право на перше опублікування статті;
-
погоджуються на поширення матеріалів за ліцензією CC BY 4.0;
-
мають право повторно використовувати, архівувати та поширювати свої роботи (у тому числі в інституційних та тематичних репозитаріях) за умови посилання на первинну публікацію в журналі.