Microsoft и NVIDIA представили крупнейший в мире языковой ИИ

Microsoft и NVIDIA представили крупнейший в мире языковой ИИ
Компании Microsoft и NVIDIA разработали крупнейшую в мире языковую модель искусственного интеллекта Megatron-Turing Natural Language Generation. Об этом Microsoft сообщила на официальном сайте.

По словам разработчиков, MT-NLG имеет 530 миллиардов параметров, что в 3 раза превосходит существующую мощщнейшую монолитную трансформаторную языковую модель. Алгоритм состоит из 105 "слоев" и обещает высокую точность в таких задачах, как:

Понимание текста;

Определение смысла слов с несколькими значениями;

Завершение текста по смыслу;

Представление логических выводов;

Написание заключений в стиле, похожем на человеческий.

Модели искусственного интеллекта для преобразование языка в последние годы стремительно развиваются, увеличивают масштабы вычислений и становятся гораздо "умнее" в обработке текста. Они хорошо справляются с созданием диалогов, переводом, поиском по смыслу и автозаполнению благодаря постоянному увеличению параметров. Однако обучение таких моделей является сложной задачей из-за того, что уже невозможно уместить параметры даже в самую объемную аппаратную память графического процессора (GPU). К тому же, большое количество операций увеличивает время обучения.

MT-NLG удалось обучить благодаря многочисленным инновациям и достижениям в сфере ИИ. NVIDIA и Microsoft объединили современную инфраструктуру обучения с ускорением на GPU, а также передовое программное обеспечение. В результате им удалось создать систему с сотнями миллиардов опций, повысить эффективность и стабильность оптимизации.
Для обучения использовали суперкомпьютер NVIDIA Selene с 560 серверами DGX A100, каждый из которых оснащен восемью графическими процессорами A100 по 80 ГБ. Microsoft же привлекла облачную инфраструктуру Microsoft Azure NDv4. Библиотека DeepSpeed на коде PyTorch позволила разработчикам всего за месяц загрузить в ИИ более 1,5 ТБ данных из различных баз, таких как Wikipedia, PudMed, в том числе и образцы художественной литературы.

"MT-NLG — это пример того, что возможно, когда суперкомпьютеры, такие как NVIDIA Selene или Microsoft Azure NDv4, используются с прорывным программным обеспечением Megatron-LM и DeepSpeed ​​для обучения моделей искусственного интеллекта на большом языке. Качество и результаты, которые мы получили сегодня, — большой шаг вперед на пути к раскрытию всех возможностей ИИ на естественном языке", — отметила Microsoft.

Разработчики утверждают, что языковая модель хорошо справляется с возложенными на нее задачами, однако может использовать стереотипы и предубеждения, которые содержатся в загруженных данных. Другими словами, в сгенерированном тексте может появиться агрессивная лексика или оскорбительные выражения, взятые из общедоступных публикаций. Microsoft и NVIDIA пытаются это исправить.
По материалам: gogetnews
Загрузка...

Комментарии (0)

Оставить комментарий