Американская IT-компания OpenAI представила новую версию языковой модели с генеративным искусственным интеллектом GPT-4o. Она работает с речью, текстом и видео. В компании отметили, что GPT-4o в среднем реагирует на аудио за 320 миллисекунд, что сравнимо со временем реакции человека в разговоре.
Модель поддерживается более чем на 50 языках, в том числе на русском. Доступ к голосовым функциям в ближайшие недели появится только у «небольшой группы доверенных партнеров», а в июне — у платных подписчиков.
В случае с GPT-4o мы обучили единую новую модель сквозному анализу текста, изображения и аудио; это означает, что все входные и выходные данные обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o — наша первая модель, сочетающая в себе все эти возможности, мы все еще только начинаем изучать возможности этой модели и ее ограничения.
OpenAI
Напомним, что в апреле OpenAI открыла свободный доступ к чат-боту с генеративным искусственным интеллектом ChatGPT. Чтобы воспользоваться программой регистрация больше не требуется.