AGI Labs Logo

R2I Benchmark™

Продуктовые бенчмарки AGI Labs Research Group

R2I Benchmark™: Как оценивают способность ИИ понимать отзывы клиентов

R2I Benchmark™ (RawText-to-Insight) — это методика оценки того, насколько хорошо языковые модели ИИ могут анализировать обычные отзывы пользователей и превращать их в полезную бизнес-информацию. Разработанный исследовательским подразделением AGI Labs, этот инструмент проверяет важнейший для современного бизнеса навык — умение работать с "сырыми" текстовыми данными без предварительной обработки.

Как это работает на практике

В рамках тестирования были выбраны пять современных языковых моделей: O3, Grok, Google Gemini 2.0 Flash, Claude и Deepseek R1. Им дали одинаковое задание — проанализировать 200 реальных отзывов покупателей о юбке-шортах и подготовить структурированный отчет с выделением основных достоинств и недостатков товара.

Лучшая модель

O3
90%Лидер рейтинга

Наилучший баланс точности и качества анализа

Наиболее точная

O3
95%Категоризация

Только 2 некорректно категоризированных отзыва

Требует доработки

Grok
42%Низкая точность

Более 30 некорректно категоризированных отзывов

Критерий оценкиМодель DeepSeekМодель o3-miniМодель Grok 3Модель Google Gemini 2.0Модель Claude 3.7
Корректность категоризации
90%95%45%85%80%
Точность распределения ID
85%90%30%90%75%
Качество инсайтов
90%85%50%80%85%
Итоговая оценка
88%90%42%85%80%

Сравнение производительности

Точность категоризации

O3
95%
Grok
45%
Google Gemini 2.0 Flash
85%
Claude
80%
Deepseek R1
90%

Точность распределения ID

O3
90%
Grok
30%
Google Gemini 2.0 Flash
90%
Claude
75%
Deepseek R1
85%

Качество инсайтов

O3
85%
Grok
50%
Google Gemini 2.0 Flash
80%
Claude
85%
Deepseek R1
90%

Обзор ключевых проблем

МодельДублирование IDНекорректные категорииТочность ключевых IDИтоговая оценка
O3
O3
0 дубликатов
2 несоответствий
5/5 верно90%
G
Grok
3 дубликатов
30 несоответствий
0/5 верно42%
G
Google Gemini 2.0 Flash
0 дубликатов
4 несоответствий
5/5 верно85%
C
Claude
15 дубликатов
9 несоответствий
5/5 верно80%
D
Deepseek R1
13 дубликатов
7 несоответствий
5/5 верно88%

Итоги

Точность категоризации:

Лучший результат: O3 (95%) — почти не ошибалась, всё четко разложила по полочкам. Худший результат: Grok (45%) — путала положительные отзывы с проблемами, из-за чего её анализ нельзя доверять для серьезных решений.

Точность распределения отзывов по категориям:

Лучшие: O3 и Google Gemini 2.0 Flash (по 90%) — всё сделали точно, ничего не упустили и не перепутали. Худший: Grok (30%) — пропустила кучу важных отзывов, а те, что взяла, часто отнесла не туда. Для бизнеса это провал, потому что из-за таких ошибок можно не понять, что реально не так с товаром.

Глубина инсайтов:

Лидер: Deepseek R1 (90%) — дал подробные советы, которые можно сразу использовать, например, как доработать юбку-шорты. Отстающий: Grok (50%) — сказал что-то общее, типа "есть проблемы с качеством", но без деталей и идей, что с этим делать.

Следование инструкциям:

Лучший: O3 (95%) — всё по инструкции, никаких отклонений. Хуже всех: Grok (70%) и Claude (75%) — то форму отчета меняли, то повторяли номера, то пропускали части задания. Из-за этого их отчеты менее удобны для работы.

Итоговый вывод:

Топ: O3 (93%) — идеально разобралась в отзывах, всё точно и с толковыми выводами. Аутсайдер: Grok (59%) — слишком много ошибок, особенно с категориями и номерами отзывов. Пока её рано использовать для серьезной аналитики.