
R2I Benchmark™
Продуктовые бенчмарки AGI Labs Research Group
R2I Benchmark™: Как оценивают способность ИИ понимать отзывы клиентов
R2I Benchmark™ (RawText-to-Insight) — это методика оценки того, насколько хорошо языковые модели ИИ могут анализировать обычные отзывы пользователей и превращать их в полезную бизнес-информацию. Разработанный исследовательским подразделением AGI Labs, этот инструмент проверяет важнейший для современного бизнеса навык — умение работать с "сырыми" текстовыми данными без предварительной обработки.
Как это работает на практике
В рамках тестирования были выбраны пять современных языковых моделей: O3, Grok, Google Gemini 2.0 Flash, Claude и Deepseek R1. Им дали одинаковое задание — проанализировать 200 реальных отзывов покупателей о юбке-шортах и подготовить структурированный отчет с выделением основных достоинств и недостатков товара.
Лучшая модель
Наилучший баланс точности и качества анализа
Наиболее точная
Только 2 некорректно категоризированных отзыва
Требует доработки
Более 30 некорректно категоризированных отзывов
Критерий оценки | Модель DeepSeek | Модель o3-mini | Модель Grok 3 | Модель Google Gemini 2.0 | Модель Claude 3.7 |
---|---|---|---|---|---|
Корректность категоризации | 90% | 95% | 45% | 85% | 80% |
Точность распределения ID | 85% | 90% | 30% | 90% | 75% |
Качество инсайтов | 90% | 85% | 50% | 80% | 85% |
Итоговая оценка | 88% | 90% | 42% | 85% | 80% |
Сравнение производительности
Точность категоризации
Точность распределения ID
Качество инсайтов
Обзор ключевых проблем
Модель | Дублирование ID | Некорректные категории | Точность ключевых ID | Итоговая оценка |
---|---|---|---|---|
O3 O3 | 0 дубликатов | 2 несоответствий | 5/5 верно | 90% |
G Grok | 3 дубликатов | 30 несоответствий | 0/5 верно | 42% |
G Google Gemini 2.0 Flash | 0 дубликатов | 4 несоответствий | 5/5 верно | 85% |
C Claude | 15 дубликатов | 9 несоответствий | 5/5 верно | 80% |
D Deepseek R1 | 13 дубликатов | 7 несоответствий | 5/5 верно | 88% |
Итоги
Точность категоризации:
Лучший результат: O3 (95%) — почти не ошибалась, всё четко разложила по полочкам. Худший результат: Grok (45%) — путала положительные отзывы с проблемами, из-за чего её анализ нельзя доверять для серьезных решений.
Точность распределения отзывов по категориям:
Лучшие: O3 и Google Gemini 2.0 Flash (по 90%) — всё сделали точно, ничего не упустили и не перепутали. Худший: Grok (30%) — пропустила кучу важных отзывов, а те, что взяла, часто отнесла не туда. Для бизнеса это провал, потому что из-за таких ошибок можно не понять, что реально не так с товаром.
Глубина инсайтов:
Лидер: Deepseek R1 (90%) — дал подробные советы, которые можно сразу использовать, например, как доработать юбку-шорты. Отстающий: Grok (50%) — сказал что-то общее, типа "есть проблемы с качеством", но без деталей и идей, что с этим делать.
Следование инструкциям:
Лучший: O3 (95%) — всё по инструкции, никаких отклонений. Хуже всех: Grok (70%) и Claude (75%) — то форму отчета меняли, то повторяли номера, то пропускали части задания. Из-за этого их отчеты менее удобны для работы.
Итоговый вывод:
Топ: O3 (93%) — идеально разобралась в отзывах, всё точно и с толковыми выводами. Аутсайдер: Grok (59%) — слишком много ошибок, особенно с категориями и номерами отзывов. Пока её рано использовать для серьезной аналитики.