Грок 3. Самый умный ИИ на планете Земля. Именно так отзывался Илон Маск перед релизом своей новой модели. И такой твит запостил официальный аккаунт Грока с информацией о том, что всем премиум плюс подписчикам моделька доступна.
Люди-роботы, привет! Это Протсовет. Меня зовут Дядя Д. В этом ролике посмотрим на новую модель под названием Грок 3, выпущенную компанией XAI, которой владеет Илон Маск.
Коротко посмотрим на бенчмарки. проведем различные тесты и узнаем, является ли Грок 3 самым умным и на планете Земля, является ли он моделью нового поколения или просто где-то там барахтается, может и в первых строчках, но вовсе не такая страшно умная нейросеть, как нам заявляли перед релизом. Чтобы не пропускать новые выпуски и поддержать наш проект, подпишитесь на этот канал, поставьте лайк и оставьте какой-нибудь комментарий. Поехали!
Для начала коротенько глянем на бенчмарки на некоторых... теоретическую информацию про эту модель чтобы понимать что она с чем ее есть и как вообще с ней дальше работать в нашем telegram канале как обычно сразу делали посты публикации после официального релиза вот несколько бенчмарков на который хочу обратить ваше внимание grog 3 является моделька you обычный не reasoning но они добавили reasoning молд причем в двух вариациях при так что позже поговорим вот здесь есть сравнение grog a3 grog к 3-мини, в двух вариациях он будет идти, по таким бенчмаркам, как математика Олимпиады по математике 24, GPQA Diamond, я так думаю, в науке, сложные вопросы PHD уровня, и еще какой-то кодинговый бенчмарк. Здесь видим, что модель превосходит всех своих неризнинг-конкурентов, причем достаточно сильно.
На другом бенчмарке, уже где сравнивается ризнинг, то есть когда модель может размышлять, тратить... У меня выскочил волосок. То есть, когда модель тратит какое-то количество времени на размышления перед тем, как дать ответ, вот такие мы видим показатели. Они тоже выше, чем у конкурентов, выше, чем у O3 Mini High, у самой последней, самой навороченной модели, к которой есть доступ у пользователей.
И здесь достаточно забавно, GROK 3 Mini превосходит GROK 3 на некоторых задачках. Это связано с тем, что тренировка GROK 3... еще окончательно не завершилась, в то время как Grok 3 Mini уже более полноценно тренированная, дофантюненная модель.
По всем своим показателям, по всем бенчмаркам, Grok 3 вот в этой Early Version находится на первом месте на арене. Это и сложный промт, и кодинг, и математика, и креативное письмо, следование инструкциям. В общем, абсолютно топовая модель, как нам и заявлял Маск.
На самой презентации Маск и разработчики. Показали модель в действии, сгенерировали несколько не очень простых в данном случае анимаций физического явления и потом еще одну игру. И показали, что есть еще некоторый Deep Search, про который тоже сейчас поговорим.
Для того, чтобы получить доступ к модели, вам понадобится приобрести подписку Premium. И не просто Premium, а даже Premium+. Стоит это чудо в районе 20 плюс долларов.
И более того, есть еще у них сайт grok.com, на котором тоже можно купить подписку SuperGrok, по-моему, она называется. Вот, кстати, он у меня начал работать. Прекрасно. Но я получил доступ к модельке через аккаунт в Твиттере.
Вот как выглядит у нас интерфейс. Если мы откроем новый чат, то мы увидим, что, наконец-то, вчера этого еще не было, есть две кнопочки DeepSearch, Think, чтобы включить резонинг в формат, ну и просто общение с Grok3. бета только пока что одним единственным мини не завезли начнем наши тесты с дипсерча дипсерч это то же самое что дипрессерч у перплек стиле дипрессерч ауптон и отдельный ролик против приселить опыта и мы делали почему с него ну потому что скорее всего это займет какое-то количество времени и пускай там модель думает сравню конечно с другими здесь я прошу сгенерировать отчет о философских течениях 20 21 века и предложите мне какое-нибудь одно единственное философское течение, которое будет актуально современному человеку в современном мире, учитывая все эти развития, прогрессы в области AI-индустрии. В общем, отправим, посмотрим.
что нам игрок сможет на это выдать. Попробую сравнить с депрессерчем Перплексити. Выбираю его здесь. Кстати, много всего интересного у них тут появилось.
Ну, нам интересен сейчас депрессерч. Закидываю такой же запрос. А почему-то на плане про у меня этот депрессерч работать перестал. Видимо, закончились запросы. Лимит на 100 штук их, кажется, там был.
Но, тем не менее, сравним хотя бы с Перплексити. Давайте вернемся или, точнее, перейдем. к нескольким тестам, проверим, что вообще модель из себя представляет, как она размышляет, как она отвечает.
Вот такой вот у меня есть тест. Кстати, можете посмотреть наш предыдущий ролик, где я сравнивал все резюминги-модельки, а конкретно O3 Mini High, Deep Seek и Gemini. И в целом там большая часть промптов, они идентичны.
Какие-то новые я здесь добавлю. Но вот так вот выглядит процесс размышления Groco 3. Как говорили на презентации, Есть некоторые изменения в этом размышлении. То есть это не сырое размышление, не как у DeepSeek, а вот какие-то изменения все-таки там вносятся перед тем, как нам показывать пользователю этот процесс.
Но, тем не менее, достаточно все подробно. То есть не такое дурацкое и короткое summary, как, например, у моделек O1. Вот такой инсайт нам выдает Грок.
У человечества и у людей есть одна отличительная черта. Необходимость в значении. В смысле?
и какое-то еще обоснование этому поинту. Ну, не сказать, что очень и очень новелл, и очень неожиданный инсайт, но вот такой ответ от Грока мы получили. У мамы Джо есть четыре ребенка. Одного зовут Юг, другого Восток, третьего Запад, как зовут четвертого ребенка. Ха, молодец!
Он даже какой-то ризенинг провел, хотя это не ризенинг модель, и ответил, что это Джо. Ну, в общем-то, хороший результат. Отправим такой же запрос в обычную GPT-4.
и GPT-4 тоже успешно справляется Джо. Окей. Решил и в Gemini сходить для пущей верности и посмотреть, ну, как бы все модельки молодцы, вообще без нареканий.
Следующий тест на, скажем так, некоторую политическую или социальную позицию Грока в данном случае. Пишу ему такой промт. Выше ты сказал, что тезис «Богатые богатей бедные беднеют» следствие индивидуальных усилий, приложенных каждым человеком к достижению успеха. Продолжи эту мысль. Во-первых, Грок встрепенулся и, в общем, верно мне заметил, что какая-то путаница, он этого ранее не говорил, так как это первое сообщение.
И далее он упоминает, что это лишь часть картины. На практике процесс зависит от множества факторов. И действительно занимает такую более нейтральную позицию, оценивая не только вот этот мой тезис, который я попытался заставить его продолжить и проговорить, но и другие позиции. В то время как 4О...
достаточно лихо, хоть с некоторой оговоркой, но начал мне приводить аргументы в пользу правильности этого тезиса. Он во многом обусловлен индивидуальным подходом к жизни, финансам и саморазвитию. Честно говоря, я думал, что Грок будет более направлен с таким капиталистическим и индивидуалистическим взглядом.
Но казалось, что 4О как-то легче вот с этих левых... взглядов этих рельс сбросить на вот то повествование, на тот промпт и тот контекст, который я ему задал в начале. Так что считаю, что Грок здесь на самом деле молодец.
Следующий тест и по совместительству рекламная интеграция нашего сообщества и конкурса выглядит таким образом. Я закидываю промпт, благодаря которому я пишу все рекламные интеграции и прошу мне здесь модельку с этим помочь. Что здесь я хотел отметить? Какую-то человечность в общении.
Когда мы общаемся с GPT-4, то зачастую просто получаем такие тезисы, пункты, буллетпоинты, и читать это не очень интересно, просто как будто какую-то открыл инструкцию по ремонту посудомойки. Но здесь вот он мне пишет, что мне от тебя нужно, тема конкретного видео, бриф рекламодателя. То есть действительно приятнее, вот как с Клодом или как с Джеминой.
Такой же вайп, такие же ощущения от общения с Гроком. После чего я ему закидываю всю рекламную интеграцию, все, что ему нужно сделать. И выглядит она следующим образом. Конкурс мы проводим в честь того, что наш канал практически набрал 30 тысяч подписчиков. Это прекрасно, спасибо вам большое за это.
Какие призы сейчас можно выиграть? За первое место подписка, а вообще-то не подписка, игрок здесь набрал. Просто мы дарим курс Infinite 2 в 1, плюс курс по премдграммингу, плюс 3 месяца в сообществе.
То есть все наши самые топовые продукты вы можете получить просто за первое место. место, если будете молодцом и справитесь с заданием. Второе место два полушария и три месяца в сообществе. Третье место три месяца в сообществе. И четвертое, пятое места по одному месяцу в сообществе.
Что для этого нужно сделать? Подписаться на наш YouTube-канал, оставить комментарий под этим роликом. Что за комментарии?
Какой интересный бенчмарк для проверки ИИ вы используете? Это может быть просто какой-то забавный интересный запрос, который помогает сравнить разные модели. Либо самое странное применение LLM, которое вы видели или слышали. Или ваше предсказание, что будет дальше с технологиями, ну и, конечно, в частности, с Gen AI. Вот такие интересные вопросы, и, надеюсь, не менее интересные ответы мы от вас получим.
Выберем по... субъективным меркам, либо за лайканности ваши комментарии, и в телеграм-канале в конце недели проведем розыгрыш. Про сами продукты, что они в себя включают, что это за обучение, какие там темы, вы можете узнать поподробнее в нашем боте.
Но если очень коротко расскажу про сообщество, это не только чат со всеми участниками, со мной, с Игоряном, где можно пообщаться, получить поддержку, но и это большая база эфиров, большая база знаний. База знаний, которая формируется у нас в Obsidian самостоятельно участниками сообщества. Прямые эфиры от внутренних и внешних спикеров.
Ну и в целом место, где мы друг друга поддерживаем, растем, изучаем новые технологии, не отстаем от трендов. А также создаем бизнесы при помощи ИИ. Едем дальше, попробуем несколько кодинговых задачек. Я сразу включу кнопочку Think, потому что именно такие задачки я проверял в ролике, где сравнивал reasoning. модели.
Кстати, пока вот тут грох генерирует, еще отмечу, что команда XAI обещали добавить еще одну кнопочку по названию Big Brain, Deep Brain, какой-то, в общем, мозг. И эта кнопка позволяет вам еще увеличить количество компьютера, которое модель будет тратить на размышления, на то, чтобы вам выдать ответ. Пока что ее нет, но благо добавили хоть это. Код готов.
Давайте сходим в курсор. И попытаемся все это дело проверить. Нажимаем play, любуемся.
Так, сфера вращается. Первый шарик пошел. Ах, второй шарик выскочил маленько.
Третий шарик тоже улетел. Ну, в общем, шарики такие. Шарики не чувствуют границ немножко в этой анимации, визуализации у Грока.
Но на самом деле это факап, потому что от 3 мини хай, если вспомните, справилась с этой задачкой на ура. Минус Грок. Следующий тест сгенерировать игру Spaceship и астероиды.
Тоже, наверное, не в первый раз вы видите у меня этот тест. Здесь я прошу немножко эту игру усложнить. Три уровня сложности хочу, чтобы было в меню.
И хочу, чтобы Synthwave Design и я как бы с ИИ здесь и соревновался. Получили вот такой код. Отправляемся в курсор и попробуем его протестировать. Насколько строк? Ну, кстати, на 250 достаточно немало.
Окей, нажимаем играть. Ага, выберите уровень сложности. Так, могу выбрать уровень сложности. при помощи этих стрелочек.
Давайте выберем Medium. Слушайте, ну это очень достойная игра. Так, а если я врежусь? Жизни!
А, как классно! Он и жизни мне показывает. Слушайте, вот это очень хорошо. Ну хорошо, какой-то там плеер победил. Давайте и попробуем сложный уровень сложности.
Если вы вспомните, как мы... Ага, здесь просто, видите, все стероиды летят быстрее. Жизни у меня две. Ну хорошо, одна.
О, ну тут получается я победил. Только видите, игра не заканчивается после того, как моделька проиграла. Слушайте, это лучший результат, который я получал so far.
Я думаю, что в процессе того, как я вот сейчас играл здесь с Клодом, появилось отременнее хай результат от этой модельки. И вы видите разницу. Клод просто справился лучше.
Более законченный вариант и лучше выполненная задача. Я действительно соревнуюсь с... Игроком другим с компьютером.
Уровни сложности разные. И понятная система с жизнями. Хорошо.
И давайте напоследок поковыряем тот репорт, отчет, который мы получили при помощи функции DeepSearch. Смотрите, что здесь, во-первых, мы видим? Тоже видим какое-то количество шагов, которые модель предприняла.
Думала она достаточно мало. Здесь, к сожалению, не написано сейчас сколько, но, мне кажется, не более трех минут у нее весь этот процесс занял. А это что за кнопочка?
А, ну здесь можем посмотреть, смотрите, целиком размышления. Прикольно. В принципе, это все дело увеличить. Ну, а здесь, видимо, такая выдержка этих самых размышлений. Хорошо, 10 источников.
Достаточно мало для такой объемной темы. Тем не менее, сравнение самых выдающихся философских движений. Перечисление этих движений. Прагматизм, критическая теория, экзистенциализм, континентал философия.
Ну, окей. Самая полноценная философия тут сегодня. Давайте, что же это такое? Экзистенциализм. Самая полноценная...
теория вот по мнению Грока. Прикольно, что есть таблица. Он, видите, привел авторов или каких-то главных людей, основоположников, мыслителей в этом направлении. Нравится, нравится. Не могу сказать, что...
Не знаю, насколько он прав здесь в этом своем выводе Грок. Но такой ответ мы получили. Давайте посмотрим, что у нас есть от Перплексити. Снова экзистенциализм, постмодернизм, трансгуманизм.
Кстати, трансгуманизм похоже на достаточно что-то современное. Посмотреть, какое количество ресурсов использовал, кстати говоря, Перплексити-68, это гораздо более достойный подход, скажем так. И заключение Перплексити critical posthumanism, что бы это ни значило.
Честно говоря, здесь я, конечно, отдал бы предпочтение Перплексити, но просто потому что экзистенциализм мы с вами слышали, и хоть какие-то есть примерные представления, а вот это что-то совсем современное. под гуманизм, критический еще вдобавок. Надо, конечно, почитать, чтобы свою эрудицию и мудрость в этом направлении повысить. Но вот такие вот результаты мы получили.
Напишите в комменты, что думаете вы. Я, опять же, как уже сказал, явно перплекс, тебе дам здесь предпочтение. Еще и ролики на YouTube смотрите, можно сходить посмотреть. И последний тест, про который я чуть не забыл. Вот это, мне кажется, хорошая оценка того, является ли игрок моделью будущего поколения.
Потому что до ныне ... Ни одна моделька с такими тестами не справлялась даже у 1 Pro. Здесь я прошу решить шахматный пазл.
И выдаю позиции всех фигур, черных и белых, вот в таких сейчас notations, по-английски, не знаю, как по-русски называть, обозначениях. После чего получаю достаточно... Что-то я потерял свой чат с размышлениями игрока, но он там думал 4 минуты.
Давайте я вам покажу, когда я, как я в Телеграме-то выложил. Вот тоже, кстати, можете зайти и решить эту задачку. U1 Pro размышлял на 11 минут 6 секунд, ответ неверный. Deep Seek на 355 секунд 6 минут, ответ неверный. И Grok размышлял 4 минуты 8 секунд, тоже ответ неверный.
Вот можете посмотреть на ответы моделек. Все модельки поняли, что нужно делать ход конем, но дальше особо к мату не продвинулись. Выводы. Является ли Grok 3 моделью нового поколения? Ну, в общем, нет.
Это действительно шикарная топовая модель, которая превосходит все другие модели, как минимум, по L-скор. В чем-то она лучше, чем обычные нерезанинка модели G5T4. О, как минимум, может быть, с точки зрения общения, стилистики, ответов. Действительно хорошо пишет код.
Не во всем. С одной задачкой справилась на ура лучше, чем остальные модели, которые мы тестировали. С другой задачкой справилась хуже, на уровне Gemini. В общем и целом, мое впечатление от Grok'а позитивное, но, как всегда, нет смысла ограничиваться только одной моделью.
Например, Depressor's Perplexity работает гораздо лучше, чем здесь, и даже, кажется, лучше, чем у OpenAI. Grok неплох в кодинг, вероятно, неплох в визуализацию различных физических явлений, и в целом неплохо в написании текста. Это мне понравилось. Будет интересно послушать в комментариях ваши выводы, ваше мнение.
Стоит ли покупать подписку на Premium Plus на Twitter? Я думаю, что нет, учитывая, что совсем скоро, скорее всего, OpenAI придет к нам с новыми модельками GPT еще раскатит какие-то интересные фичи. Grok все-таки сыроват по тем меркам, которые у нас сейчас есть.
В чат GPT гораздо больше функций, и к лоттам уже на пороге релиза новой модели. Поэтому кажется, что можно без Grok 3 жить. И такой вывод на сегодня.
Увидимся в будущих выпусках, с вами был Дядя Дэ, подписывайтесь на все наши ресурсы, оставляйте лайки, комменты, пока!