Probabilistic Modeling in Neural Networks

так ну вот да смотрите вот почему термином которые вы произносили и которое ваш замечательный студент произносил на защите также секундочку какой из моих замечательных студентов а их там было двое вы кстати молодец у вас около 2 два студента из ваших получили флажок лучший докладчик всего была выбрана из всех скольки 4 дня до примерно 60 человек наверное вы послушали довыборы выбраны был ли 42 из них ваша и один по моему получил да да да получил задача получил приказ статью пишу на эту тему а я думаю что это отчасти связано с тем что у меня просто темы которые хорошо ложатся под этот комитет понимание комитета что таковых ну да да да артеменко себе ханович вот да двое замечательных ребят да и артёменко как раз он использовал вовсю термины и on certainty и без темик а я-то рик и так далее я пошел эти термины искать в интернете вообще и нашел страницу на википедии где это все было не очень понятно честно говоря списком описано и больше особо нечего нет и вот в этой области я ценю учебник томас ковер и joy томас elements of информация тире и там есть вот этот термин оферта нити он встречается по всему учебнику но раз шесть или восемь как-то так и ни разу не было более-менее жесткого определения и если вы например сейчас предложите терминологическую систему целую там и прямо боем ваши фанаты а если не предложите система то мы вас будем критиковать за то что вы вместо одних терминов используйте другие терминах ну сама сама сама on certain идти это информация theory то есть это вот шеншина нас к теории что согласуется с названием институция систем институт проблем передачи информации да это вот оно это ребята вот этим занимается ну вот а так вот на максим ярош разрешил экранчик отлично да я сейчас соответственно начну так так в общем смотрите сначала небольшой такой дисклеймер то есть я сегодня расскажу про в целом немного расскажу про то что делается вот с этим вот самым пресловутым set in this theme шин для в первую очередь нейросетевых моделей и более я плотно расскажу про конкретную часть onset анти меньше некоторую под задачу которая называется out of distribution detection вот я сформулирую что это такое более менее строго в рамках как раз байесовского подхода вот ну и в конце предложу некоторое такое полу строгое решение почему полу строгой тоже будет понятно которая мы вот недавно сами разработали вот но вначале что касается и писцами клео тарик я не очень большой фанат этих терминов они в вот в этом самом современных статьях по вот этому sunset in this theme шин очень часто используется людьми но тоже без всякого определения вот и я покажу как это можно в принципе определить но это не то чтобы единственное возможно определение просто есть определенные подход вещи вы можете сказать вот есть такой функционал и у него есть часть которую можно золотистыми к есть которую можно отеля тарик и все вместе это можно назвать он считал такой вот единого определения псковской сказал что я не знаю вот ну максимум вот правильно ли я понимаю что если например говорить в терминах там макая бишь по системе к это вот то что я прямо по формуле вижу вы это априорное распределение алиа тарик это правдоподобие или нет нет нет не так не так не так не так и мнимые мы это обсудим с вами но это будет где-то через полчаса сначала мы начнем с хорошо ну давайте да да хорошо смотрите я буду говорить про три вещи ну презентацию меня на английском я думаю что от никого не смущает вас до соответственно сначала поговорю в целом про on set on this theme is что я имею под этим в виду дальше поговорим как раз про всякие вероятностной модели и потом чуть более подробно поговорим про задачи out of distribution detection соответственно меня можно прерывать боль менее в любой момент вот мой доклад в целом будет не очень строгим потому что он такой немножко в канве того что происходит вот именно deeply линком unity а там все как правило не очень строго тем не менее в конце мы выйдем к чуть более строгим вещам которые может быть чуть более будут приятны для восприятия и так о чем будет речь речь идет о том что в идеальной жизни хотелось бы что и что вы если у вас есть некоторая модель которая что-нибудь предсказывает то вы также могли бы дали для вот этого предсказания предоставляет некоторую меру уверенности в этом предсказании или меру неопределенности соответственно что это может быть и какие могут быть мера неопределенности мы прямо увидим след на следующем слайде и на нескольких следующих слайдах ну в голове можно держать что например если у вас есть регрессионная задача то это может быть например стандартно склонение предсказания или как как одна из возможных мер вот если вы да вот максима как раз я вижу вот эту сигма куда чем она отличается вот у нас есть например пара терминов мат ожидания и дисперсии то есть матожидания матожидания да и у нас есть две такие два якоря два способа определения по крайней мере два способа определения матожидания это определение через интеграл лебега вот который является строгим но и имеет например такой недостаток что для распредели для каких-нибудь странных распределение типа распределениях каши но он не существует впрочем его можно приблизить чем-нибудь другим вот и есть ну какая то такая народная привязка что если у нас есть мат ожидания и дисперсии то мы имеем дело с нормальным распределением вот две две точки две точки входа вот on certainty здесь чем отличается от дисперсии от матожидание матожидания смотрите если мы говорим про задачи регрессии то на самом деле это совсем скоро будет на слайдах то ничего нет я со шляпкой этой а и со шляпкой это матожидание в точности до f со шляпкой в точности матожидания сигма с крышкой в точности стандартные отклонения но это один из вариантов потому что если мы предполагаем что вас все нормально и то вообще ничем а вот если у вас например она немножко ненормальная то там уже может быть хотеться строить какие-то доверительные интервалы они будут уже не только надо с ними нормально берем первый и второй момент чем проблема нет понимаете если у вас распределение ненормальная то моменты вам не позволяют строить первые два момента не достаточно того что построить давить на интервал поэтому да поэтому тут возникают уже некоторые особенности но мы в них особо углубляться не будем интереснее вещи будут про классификацию но я предлагаю дождаться соответствующего слайда окей вот но вопросы все очень правильные вот смотрите если вы такую вещь построили а именно вот такую некую меру неопределенность например дисперсию то у вас есть некоторое количество юфс кейсов которых она может быть полезна то есть приложений во-первых ваши модели она может говорить следующее если у нее вот это ну давайте говорить дисперсия для простоты если эта дисперсия большая в каком ну как по какому-то порогу например то вы можете то ваша модель может говорить извините и моему предсказанию в этом месте доверять нельзя я вообще отказываюсь что-либо делать отказ от классификация здесь у вас от к суда-то регрессе прямо золотые слова очень люблю эту тему и кстати еревана сюда black даже об этом писал много лет назад да я кстати не знал что про это писал юрий иванович но тема не нужно сам тебя тоже символ был специально для этого отказ от классификатор точно-точно я начинаю вспоминать да вот это очень важная тема я она безусловно в современной практике как в очевидно много где может быть нужно вот дальше у этой отказом от классификации есть конкретные под задачи которые ну такие частные случаи в частности это детектирование объектов которые вообще какие-то из другого домена которые мы не должны вообще классифицировать ни в коем случае на условно говоря если у вас есть нейронная сеть которая в себя принимает изображение то она вам от классифицирует любое изображение которое будет правильного размера правильно но при этом если она вас учит классифицировать кошек от собак а вы засунете рентген грудной клетки то она вам скажет эта кошка или собака вот вы наверное этого не хотите и хотели бы чтобы она of таких случаев говорила что вы не засунули какую-то ерунду вот вот такая есть конкретная подзадача еще под задачи которые мы пока кстати не занимались в отличие от первых двух но планируем заниматься в ближайшее время это конкретно детектирование всяческих от версаль данных примерах вот что в литературе до определенной степени тоже изучена но не очень сильно вот есть также пара как минимум повара задач в которых такие меры неопределенности они используются неким косвенным образом они не являются как бы целью но использовать это во первых задач и активного обучения или она же задача адаптивного планирования эксперимента по которой я девять лет назад магистерский диплом защищал под совместным руководством товарищи бурное wild к сожалению покойного вадим вячеславович а вот соответственно в этой задачи задачи активного обучения эта задача в которой вы хотите как-то увеличить свою выборку и как правило большинство ну и хотите это сделать умным образом так чтобы точек по набрать поменьше качество было получше вот большинство правил которые существуют в этой области они так или иначе основаны на том что вы берете точки там где у вас модель ожидаемая ошибка текущей модели большая то есть такое некое жадный жадного типа правило вот и соответственно я прошу прощение по слайдов под это у меня нет но точнее нету в этой презентации на словах объясняю вот и вторая задача которая решается часто довольно похожи вы методами на самом деле она довольно сильно другая эта задача по и савской оптимизации то есть когда у вас есть некоторое функция которая как правило дорогу дорого вычисляется и вы хотите ее про оптимизировать и вот методы из семейства методов называемых байесовской оптимизации когда вы грубо говоря поочередно то тыкаете в окрестность текущего оптимума и там проверяете точку либо вы проверяете области в которых у вас большая неопределённость текущей аппроксимации то есть области где у вас пока мо по мере назначений и может быть вы там минимум пропускайте вот это идея байесовской оптимизации и наиболее современное такое известное приложение и это всяческий html вот котором мы у нас не за моей группе не занимаемся но в принципе люди много занимаются и байесовской оптимизации там полез вот теперь собственно про поста ну ну как бы про чуть более конкретно соответственно если мы говорим про регрессию то ну как известно в регрессе есть целевая функция вы поверили в каких-то точках у меня нарисована что шума не было но это неважно вот вы построили некоторую аппроксимацию и и вот после этого кроме аппроксимации хотелось бы чтобы у вас было как хотелось бы построить что-то в духе доверительного интервала и это можно сделать различными методами про которые мы еще поговорим вот ну например можно предположить что ошибки у вас примерно нормальные тогда вы оцениваете дисперсию каким-то образом пока не говорю каким и строить вот такой вот замечательный доверительный интервал который как видно в моем примере довольно хороший в каком смысле он хороший а именно он уже там где у вас точки есть в обучающей выборке он шире там где их нет ну и в целом видно что истинная функция она где-то вот синенькая она где-то в рассматриваем диапазоне значений она лежит внутри этого доверительного интервала то есть давить интервал получился неплохой вот такой вот пример соответственно все можно и воспользуюсь случаем да спасибо что обратно рискнули и вспомню ваш пример про кошек и собачек и где вот здесь кошки собачки смотрите коль скоро мы все занимаемся байесовским моделированием до в той или иной степени у нас есть понятие прав вот и про мы конечно же понимаем как распределение ошибки до того как пришли данные и например пусть это где у нас данных нет например вот 0.5 по иксу да у нас там типа данных не отдай мы здесь можем какой-то pro-r накладывать и верить в него или не верить с помощью майского вывода это раз а два мне вот что поразило когда вы сказали кошки собачки и рентген грудной клетки например там у нас другой совсем про р какой у нас есть новый термин который вел наверное михаил бронштейн он называется геометрика праер то есть наши априорные положения о строении того физического мира до в котором мы выполняем наше измерение и вот в контексте вот этой вот этого вот этого графика это вот что это про р относительно структуры той формула которая написана верху fx равняется там 6 x минус 2 в квадрате синус вот вот как-то так и и вот я очень хочу как это как-то подтолкнуть мог наделать мысль что надо держать в уме 2 парой а вот про р относительно распределения до статистический проект и праер геометрические я не знаю алгебраически как его назвать вот относительно тех законов детерминированных они стохастических до которые управляют нашими измерениями вот все что я хотел сказать да простите за может доступной смотрите я очень рад что михаил бирштейна упомянули я слежу с его работами даже имел удовольствие с ним лично познакомиться он заметил он к нам приезжал статьях мы в одной комиссии сидели на защите диссертации вот да он конечно интересные вещи делает вот что касается вот вероятностной части то на самом деле да здесь и вот конкретно вот этот вот графики они построены с помощью регрессии на основе гауссовских процессов и в ней действительно если вы уйдете далеко от выборки вот это вот дисперсия она уходит на некое константное значение условно максимально ну то есть на априорную дисперсию уходит ну да да вот это как бы там как встроена в ту модель вот насчет различных геометрических вещей да я тоже согласен это обычно кодируются неким образом в структуру модели или в структура алгоритма то есть это с трактиром modules я не знаю можно как-то так сказать и это абсолютно правильно вещи с этим полностью согласен но про это я сегодня говорить практически не буду вот хорошо едем дальше я рад что андрей вернулся то он пропадал вот да ничего страшного но если еще будете пропадать мы ждать особо не будет довольно нормально да они они кстати здесь вот специалист по структурам модели и по автоэмаль вот так что довольно много есть что сказать на эту тему ну вот я как раз про автоэмали структура не буду да хорошо соответственно ну если говорить про строгую постановку задачи то может то одно из возможных постановок задач для регрессии является именно построение длительного интервала это понятная вещь строго определенное у вас есть выборка наблюдений функция плюс шум у вас есть некоторый алгоритм и дальше вы хотите вы задаете уровень значимости и хотите построить такие такой интервал обычно он имеет форму с крышкой плюс-минус вот этот вот некая величина си альфа чтобы имелась ну как бы правильное покрытие до чтобы истинная функция накрывала с доверительным интервалом заданной вероятность вот и соответственно если у вас есть какая-нибудь простая модель ну например линейная то и у вас есть нормальные ошибки то теория всего этого дела она хорошо разработана ну потому что если у вас ошибки нормальные то у вас вы делаете наименьшие квадраты у вас коэффициенты тоже нормальные случайные величины потому что они будет линейной функцией нормальной выборки соответственно ваше предсказание в новой точке она снова нормальная и вы можете посчитать для него математическое ожидание можете для него посчитать дисперсии она там вот случае двух переменных пишет простой формулой так далее вы получаете доверительный интервал который будет как бы правильным доверительным интервалом он будет действительно обладать заданной доверительной вероятностью и так далее с секунды максим только я приготовился запомнить букву цен на прошлом слайде как буква ц превратилась в букву сигма а буквы фильма добавилось вот ccc на прошлом слайде сейчас смотрите это было это была вся функция которая вот а здесь эта функция это определение умножить на стандартное отклонение на оценку стандартного отклонения но и замечательно связали до соответственно вот то есть для вот такой вот простой модели линейной для нее все хорошо проблемы начинается когда модели становятся более сложными ну то есть на самом деле для линейных моделей можно тоже придумать сколько хотите проблем например взять какую-то высокую размерность и там все сразу станет плохо сходимость будет медленно и и так далее и тому подобное и этом занимаются люди которые занимаются математической статистикой придумывают различные например структурной модели для которых все будет не так плохо ну например предполагают там что вектор параметров анти разрежена еще что-нибудь это как бы изучает там профессиональные статистики и мы в это углубляться не будем будем александр к трутся который этим занимается считать конфессиональным статистикам он тема это но он кстати этим занимается все-таки не со статистической точки зрения он сетов больше стал горит мической асада все-таки такие теоремы он не доказывает но ну да саша саша саша тоже специалист конечно вот соответственно теперь давайте коротко обсудим а как вообще в общем можно делать оценки когда у вас модель становится какое-то сложно опять же очень кратко пробегусь во первых можно продолжать в духе того что я писал на предыдущем слайде а именно условно я это называю аналитическими статистическим подходами это вы делаете в предположение что выборка достаточно большая вы делаете разложение по тэйлору по сути линеаризации и у вас в статистике от называется дельта метод и вы соответственно получаете приближенные длительные интервалы основанные на линеаризации в предположении большой выборке это можно делать проблема в том что ну как бы точность может быть не очень хорош можно делать различные варианты типа boots копирования соответственно быстро пировать вашу выборку и получать оценки bootstrap тоже может оказывать теоремы тоже хороший подход только дорого обычно считать вот дальше можно делать все что угодно в рамках байесовского подхода мы про это сегодня немножко поговорим а именно накладывать не которое построено и распределение тогда в ссоре априорное распределение автоматически получать апостериорное ну и дальше верить в то что апостериорное распределение хорошие понятно что опять же те же самые статистике они умеют про построена распределение доказанной теоремы но тоже можно делать но как правило практика с этим все-таки несколько расходятся и наконец хотелось бы упомянуть некоторое количество некоторые типы модель и которые они которые больше я бы это назвал модуль специфик то есть люди работают как то со структурой модели чтобы ее научить научить неким образом эту самую неопределенно сделать я в эту часть отношу гауссовские процессы они конечно с одной стороны полностью байесовский но с другой стороны получается очень специальная модель в которой от этого пациентка дисперсии возникает вот и поэтому я называю модуль специфик также люди например делают следующее они берут нейронную сеть приделывают к неси где-то сверху отдельную голову которая будет предсказывать дисперсию и потом задачи регрессии заставляют ее оптимизировать look like ликуд гауссовский то есть давайте знать что я сделаю я можно просто сказать дисперсия я вот сейчас это прокомментирую потому что непонятно наверное я мне только нужно минута я возьму свой планшет чтобы я мог написать сейчас секундочку давайте пока максим есть планшет я удивлюсь вот неровно творцами с диккенсом network это же of the encoding of the disease and rice здесь в этом списке не очень понятно как появился и зачем нужен а гауссовские процессы и 2 1 и 2 они связаны как я думаю водка когда говорят про героев соски процессы неявно все конечно же думают вот о чем о том что когда мы вычисляем дисперсию некоторые точки x до мы раскладываем процесс не обязательно кстати гаусса скида на dither минированную и случайно составляющей использую например да теорему короне нала его вот и вот таким образом связываем dither минированную часть первого пункта гаске процесса за с дизер мини раваной частью второго пункта нейрон networks это вот та часть которая закономерность вычисляет основной dither минирован и опять же да а случайную пожалуйста вариант predicting это часть которые относятся к вариационного вт энкодером вот а вы так максим вы как я вернулась я включу планшет я могу тут написать смотрите туда продался и процесса все правильно про нейронные сети просто при объясню то есть если у вас есть вот я пишу давида до видим видим хорошо делают очень простую вещь вы например можете обучить свою основную нейронную сеть а дальше вы берёте какой-нить отложенную выборку делаете следующую вещь у вас вот нейронную сеть предсказывает а вы у вас есть на это отложенной выборки значения вы берете вот так вот а потом говорите а я буду подгонять мой предсказал q дисперсии следующим образом она у меня будет вот такая вот и потом здесь что еще у нас должно быть то есть потом не знающим минус одна вторая да а еще вы берете одну вторую минус минус одну вторую логарифма сигма с крышкой от x этого суммируйте это все вот отложенный выборки и пар и оптимизируйте это весело ну как хоть на минимум по параметрам ну я напишу условно по на минимум по сигма с крышки вот но на самом деле по параметрам той нейронной под-сети которая вот эта сигма с крышкой делать ну вот такой подход вот люди делают есть очень известная статья то есть такой тип мая то ли в гетман деталь в google брей не товарищ его зовут баладжи лакшми-нараяны ли как-то так примерно вот у него есть статья естественно очень хорошо цитируемая где он этот подход протестировал довольно тщательно там в точности и оптимизации гипер параметрах через обоснованность модели фактически диссертации макает 90 го года ну да да да просто он взял это применил к нейронным сетям и показал что это действительно неплохо работает что вы можете так параметры подобрать реально задач целом да ничего не обучает можно все сразу на одной я просто для простоты объяснения мне кажется что они на одной сразу делали ну давайте назовем этот будет стропам и да да хорошо ладно едем дальше соответственно теперь немножко и поговорим про классификацию в классификации всё становится несколько любопытнее потому что если в регрессии хоть большинство методов и предполагают что у вас нормальное распределение в неком виде есть но вы можете про это и забыть вот и думать просто чтобы предсказывать какие-то числа потом у вас распределение возникает только тогда когда вы оба читать и думать в случае классификации все чуть-чуть по-другому а именно у вас как правило все почти для любых методов вам вам алгоритм выдает вероятность пардон соответственно и и вот это вероятности есть большое желание и сразу же использовать как собственно меру неопределенности в предсказаний то есть если у вас есть несколько классов вы берете в точке x смотрите на максимальную не очень хорошо написана 2x написать вы смотрите на максимальную вероятность а дальше берете единица минус максимальная вероятность и соответственно чем это число больше тем у вас больше неопределенность потому что максимальной вероятности классов которые выдали она соответственно меньше вот соответственно вполне себе мира и очень хочется и пользоваться однако возникают некоторые проблемы ну во-первых до того как я скажу про проблемы существует 2 мера которое который тоже в принципе приятного было пользоваться это обычная информационной энтропии энтропии шеннон а а именно если у вас выдали какому-то классу вероятность мне не знаю 095 то у него энтропия то распределение классов энтропия будет маленькая а если у вас вероятностью у всех классов одинаковую то энтропия будет принимать максимальное значение поэтому энтропию можно тоже вполне себе мерой неопределенности считать это вот второе может быть бы в некотором смысле более хороший подход к тому чтобы определить тут неопределенность проблема с обеими этими функциями возникает например когда вы рассматриваете задачи out of distribution у меня вот здесь есть примеру не очень хороший не очень понятный но я попробую объяснить а именно что было была функция была задача классификации и вся выборка лежала на отрезке вот который вот здесь вот двумя серыми пунктирными линиями обозначен то есть вот отсюда до сюда здесь лежала выборка мы по ней оценили но вот слева это до 7 де функция справа вот может смотреть справа это после сигма да то есть уже прям вероятность вот бинарная задач и соответственно мы эту функцию как то наверное хорошо оценили на ее там где у нас были данные но проблема состоит в том что как только в этой области отошли функции это продолжает как-то предсказывать никаких данных у нас тут не было и вот например здесь вероятность выдается ровно единица и соответственно вот если вы просто возьмете вот эту энтропию то она будет как бы 0 хотя казалось бы с какого по какой причине мы должны вообще здесь что-то такое говорить мы наверное должны предсказывать что здесь у нас неопределенность должна быть какая-то обновить на большая вот и про это за право дистрибьюшен да так song поговорим позднее но я хотел сказать что вот этих у обоих меру них есть некоторая гранчи но это только часть проблем другая часть проблем была обнаружена в следующем опять же лет пять примерно назад сообщества научная в области киплинга очень возбудилась в связи с чем выяснилось что модели современные киплинга они довольно плохо калиброван что такое калибрации калибрации это следующая представьте у вас есть генеральная совокупность или большая тестовая независимый выбор к вам бы хотелось что для точек для которых вы например предсказываете вероятность 05 чтобы для примерно 0 5 плюс минус иксе чтобы на них итоговая вероятность ошибки было примерно тоже 05 ну казалось бы логично требования вот она называется калибрации но оказалось что на практике вот этот вот expected calibration мэр он очень большой то есть вот например вот здесь вот синим приведена картинка для реальной нейронной сети ресниц 110 обочиной на выборке цифр 100 видно что вот по оси x здесь приведены вероятности а а по оси y точно для соответствующих генов вот соответственно вот здесь вот на 1 с бен между 02 и 03 для него хотелось бы там что где-то 025 бы вода должна примерно быть диагональ вот этот красная кривая она идеально а по факту получается что вероятности равномерно занижается пардон наоборот видимо завышается до соответственно это называется плохой калиброванный это проблема она от предыдущей проблемы out of дистрибьюшен дать экшн она в некотором смысле ортогонально потому что она как раз вполне себе наблюдается для in дистрибьютор и вы закончите мысли давайте я закончу мысль до мысль состоит в том что во первых ну в точности никто не знает почему это происходит по всей видимости то есть по идее если ваша модель честно максимизирует кросс энтропию то она должна быть хорошо калиброванного той вот в пределе но по всей видимости многочисленные трюки которые есть вокруг обучения нейронных сетей они приводят в некоторые локальные минимумы которые в которых все плохо калиброван вот соответственно есть большая литература на каждой большой конференции как правилах хотя бы парочку статей на эту тему возникает в последние годы а именно как делать дальше калибровку и mainstream алый подход он такой берем уже обученную нейронную сеть рассматриваем некоторую отложенную выборку и на это отложенный выборки дополнительно проводим калибрации а я популярный подход калибрации это так называемый темп-ры ческий link когда вы перед тем как вы вводите одномерный параметр t и вот все логи ты перед тем как их засовывать софт макс их на этот параметр t делите а потом со то есть вы делаете такое некоторое монотонно и преобразование и вот оказывается что довольно часто этот параметр t довольно неплохо удается подобрать то есть вот справа у меня здесь калиброванная нейронная сеть но видно что она откалибровал ась плюс минус прилично то есть уже очень похоже на правду да и техническое решение да ну это чисто технически трюка таких технических трюков была разработана с десяток но вот этот самый простой темп речи skellington на практике работает кажется достаточно стабильно это просто сделать в общем такой способ разумный до вас был какой то вопрос мне кажется ри комментарий да-да-да-да-да во-первых про калибров калибровку по моим хорошо написано в базовом учебники хосмер лемешев логистической регрессии грыжей шиндо вот чё ещё было кстати вот вы же до однокурсники кирилла павлова который хорошо разобрался в нерв в нил гареев вас взялась лидер modules давай вот такой да я помню был такой ну вот дать можно я попытаюсь вот это связать с предыдущим гениальным совершенно слайдам очень не нравится вот прямо хорошего слайд можно вот 10 обратно да вот смотрите я сейчас сделаю небольшой заход я надеюсь не очень долгий мне они квартире в как-то совершенно гениальная вещь сказал вот почему когда у нас например признаков больше чем альбеков да мы говорим ну так строить модель нельзя да потому что мы сразу же найдем ту самую например там разделяющей плоскость до которая заведомо делит любой выборку на 2 класс и в частности вадимыч слова чем был адептом вот этой идеи ну вот а почему так не работает почему а ты тоже соображение не хорошо иметь признаков больше чем или параметров до больше чем объектов не работает в сетях глубокого обучения да вот почему потому что мы ожидаем от ожидания параметров у нас равняется нулю то есть мы ожидаем что все параметры нейросети равна нулю нир и сети не существует это 1 и 2 всех кто оценивают гипер параметры да то есть параметр распределения параметров все считают что у нас вот это пространство вот это распределение она у не модель на а раз так то давайте вот эту же историю с распределением параметров перекинем и на пространство данных и но почему бы нам не строить две модели как вот еще там вас два слайда назад одно модель это наша наш прогноз вот на всем design space на на в область независимой переменной да вот другая модель эта модель которая описывает насколько мы уверены в наших измерениях и действительно вот здесь у вас больше чем два с половиной давайте вот эта вторая модель уверенность али исследованной территории вот пусть она там будет близка к нулю а да двойки от -3 например да она будет быть как единиц это будет ваш отказ там от классификации только не 01 а вероятность отказа задаваться владимирович все правильно и мы сегодня даже одну модель и примерно по такому типу построенную рассмотрим но ближе к концу я приду к модели которая все-таки 1 а за 1 без этого зверя без под модели хорошо я справлюсь да ну как бы и у вас вопросы хорошие я презентации продумывал вот смотрите теперь давайте немножко поговорим про немножко поговорим про задачу перейдем как к вероятностным постановка мы не сдвинемся в сторону задача out of дистрибьюшен дтп соответственно но смотрите вот есть у нас данный x и y и они идут из какого-то совместного распределения мы вот это распределение можем разным образом по формуле условной вероятности по разным образом раскладывать на то есть мы можем сказать что совместное распределение это произведение likely худо и распределения априорного распределения иксов признаков что что по-английски называется ковре дистрибьюшен вот либо мы можем разложить по другому и сказать что это условное распределение икса по классу до умножить на априорное распределение меток соответственно вот просто напоминаю такие замечательные стандартные формулы вот и вот я хочу сейчас двинуться в сторону задачи out of дистрибьюшен что имеется в виду стандартно люди рассматривают то что у вас распределение теста но такое же как распределение трейда то есть мы действительно то есть у нас есть некоторая генеральная совокупность и мы вот из нее генерируем объекты на обучающей выборке ожидаем что потом тестовый пойдут оттуда же однако в жизни в реальное это довольно часто не так может так оказаться что вашу модель начинают запихивать на тесте точки которые отличны от обучающей выборке тут для чего я собственно писал вот эти вот все замечательные не все одну простую формулу на предыдущем слайде тут у вас начинается вариант потому что может быть например что у вас распределение класса в конкретной точке она не меняется то есть likely хуту вас фиксирован а например меняется распределение иксов то есть вам например на трейни шло из какой-то области мало . на тесте они так сказать попёрли вот это называется ковырять shift и это в принципе проблема достаточно нетривиальная то есть ну простой пример есть такое известное достаточно не знаю что сколько в широких кругах человек его зовут олег жаворонков я не знаю слышали вы про такого который in silico медис вот я как-то бы имел счастье с ним быть лет 5 назад в одной комнате с сексом впрочем кулешов директора мтс калтеха и олег жаворонков говорит у меня есть классно но он сейчас больше занимается drug discovery но вообще у него мечтает вот это вот он 9 или longevity долголетие вот он показывал аксон петровичу приложение готовясь классное приложение на по фотографии определяет возраст соответственно он подберет смартфон фотографирует аксон петровича особенно пять лет назад александр петрович никто и возраст не давал ему давали led 60 а ему было уже за 70 вот она не за 70 и 70 наверно вот ему давали 60 и тут он фотографирует александр петрович а его приложение в выдает 82 года но и так сказать и александ петрович не впечатлился во-первых расстроился во вторых не впечатлился талантами жаворонкова построения таких приложений но проблем это очевидно потому что естественно выборка по которой все это строилось в ней пожилых людей было мало вот и поэтому она в области там где пожилые люди она давала большие ошибки и соответственно вот это ровно к вы redshift вы обучались на молодых людях а тут начали тестировать на пожилых и на пожилых она стала давать естественно большие ашик вот дальше могут быть другие проблемы может быть например ну кстати это вопрос то есть это вот вопрос что это тут конкретно к вашей стрелы был ships это можно подискутировать ну на самой задачи будем считать что это говорит шиш вообще есть задача другая то лейбл shift то есть у вас может сильно меняться распределение класс да то есть вы это другая сторона этой задачи то есть для каждого класса распределение фиксирована но у вас например каких-то классов стала сильно больше вот экстремальный случай этой задачи это задача о пинцет recognise так называемая и тогда у вас появляется новый класс это вот актуально например для всяких биометрических систем когда у вас есть сколько это людей которого зарегистрированы в системе но каждый новый человек который пытается прорваться через ваш система безопасности он вообще говоря новый класс вот и соответственно это тоже нужно рассматривать вот и что как бы является некой мотивацией для того что говорю нейронные сети они у них конечно south of дистрибьюшен все довольно плохо то есть например вот у меня справа из картинки из статьи 14 года где в нейронную сеть засовывали какие-то геометрической структуры она от классным образом ри портала что вот этот вот серый круг сера оранжевые круги с черными полосками этот королевский пингвин до пирса реал какие-то подзадачи то есть распределение которое было в тренинг то есть ну добавить это точек которые не были строение смотрите это напоминает но это немножко разная потому что адресами вот так как задача сделать такое извинение которое будет незаметным да вот а тут как раз именно вот совсем out of дистрибьюшен совсем что-то экстремальное и вот по-моему там вероятность что это королевский пингвин выдавалась типа 099 вот то есть это не чуть-чуть другое на степень говорят он тоже изменение в excel эту который не будут влиять на распределение да там как раз там как раз проблемы с нутом другого типа проблемы вот ну вот вот это такая была мотиве мотивировочная вещь теперь давайте поговорим про вот как раз эти замечательные различные филлеры почему я сейчас про них начинаю говорить потому что как оказывается они вот для задачи алтарь дистрибьюшен тот экшен не каждое onset найти подходит и вот в литературе выделяет два вот эти тип вам sed ante одна называется лео турник другая называется и пестель алиа тарик это про то что у вас и ваших данных может быть какой-то внутренний шум а именно самый такой понятный пример это класс overlap то есть когда у вас есть какие то данные какая-то какие-то точки в которых у вас действительно классы пересекаются вот ну как бы вероятностное моделирование мы это хорошо себе представляем у нас есть функция условной вероятности они так например непрерывные и тогда где-то должна быть . 1 2 до между двумя классами вот это вот как раз класс overlap и вот этот вот типа неопределенности мы его но мы его попытаемся формально определить но не формально говоря мысе с ним ничего не можем сделать потому что то в наших данных есть есть мы его нему чем больше у нас будет выбор к нам и не поможет все равно могут быть точки которые сложны и потому что там какая-то внутренняя определенность дано давайте я напомню что французский математической литературы аль отвара это в точности случайная величина здоровая от к сожалению на французском зная только не так много слов но смысле я по-французски могу даже счет сказать но математической литературе не владеет это же само слово али от орико нужно откуда-то взялось сейчас вот вот это да это это это случайная величина а теперь что же такой системе лепестки миг это все остальное это детерминированная вас есть дихотомии случайно иди терменировали не совсем сейчас подождите вот это то наша нет это не не не совсем не термини равана и даже совсем недетерминированные это то что связано с тем что мы рассматриваем конечную выборку данных а значит не знаем все о наших распределениях чтобы вы могли бы они знать то есть эта часть неопределенности по вот этому неформальному определению она с ростом выборки она уменьшается то есть если вы чем вы больше наблюдаете данных тем вы лучше знаете те распределения которые у вас есть в их лучше оцениваете ваши ошибки становятся меч соответственно иллюстрация номер 1 который мне вполне себе нравится у вас есть неизвестная линейная зависимость и по каким то причинам вы и промерили только в двух частях от -3 до минус 2 и 2 до 3 соответственно там где вы данных вообще не мерили у вас большая это самая и писты мической они определенно потому что вы конечно можете по всем этим данным посчитать что там тоже будет линейно но тем не менее по факту вы этого не знаете и увы соответственно если бы вы здесь померили то ваша системе константином был меч али atari консультанте тоже понятно потому что у вас есть вот здесь вот у вас маленькая лиотар на неопределенность потому что у вас маленькая дисперсии вот а здесь она большая вы можете линейную функцию измерить сколь угодно но у вас есть некий внутренний шум в данных какая то что то с этим связано которая дает большую disperse вот в этом собственной разница соответственно вот один пример и второй пример который мне тоже вполне себе нравится все примеры не мое но найдены в статьях второй пример такой вы наблюдаете опять некие данные но здесь у вас не функция у вас есть 2 таких ветки чтобы на а то есть у вас есть зависимость от секса но она как бы многозначны соответственно что вот это вот ваш выбор при этом вот выборка она вот по мере на именно так я беру такую выборку но на самом деле истинное распределение оно вот такое то есть вот этой вот функции если бы мы брали бесконечно много точек то получили бы вот такое распределение как на картинке c просто мои данные были сгенерированы так что плотность точек вот на картинке бы она была затухающий в итоге что мы получаем мы получаем что у нас есть два типа неопределенности 1 неопределенность это неопределенность оля торна оно связано с тем что у нас есть данных две ветки и она себя ведет так на картинке е да то есть она у нас слева две ветки справа две ветки поэтому она какая достаточно большая а посередине у нас одна ветка и у нас она становится маленькой это лео торнане у нас есть эпидемическая неопределенность она на картинке f она слева маленькая справа большая почему потому что слева у нас было много точек а справа мао и соответственно ну кстати заметим что она слева тоже немножко подрастает потому что точки распределяются на две ветки и мы видим и хуже оценивать вот ну и можно рассмотреть их сумму а на утро она на картинке д слева что-то максим это мне напоминает этом не конечно же напоминает разложение ошибки на без и но и вариант дано смещение дисперсии и здесь смотрите да давайте уж тогда если мы в лингвистику мне миску в технологии погрузились да и peace теме когда чего это точное знание научное знание на достоверные сам факт измерения вот приносит нам знание да и мы говорим о есть знание и песке на концерте в смысле есть сам факт измерения и pista микро царственности снижается вот но доверие этому измерению измеряется уже в али atari концерт инте ну тогда наоборот смысле вместо андоры это грубая как матожидания а песнями как дисперсия получалась такая да только вместо констант да у нас функции вот и все так же как и в моделировании у нас самая простая модель это константа модель посложнее это линейная модель до модель ещё более сложно это какая-то там скажем суперпозиция нелинейных моделей с линейных моделей с нелинейными корректирующим операциями да то есть нейросеть но вот здесь . то же самое мы видим и это прямо замечательно вот мне кажется вот эта картинка она довольно хорошо иллюстрирует что происходит вот соответственно вот этим вот рассуждениям им можно придать некоторые отчислена не численное формальное определение именно следующее вот предположим что у вас есть некоторая параметрическая модель которая в точке x со звездой неважно в точке x дает распределение лейбла y ну вот и если у вас есть некоторое распределение ваших параметров апостериорное построенная по данным то тогда во первых можно определить то что называется that all on certainty это вы берете считаете у вашего распределением от ожидания а потом результатом естественно все еще является распри деление по игреком вот а дальше у этого распределения по игрокам берете берете энтропию этот называется to the lancet и оно разбивается на две части одна часть называется лиотар и конфеты тебя другая часть называется и песке миг алиа торик это что такое это вы берете в каждой точке тета в каждой точке тета вы берете считаете энтропию потом у нее считаете матожидание то есть условно говоря вот в терминах предыдущей картинке это вы сначала выбираете одну из двух веток считаете в ней энтропию а потом правильно ли я говорю неправильно с ним на каждый из двух i'm right можете здесь говорим про параметры для каждой порождающий модели вот с фиксированным параметры задает это порождающую модели мы считаем энтропию вот так потом смотрим это ожидание ну а вот разница между ними это которая на самом деле их взаимная информация некоторое это вот комическая неопределенность ну и ты-то здесь можете иметь разный смысл может иметь ну в общем то вы бы обычно имеется ввиду что не ники байесовских смысл и то же самое можно если но это вот удобно говорить для классификации для например агрессии можно говорить удобно говорить в терминах вариант то есть у вас есть общий вариант и он его можно разбить на двумя способами вы можете его разбить на то есть это матожидание дисперсии условный плюс дисперсия условного мы ожидаем а можно вопрос по радио турик консультанте можете перелистнуть на первую картинку поле поле оля так вот эту правильно ли я понимаю что авиаторы концерт intego вообще он зависит от вашей модели то есть условно говоря вы здесь говорите что ну что в реальности мы построили эти точки по линейной модели и поэтому у нас справа низкая авиатор лигатурные слева высокая а если мы предполагаем что как бы точки порожден и нелинейные модели о какой-то супер сложный моделью из слева вот точки действительно лежат на какой-то очень сложно сложной прямой не прямой линии то никакой ли atari консультанте там не будет высокий или вас не понял но смотрите то есть определение а вот там вот этот overfit мы мы сделаем жесткий график у костра и нет это это я понял олег да да да спасибо за вопрос смотрите тут вопрос в том что мы понимаем под моделью потому что вот эти вот которые я говорю они все-таки у меня определены скорее в терминах истинного распределения данных наверное ну да да и соответственно ну да если у вас истина и распределение данных простое как тут а я говорю действительно как есть высокая или низкая если мы стены там апостериорное распределение вот это вот написан в рамках байесовского подхода мы предполагаем что у нас есть априорное распределение параметров что нас данной порождены через likely худ и через априорное нас появляется апостериорное так далее красавица таки параметров ты-то апостериорного распределения может быть разве нет ну может быть до отвечая на вопрос ну да можно считать что эта модель deep and конечно выжжен для ваших данных ну как бы интер как бы зависит эти от модели у вас действительно как есть переход от баса covariance то и тут тоже может быть конечно вот ну и вот резюме из всего этого состоит в том что если мы говорим для за именно задачи out of дистрибьюшен detection то есть вот мы именно зачем-то хотим делать out of дистрибьюшен то нам нужно именно эти сценическая on certainty можно словить не читать это слово говорю вот потому что она говорит о том где нам где именно вот этот вот где у нас модель плохая и соответственно эти данные можно считать теми которые то есть out of дистрибьюшен мы воспринимаем как область где у нас плохая модель соответственно сомали а торнан sed ante она может ничего не значить у нас может быть где-то очень много данных и ошибка большая все равно потому что там большая лиотар на неопределенность ну вот а соответственно теперь наверное я достаточно быстро пробегусь по тому как люди на практике делают вообще on set in this theme очень странными сетями ну а фамилия я должна сказать вот в этом на этом в этой на этой секунде до что до сих пор ваша кампания проходит для меня с очень большим успехом это очень правильная тема конечно же и замечательно чтобы вы про нее так красиво рассказа не вот просто супер я про не за я я за термины и главное я вот за саму тему и за постановку задачи таким образом но я да спасибо я именно этот пару лет назад думал чем заниматься как то вот это вот нащупал но ему потихонечку на какой-то прогресс и чем есть вот у меня в принципе большая часть моей группы сидит где-то в этих окрестностях до соответственно соответственно что делают люди на практике люди на практике берут и 1 осматривают нитки и бойцовские модели или некоторые то что можно условно называть бойцовскими моделями и считают например эту самую историческую неопределенность просто берут у вас есть некоторый никому модели индексированные какими параметрам омега это как мы увидим буквально стоящим сладит нато может быть неким образом построенный ансамбль моделей и считает вот эту взаимную информацию как разницу 2 неопределенность вот и использует ее как меру неопределенности и ранжируются объекты по ней выбирают пороге и так далее и тому подобное и соответственно что интересно что самый успешный абсолютно во всех приложениях на настоящий момент подкова но мы это чуть-чуть поколеблено самом конце моего доклада вот но де-факто в литературе то что вы сейчас можете найти это просто строить ансамбль нейронных сетей причем строить его самым примитивным что ли образом а именно вы берете обучаете много нейронных сетей на одних и тех же данных но стартуя из разных случайных инициализации это приводит вас в разные локальные оптимум и как правило до инициализации чего параметров а параметров задача не выпуклая как известно соответственно вы будете сходиться в общем случае в разные оптимум и и как оказывается работает это дело неплохо а именно вы можете с одной стороны усреднять предсказания этих нейронных сетей и у вас будет подрастать качество основной задачи просто за счет никого и уменьшение дисперсии вот прогноза а с другой стороны вы можете смотреть на деза grim and так называемый между этими моделями то есть на несогласие в их предсказаниях на дисперсию на взаимную информацию вот эту самую которая была на предыдущем слайде и использовать ее как меру от этой песни мической неопределенностью вот что интересно что до сих пор чего то чтобы работало стабильно лучше никто не придумал то есть какой-то более обоснованный хороший подход в большинстве приложений где-то с меньшим зазором где-то с большим зазором такой подход он лидирует у него есть понятная проблема одну то нейронную сеть на реальных данных замучаешься обучать как правило а тут нужно обучить несколько а еще потом мы на этапе предсказания у вас еще кратное количество раз замедляется это людям очень сильно не нравится и поэтому люди пытаются сделать что-то более хороший ну вот приведу пример вот что что делается берутся методы и выборка тестовая она с помощью значений меры неопределенности например взаимной информации ранжируется от наибольшей от наименьшими определенности к наибольшей и вы начинаете вот у меня здесь центре картинка вы начинаете неопределенность так высчитывается по какой-то одной при обычной модели нет у вас он ну например ансамбль поселенцам вы или какими-то другими способами я про них еще скажу немножко и вы берете и откладываете вы берете и начинаете выбор выборку тестовую вас естественно выборкой вы начинаете выбирать из неё точки с начала самой маленькой неопределенность а потом все с ней принести больше больше больше больше и вот у меня здесь по оси x отложен процент выбранных точек и мы видим что точность модели ну терминах рука у к здесь она уменьшается что с увеличением количества взятых . это поведение некоторая логично и это говорит о том что меры неопределенности что-то значит то есть она действительно как-то коррелирует чем мы берем менее не определенные точки слева тем больше . вот но и вот здесь показано как раз что в сравнении с некоторым семейством других методов ансамбль всех просто бьёт как вот ну как с хорошим запасом а максим можно можно зато я здесь шутки ради скажу вот что вот посмотрим на рисунок слева снизу модели 1 модель два и так далее модель м если мы говорим что у нас каждая модель это просто линейная регрессия линейная да и их вот и там кружочек комбинация до их комбинация это тоже линейная комбинация ну конечно же там где стрелочки слева от комбинации тому у нас есть еще некоторые нелинейные нелинейные преобразования там и в точности получим двухслойное нет ни нейросеть да если мои параметры каждого нейрона могут модели 1 и model2 модель 3 будем случайно разводить ну например так чтобы идти виктор очки были более-менее ортогональны вот и подбирать их веса то мы получим пабам смесь моделей а если вместо комбинаций будет gate фан шиндо шлюзовая функции мы получим в точности смесь эксперт конечно же такие вещи работают хорошо ну да это да понятно как стать хочу сказать что у меня была работа которая ровно исходит из вашей логики что нужно нейроны сделать парта гонорий вот работа как раз в контексте оценки неопределенности у нас там были неплохие предварительные эмпирические результаты потом более тщательный анализ показал что то конкретный подход я не буду рассказывать вообще какой сегодня потому что иначе вообще никогда не закончим у меня слайдов здесь нет про это но конкретный подход в итоге что у меня получилось она работала в итоге тщательный анализ показал что она все таки не особо хорошо работает и мы эту работу так и не опубликовали в прямом виде она лежит на архиве правда некоторые сиквел мы опубликовали в применении к работам к методам обработки естественного языка у нас там есть партнеры саша панченко его команда который занимается естественным языком мы там вот у в приложении к трансформером наш метод более менее заработала вы его там публиковали довольно неплохо на хорошей конференции по естественному языку вот но это забавно просто что вот то что вы сказали в ровном и даже делали в принципе теперь возвращаясь к основному так сказать по току моего сознания ансамбль young медленный люди придумали миллион способов как этот ансамбль young ускорять все они в той или иной степени работают все они работают в итоге все равно хуже чем основной метод то есть быстрее но хуже по качеству и упомянул один подход который очень популярен в литературе который как правило работает но работает не очень хорошо это так называемый монте-карло dropout а именно ну все знают что такое dropout а вот товарищем эрин угол у и довольно знаменитому товарищу зубе ну-ка храма не вот и в 2016 году пришла в голову очень простая идея а давайте мы dropout будем применять на в момент предсказания а именно но обычно же dropout при предсказании как используется он вообще никак не используется включаются все нейроны их выходы школе руются чтобы в среднем получалось столько сколько надо вот они сказали давайте мы будем сэмплировать и и и потом будем если говорить регрессии считать стандартно то есть вас будут получаться для каждого сэмпла нейронов разное предсказание итоговой нейронные сетки и будем считать нам стандартное отклонение вот этот подход обрел огромную популярность среди народа потому что нейронную сеть надо обучать чего одну правда все еще остается проблема того что потом нужно ее кратное количество раз сэмплировать единственное как бы подход очень популярный как раз вот это некая ортогональны зация мы делали в контексте этого подхода но и чем это кое-что в итоге обычно работает все таки паршивый ансамбле ансамбле сильно лучше настоящим вот так я пропущу теперь коротко максим гляньте в чате к пожалуйста я не вот здесь здесь пришел вопрос по как раз по пройденному материалу скорее темпо у меня есть реакция но интересно конечно ваша реакция ада вопрос понятен как правило все таки рассматривают какие-то частные под задачи или covered shift relay бушев то есть я вот в конце буду говорить про к в redshift полную вероятность мне кажется в лоб не используют иногда сложно сказать что использует потому что очень много всего делается именно deep learning комьюнити а там знаете помахали руками что-то предложили и и и в радостно протестировали вот и вообще не понятно что происходит у меня например та работа наши по которой я в самом конце расскажу она как раз выросло из того что как бы есть работы свежие вот этого самого гири наголо и он там очень много машет руками очень мало пишет очень много машет руками очень мало пишет форму ничего не понятно вот и мы пытались сделать чтобы было понятно может коротенькое замечание здесь уже снова ваша реакция а если например взять и построить какой-то вот такую фундаментально большую систему а именно почему бы не строить для в пространств для иксов и для игреков две модели для каждого пространство и песке миг и а я тарик а потом все это соединять в совместную совместное распределение я понимаю что звучит города довольно громоздка но все же ну я вам так скажу вот модель в которой я в конце предложу например на это вроде не следует в конце концов то есть она ну посмотрим вот смотрите я еще наверно коротко расскажу про один подход который перед тем как перейти к финальной части а именно этот подход он называется он он интересный и он он был предложен таким андреем малинин им который в то время был предложен года три или четыре назад он в то время был аспирантом в кэмбридже сейчас он является еще чирам в яндексе нашем московском word то есть он из кембриджа с пературы приехал в этот индекс research вот ну так вот что он предложил он предложил следующее он сказал ну вот если у нас есть какое-то апостериорное распределение то параметров и у нас есть соответственно like лихута в конце нас интересует как правило ну то что называется по стерео предикатив дистрибьюшен а именно интеграл от likely худо папа posterior вот соответственно и он сказал а давайте мы будем мы предложим для вот этого вот мы предложим некоторые для этой ситуации некоторую нетривиальную вероятностную модель что он конкретно сделал он сказал следующее сейчас я правильно это сформулируем он сказал сейчас уже немножко я устал сейчас формулирую как он правильно сказал сейчас я сейчас немножко я запутался сейчас судя потому что здесь написано здесь эта функция используется чтобы integra недель дельта функция это правильно сейчас я просто скажу правильную правильную аналогию баба ба ба ба ба бам сейчас а ну вот что он собственно сказал он сказал следующее что люди обычно берут и моделирует распределение над классами правильно то есть мы говорим что у вас что у нас есть ну там после saw макса получается распределение над классами на он сказал следующее вообще говоря у нас же в пространстве у нас на simply xi есть очень хорошее распределение а именно есть такое распределение на симплекс и который называется распределение дирихле вот и он говорит следующее а давайте у нас нейронная сеть она будет не выдавать вектор распределение по классам а она будет выдавать вектор параметров распределение дирихле и это на самом деле довольно интересная вещь потому что вы можете моделировать разные ситуации например ваше распределение дирихле может быть сконцентрировано вот это вот симплекс у которого как бы каждая вершина соответствует одному классу вот соответственно в середине вероятности 1 3 на на ребре у вас вероятность 1 2 для 2 классов и для 3 класса ноль соответственно вы тогда можете моделировать разные ситуации вы можете сказать что у вас все распределение с концентрированным в одном углу и тогда это вы уверены то есть это то что называется уверенно и предсказаний дальше вы можете сказать что у вас все распределение она сфокусирована в центре это значит что у вас что это значит в терминах оля торная писать image и неопределенности это значит что у вас большая или а торна неопределенности маленькое пи сценическое вы абсолютно уверены что вас вероятность 1 3 до всех 3 класс и у вас есть третий вариант а именно у вас распределение ну там примерно равномерно на simplex это говорит о том что у вас высокая писцами ческая неопределенность вы вообще для этой точке не понимаете какое для нее должно быть распределение максим дать с прогнозируем что будет через три слайда смотрите у вас справа от вот этого треугольника любого из на будет стоять крест декард его произведения да и мы умножаем вот этот треугольник распределением на y до на распределение и без темик наикса и получаем ту самую совместную вероятность а вот нет сейчас все расскажу как они сделали подход который вы говорите он наверное возможно на самом деле я думаю что этот подход нужно улучшать которую них есть но они сделали немножко по-другому они сделали следующие первое они сказали ну распределение дирихле но такое замечательное у него ровно столько параметров сколько классов давайте у нас нейронная сеть будет точно такой же структуру как ваша любимая нейронная сеть до этого но она будет предсказывать не вероятности классов об опо параметры распределения дирихле дальше под это дело нужно какой-нибудь лосс функцию придумать и они придумали лосс функцию состоящую из двух частей первая часть у них отвечает за in дистрибьюшен они минимизируют кульба кляйбер между между некотрое некоторым эмпирическим распределением дирихле чтобы это не значило я сейчас не буду вдаваться в итоге в детали ну прям не помню честно говоря и тем что выдает модель то есть они некоторым образом строятся и ческую оценку строю и считают кульбака с тем что выдала модель а вторая часть у них еще круче они говорят но на у нас же есть еще all the в дистрибьюшен и мы для него хотим получить что-то типа равномерного распределения и вот они используют отдельную out of дистрибьюшен выборку и это главный недостаток их подхода им нужна отдельная выборка и для id и вот они берут эмпирическую для out of дистрибьюшен как просто некое равномерное распределение и пытается подогнать чтобы нейронная сеть на уток дистрибьюшен точках выдавала равномерное распределение вот и вся идея возможности такой вопрос я не пою почему нельзя просто использовать тот же лопает ликуд ну как бы вот ваши не рост которой классический да это плотная текут отмыть именно короче кати горя мультик короче это категориальном распределяется вот здесь вы заменили его на дирихле ну давайте сделаем также look like you've put от распределения дирихле там тоже красиво формулы все будет красиво газировать почему так не здесь просто в лоб детская дивергенции так далее ну вообще-то look like food это есть как дивергенция между мужчинами аль нами распределения нет около кихот это логарифм подобие выборг наподобие здесь будет распределение дирихле логарифм плотность распределения директ летом красивая функция получается достаточно принципе тоже можно без проблем минимизировать вроде бы еще андрей тут два варианта то есть я первый вариант это та говоря оба варианта это то что как мне кажется это то же самое а я первый вариант это то что это прямо но есть и второй вариант это то что если вы посмотрите на один из способов как вывести метод максимум правдоподобия то он стартует как раз с минимизацией цель дивергенции через вставления вкл дивергенцию вместо годности эмпирической плотности меня есть и надежность и что получится но это как бы я вот в своих лекциях по статистике именно так ввожу метод максимум правдоподобие ролики большинство людей говорят да будет так а я говорю давайте начнем с минимизацией цель дивергент вот ну ладно почему мы это то я чувствую я думаю что все немножко устали давайте мы все таки продвинемся вот в общем есть вот такой вот подход он он существует есть серия статей на эту тему он достаточно популярен сообщества его хорошо восприняла и у него есть некоторая проблема с тем что нужно вот это вот out of distribution выборка иначе у них ничего не получается вот у меня были мысли про то что круто бы сделал было бы сделать без out of distribution выборки условно говоря сказав что у нас априорно сетка выдает везде равномерно и вот как это правильно имплементировать это такой вопрос не совсем тривиальных не кажется вот все теперь финальный финальный часть и собственно расскажу про нашу последнюю работу которую мы недавно нас ну я в общем расскажу как это хорошая цифра скоро вот у людей людей гложет такая проблема а вот мы не хотим вообще никаких вероятностных особо вещей накручивать хотим взять одну нейронную сеть и что-нибудь про нее сказать вот взяли одну нейронную сеть сделали какой нибудь может быть пост-процессинг и каким-то чудом определили что и сумели разные типы неопределенности сделать вот их идея у людей примерно такая вот если мы рассмотрим задачу это дистрибьюшен дат action то давайте подойдем к ней с такой точки зрения взяли нейронную сеть прогнали через неё точки но прогнали не до самого прогнали через нее картинки давайте считать но не до самого конца прогнали а до какого-нибудь слоя vk арам мы взяли и просто использовали выход этого слоя как некоторое векторное представление ну во многих задачах там не знаю fisica книжки не где угодно это так или иначе используется а вот здесь вот люди говорят а давайте вот так вот посмотрим а дальше и очень простая мы смотрим на этот имбирь inkspace и в нём будем смотреть а новая точка она к обучающей выборке близко или далеко если далеко значит выброс если близко то не выброс вот примерно так люди рассуждают и разным способом пытаются с этим работать да вот это я уже сказал обнаружилось на практике что если просто это применить то ничего не работает потому что нейронные сети они же такие штуки то очень мощные и преобразование из исходного пространство вот это пространстве на биллинг получается каким-то совсем страшный и в общем в лоб такой подход ну даже вот как его эвристическая писал он никакие его реализации не работают оказалось что он начинает более-менее работать если сетку регулировать а именно люди пытаются enforced так называемую белив 6 гуляли зации а именно что нейронная сеть она делает преобразование с одной стороны не сильно меняющие входы а с другой стороны она точки в одну не коллапсирует то есть у вас хочется чтобы преобразование было вот таким вот она бы сверху была ограничена и снизу с какими-то константами k1 и k2 естественно в это гарантировать не можете все что люди делают люди легализуют сетку как правило послойно через так называемую спектральную нормализацию чтобы линейное преобразование которое вас на каждом слое была она вот удовлетворяла вот этим вот ограничением тогда нелинейность все портит не так сильно конечно как только вы начинаете эти преобразования стакать друг другом по боям все начинает экспоненциально ухудшаться но тем не менее на практике если вот такую регуляризация применить то как мы увидим буквально через пару слайдов начинает работать неплохо а что начинает работать ну во-первых упомяну просто гениальную работу которая меня продвигалась делать свою работу работа была просто потрясающе они ее пытались продать найти мир в этом году естественно не прошли вот но на архиве она лежит а именно идея сканави творчестве они все стабильно вопрос оцените идею уточнит знаете вот я бываю часто излишне критичен это моя проблема потому что в принципе я люблю простые идеи но тут идея была слишком простая в каком-то смысле простые идеи которые работают это замечательно но иногда они все бывает слишком простые это немножко удивляет вот а именно люди сделали следующие люди сказали мы рассматриваем беринг space а дальше мы в этом пространстве к нашим данным подгоним gauge он ни к чему долл то есть галсов скую смесь обычную с количеством кластеров равном количеству класса а дальше будем смотреть если у этой замечательной смеси в какой-то точке x большое значение правдоподобия значит это ян дистрибьюшен а если маленькая to all the дистрибьюшен вот как говорится как это улыбаемся и машем да вот ну в общем вот такой вот был отличный подход в принципе если бы он возник как первый из ниоткуда то я бы согласился что это имеет право на жизнь проблема была в том что до этого было предложено три или четыре других подходов более ранних работах которые делали примерно тоже самое но более интересным способом поэтому этот подход меня настолько не впечатлил чуть более интересный способ который был предложен и был кстати опубликованная 7 или прошлого года это следующий мы берем и начинаем выход вашей не ранки моделировать никак обычный из через софт макс а мы начинаем на выходе строить смесь рпф то есть мы берем каждый класс моделируем его распределение как рпф вот и дальше у вас есть некоторых смесь этот подход в принципе а кто у них работал и есть такая статья ссылка у меня есть вот теперь на тему того как она работает вот смотрите если вы берете вот левая картинка здесь это ты тот самый критерий максимальный неопределенность максимальной вероятности вы берете классифицируйте dts две луны берете там небольшую 2 трехслойную сетку и что у вас получается у вас получается ну наверное не 2 наверное трехслойная тут сетка получается что ожидаемая картина что между классами неопределенность какая то есть тут чем чем сильнее чем не определение желтое это большая уверенность вот соответственно вот где-то вот в этих областях где вы в углах где вы ничего не знаете у вас с тем не менее абсолютная уверенность дальше применив вот этот метод из предыдущего слайда smb функциями они получили классную картинку то есть у вас видите рядом с классами у вас уверенность желтая между ними там такая узкая полоска неуверенности отошли от данных вы такие очень не уверен это естественно достигается за счет свойств рпф а потому что у рпф а если аргумент сильно-сильно ушел на бис как ушел на бесконечность то он становится нулем и вот вы выходите на эту константу но и что интересно что вот такой классный эффект достигается только если вашу сетку правильно регулировали а если сетка не регулируем а вон на ту двумя разными способами регулирована вот давайте вот на третью картинку просто посмотрим если сетка не регулирована то нейронная сеть выдаёт слишком много нелинейности и получается что у вас вот это тут у вас в областях где вы должны быть не уверены вы на самом деле уверен и почему потому что вот например вот эти вот все желтые точки на желтой области они на самом деле выберет спейси коллапсирует в какие-то очень близкие точки вот а если вы сетку за регулируете то этого не происходит понятно ли вот человек здесь все вот это вот наболтал микрофон выключать все да да да да сейчас включу понятно следующее смотрите можно предыдущий слайд вот здесь есть в регуляризации рпф две палки и квадраты евклидова расстояния то есть у нас а теперь следующий слайд а давайте поиграем например в метрик learning а если бы мы сейчас сказали а давайте будем обучать не модель а ту самую функцию которую мы оптимизируем целевую функцию крита или качество конечно же там бы было бы гораздо более сложная модель до чем норма квадратов разностей чем сумма квадратов разностей занять вот там было бы что-то даже не вот такое квадратичная да они линейно квадратичная форма какая-то вот и не не могу ее назвать и конечно же [музыка] вот и фокусов ну вот в общем нет я бы я бы стал думать вот в этом бы ключи картинки очень правильно очень классные но безусловно это некоторый тип метре клининга и можно ли его делать лучше ну наверно можно я думаю что вполне на самом деле другой вопрос есть на самом деле тут rb как вы сказали уже сработал потому что такая выборка хорошая для bf а если вы там какие то там полосочки my dear bv плохо работает у моря rb очень хорошо решать по значку кластеризации вот так да андрей классный вопрос смотрите там нет смотрите вот мне кажется ключевой момент состоит в чем ключевой момент состоит в том что это делается вы конечно можете сделать в лоб rb в исходном пространстве но здесь-то и bf делается в пространство и от нее беринга нейронной сети если нейронная сеть правильно обучена то вся ваша полоска она просто схлопнется в точку или в линию меньшей размерности вот и все точно так же как если вы нарисуете embedding вот для этих вот замечательных луну который у меня есть то в пространстве им беден га когда она урегулировано они будут выглядеть как две аккуратные гусянки вот то есть вот это вот как в основной момент что до рпф он имеет некоторую ограниченность но если нелинейность подобрана правильно которое вот здесь в этом рубрике торчит вот она и fated а то все может сильно быть лучше формат если все правильно подобрано то пространстве берингово имея минутам не будет такой ситуации ну если ну в общем случае да по факту конечно где-то будут искажений так далее но идея идея такая что мы хотим выберем где получить гуща вот это вот этот метод на это нацелен понял сразу немножко неправильно максим маленький комментарий мне очень нравится слово embedding и слова baby lips вот почему bedding он все-таки означает вложение то есть вот этот ваш слой нейросети да он не отображает одно пространство другое а он преобразует пространство и мы можем в каждой точке этого пространства измерять скорость разлита не я этих точек привыкли вычисления слоя а константа липшица при этом ограничивает но хотите штрафует вот это самое разлита не и понятную и это значит это не услуги да да да да конечно постигнешь хорошо все и у нас с вами остался последний рывок а именно я хочу рассказать чего мы придумали в этом отношении это пока работа мы ее только что недавно совсем неделю назад подали на воркшопа семеновский нас туда уже приняли ну там была такой типа rapid review потому что workshop это как не совсем публикация вот но workshop тематически он называется дистрибьюшен free anti квантификации вот и там очень много правильных людей типа там ларри васерман а и так далее известных таких статистиков скорее вот соответственно сразу скажу сразу мотивацию мне вот этих вот всех работах провод который предыдущие 2 еще есть несколько пах выжив мне что нравится мне нравится вся вот эта by лившиц его история и мне нравится в принципе смотреть на им беринг мне показалось что когда вы рассматриваете что все вот в итоге смотрелась в голосе анны это некоторая история немножко ограничительная и хотелось сделать что-то немного более общем вот и мне кажется у нас это до некоторой степени получилось плюс у нас получилась некоторая формализация и и это на за что такое неопределенность вот не не через энтропию тут у нас получится немножко по-другому соответственно что о чем мы говорим мы говорим о следующем но вот вы хотите решать задачи классификации вообще говоря идеальный классификатор это тот который минимизирует вероятность ошибки да и он и как известно оптимальный классификатор задается байесовским классификатором который исходит из того что вы знаете условную плотность то есть условную плотность бинарная задача условную плотность игрека при условиях со вы знаете тогда вы можете узнать оптимальный классификатор нокий это как бы стандартная вещь дальше а дальше я хочу сказать немножко другое я хочу сказать опускай я по выборке построил какой-то классификатор уже с крышкой тогда что такое моя мера неопределенности вообще говоря но это вообще говоря вероятность того что я в какой-то точке x ошибаюсь то есть это вероятность что мой вот этот построенный классификатор он в этой точке y ошибается ну классно только естественная посчитать ее никак не могу в лоб потому что я ну тут вероятность берется по игроку поскольку тот условно по экссудата sexus на самом деле фиксированный вот но я это вероятность с на не знаю возникает вопрос что с этим делать и вот я предлагаю мы со своими аспирантами коллегами предлагаем некоторый способ а именно следующий мы решаем задачи классификации можно сделать то же самое для регрессии будет немножко проще соответственно что мы делаем вот этот вот есть риск ошибкам вероятность ошибки его можно разбить на две части у как разбить на две части прибавить и вычесть байесовский лист бойцовский риск он будет меньше то что лучше ничего сделать нельзя соответственно две части первая часть бойцовские риск вторая часть это разность нашего риска и байесовского которое называется access-list в литературе вот дальше говорю следующее пускай тот классификатор который у меня есть же с крышкой он имеет стандартную форму а именно он как бы он основывается на оценке условной плотности то есть какая-то ушло оценка условной плотности больше 1 2 единица меньше 1 2 0 и дальше я что делаю я хочу воспользоваться есть такое об литерату бури не уверен что известно вам неравенство может быть известно но вот статистика fleur нинги в том чем занимается там никита животов ски она очень хорошо известна это неравенство следующее что в бинарной классификации вот этот вот xs риск для классификаторов от такого типа можно сверху ограничить на 2 умножить на модуль разности плотностей то есть у вас есть вероятность ошибки а вы взяли сверху ограничили как 2 умножить на модуль разности плотностей факт нетривиальный требуют доказательства но доказывается там в две строчки вот и что я говорю я говорю следующее что я хочу вместо моего риска который я не знаю хочу рассмотреть его верхнюю границу а именно байесовский риск кстати он равен минимуму из условной плотность единице минус условной плотности вот плюс 2 плюс вот эта верхняя оценка но классно построил какую-то формулу новую что с ней делать мы все равно вот эту разницу это с крышкой и это мы не знаем в бойцовский то риск можно вместо неизвестной этой подставить это с крышкой получить некоторую его оценку по крайней мере а вот сюда то точно ничего подставить не получается потому что ну как удар чего представлять и тут я говорю а давайте мы рассмотрим ядерную оценку плотность нейронных сетей пока никаких нет просто x и у меня есть какие-то задачи классификации просто в пространстве я рассматриваю ядерную оценку плотности обычную по сути надо рая ватсон только для категориальных переменных игла и подальше использую а симпатическую аппроксимацию а именно если правильным образом выбирать шаг то оценка плотности оно является асимптотически нормальной с правильным среднем и вот некоторые дисперсии и вот это вот формула для дисперсии это ключевая вещь в том что я делаю у нее замечательные свойства если б от x aptx это как раз маргинальное плотно sexo если оно в какой-то точке маленькая то есть мы где-то на границе нашей выбор или вообще ушли от нашей выборке далеко то пэт x будет маленькая и моя дисперсия будет большая вот мой очень простой способ определять где у меня autodesk только бьешь по суть потому что вот это вот формула для дисперсии она будет просто большой там где у меня мало . ну что я в итоге делаю я говорю следующее у меня есть вот эта вот правая часть вот это вот моя оценка ну точнее не оценка пока не которая верхняя граница на риск я говорю ну что могу сделать я знаю асимптотически распределение мои оценки плотности давайте посчитаем от ожидании беру считаем матожидание вот ожидании считается ну потому что матожидания модуля нормальной она как бы известно этот корень из 2 делить на pin на стандартное отклонение вот вот это вот будет моей полной оценкой неопределенности более того она состоит из двух частей первая часть это по сути оля торная неопределенность а вот эта часть этапе сценическое потому что это вот соответствует байесовского риску который в точности соответствует алиа торна неопределенности а это большое там где у меня мало . это моя apisto мической они определенно ну вот собственно все подход на этом закончить а те ну и дальше с да тут у вас есть в оригинальное распределение признаков объект speaks of до 1 формально тоже неизвестно для выбрать его нужно осмотрите а смотрите смотрите это хороший вопрос эти глупые вопросы не бывает вот смотрите у меня в этой формуле вообще ничего не известно у меня здесь это от x у меня здесь талой до того того тут не видел вот это вот эта вся дисперсия толко да ничего не известно но у меня есть замечательная ядерная оценка я беру и снова сюда вставляю вместо это с крышкой могу ядерно ценить плотно six of могу оценить дисперсию все могу оценить вот этот интеграл это ядерная оценка для большой размерности очень очень плохая 10 признаков все уже ядерной оценка так тебе работает особенно слушайте мне же не нужно делать в точную оценку плотности мне нужно сделать для deep learning a оценка неопределенности понятно что если вырос до понятно что если вы рассмотрите какую реальную ну как бы сказать если вы тут будете говорить о скорости сходимости в каком-нибудь 50 мерном пространстве то у вас все будет просто отвратительно вот но я здесь предлагаю некоторые метод просто которые исходят из таких предположений поезда в плане скорости сходимости чего-нибудь к чему-нибудь то все будет очень плохо интересно получается да вот а дальше что мы делаем это уже практика мы можем можно зато у меня есть тоже парочка комментариев коммент ю ю ю от сорта жирный insert and и пожалуйста до ворот вительно вот эта формула замечательная мой сын обычной руководитель как раз на эту тему говорил пал мичман боб черным кинжалом пораженным продажный он получил того чего хотел-то свои здесь получили оба члена как и показали в первых слайдах и т.д. это прекрасно но меня смущает смотрите прям пример то же самое что и андрея можно предыдущий слайд а именно вот этот значок сумма в j равняется 1 до n и а число ваших . x да которые вы должны откуда взять вот это число вот это на самом деле этот интер мальчик дает точнее это множество джей оно должно быть континуумом так чтобы считать x не знаю минус x для каждой точки понятно для расстояния между двумя точками в любой в любой области по крайней мере это будет вот в вашем стиле в стиле вашего начала то есть как первое решение это классно но наверное вот как второе решение вместо вот этой дроби на даст устроить какую-то плотность какую-то не розетку опять же да который на всем пространстве срочно ну да смотрите объясняю первое этот метод то есть вот эти вот та формула которое написано ее можно посчитать и тут сумма идет все-таки не блокаде новому а по выборке вот которого это по той самой выборки которой у вас есть второй вопрос что то что здесь как бы скрыто что когда у вас нейронные сети и у вас выбор к нам не знаю 10 тысяч сто тысяч миллион объектов то извините меня фиг посчитать вот поэтому у нашего метода он как вы увидите через пару слайдов должны между эти работает вот в него засунуть метод ближайших соседей то есть мы строим граф ближайших соседей довольно эффективным современным методам который нам позволяет в итоге приближении к всем этим суммам считать эффективно и быстро вот то есть там целая история еще на самом деле под капотом потому что вот сумму большой не посчитаешь а мы хотим быстро предсказан ну и первый мор можно вот первую вещь которую которая меня смущает это то что смотрите предыдущие сказать 4030 можно где у нас сейчас нет еще один слайд назад вот господин так ура товарищи не важно у вас короче говоря есть два класса вот класс да и класс нет и есть вероятность из логистической регрессии классно вероятность на 1 минус вероятность вот в самом начале вы классная вещь сказали а предположим уж нас классов весьма и весьма много да и мы считаем вот этой неопределенностью ну само значение вероятности того что зависимая переменная принимает значение и вичка на данном классе и вот вы как-то взялись за стандартное определение до из эмпирического риска и от этого отошли весьма красивого соображения я думаю что мы сейчас выучили в эксперименте к этому придете выживать картинки классифицирует что много классов осмотрите нет для много классов мы обобщили задачи очень простым образом мы рассматриваем много классов как много задач одна против всех потом просто по просто по сути усредняем вот поэтому такую начали хорошую вещь сказали ведь но этот момент кстати недоработан немножко потому что на самом деле можно рассматривать ни один против всех описать некоторые обобщение вот этого неравенства тоже вот но этого там у нас пока руки не дошли мы попроще сделай это хорошо замечание спасибо вот спасибо вот теперь собственно к экспериментам должны же быть у неё такие картинки вот эксперименты получились интересно я предлагаю посмотреть на правую картинку она по-моему очень прикольно я объясняю что есть мы берем мы берем мне у нас есть нейронная сеть обычное нам нести потом мы берем еще цифр 10 и цифр 10 делаем его grayscale в общем и и берем и перемешиваем у нас есть некоторое тестовый выборка мне стоит у до замешиваем цифр 10 а потом говорим уважаемые методы оценки неопределенности попробуйте нам отранжировать как не гений определенность больше для каких точек и что получается мы их отсортировали по возрастанию час до по возрастанию неопределенности то и начинаем включать объекты вот у нас 10000 1 10 тысяч другого начинаем включать ты еще включили 2000 3000 включили и так далее а на графике я рисую вот среди этих первых тысяч объектов какая доля из цифр 10 и вот если мы просто ориентируемся на оценку там например на основе энтропии просто для нейронной сети или на макс про то у нас график почти линейный они вообще не отличаются фар от министра хотя сетка обычно нам нести а потом мы применяем наш метод и вот видите у него почти до 10000 он дотягивает еще него долго-долго долго-долго-долго на нуле и только самые самые самые не определенные мне ст и он начинает путать цифры то есть только вот здесь вот на самом-самом конце что по-моему выглядит довольно впечатляюще конечно на кончике да конечно такой огромный разрыв он потому он бы мог быть меньше если бы мы сравнивались нет самыми базовыми breeze лайнами теми методами про который я говорил раньше ну как красивая картинка мне нравится вот дальше мы измеряли качество работы уже в чист и на что мы делали мы брали цифр 100 imagined сначала брали цифру 100 и брали 90 классов как in дистрибьюшен а 10 классов какого-то дистрибьюшен мы там рассматривали разные группы классов там типа по моему у нас были транспортные средства были есть какие-то большие объекты еще что-то общем какие-то когерентные групп и классов там есть иерархия классов в цифре и вы начинаете вот мы выбрали 10 классов сафари 100 как out of дистрибьюшен и 90 как in дистрибьюшен обучались нет с нуля резне tomoya всем этом деле и сравнивали разные методы что оказалось оказалось что в таблице нарисован рока ук для классификации in дистрибьюшен от out of дистрибьюшен рока ук не идеальный потому что задача не очень простая потому что тут не кошки собаки против рентгена все-таки в цифре картинки они там плюс минус похоже это по своей структуре вот поэтому рока оку лучше здесь где-то 085 во всех задачах примерно и оказалось что наш подход он справа называется нюк он работает на одном уровне с самыми хорошими подходами в том числе с ансамблем даже иногда лучше ну а для красоты как сейчас принято в статьях бал дом выделенные жирным выделены два самых лучших методах то есть соответственно видно что в топ-2 наш метод вошел во всех случаях вот ну а строчки они соответствуют разным молоток дистрибьюшен разным цветом вот и наконец мы то же самое сделали для имидж на я-то тоже какую-то группу классов отложи или другую группу классов сказали что это ян дистрибьюшен обучили и здесь у нас получился какой-то прям колоссальный разрыв то есть видно что правда нету тут ансамбль ансамбль не успели обучить ну на ими ждать еще довольно долго учиться кто учил между нагнать я не учил но знаю в том что у меня студентов учить эсперанто вот поэтому тут сравнено с более простыми методами тот детей это кстати смешной метод это тест называется его популяризовал литра в год назад а именно берем и просто начинаем картинки всяко портить немножко там отражать там еще что-то с ними делать и дисперсии у нас это просто дисперсия по берем одну картинку многое и разных сделали там всяких отражений смотрим насколько сетка на это реагирует вот у нас в нашего метода получился прямо очень большой разрыв ну это сейчас продолжаем во лидировать а ну и кстати мы показываем здесь что нормализация она важна вот эту спектрально нормализация чтобы били вшивость хотя бы в сторону нее делать шажочек то есть наш метод работает и без нее вот предпоследняя строчка это без спектральной нормализации но в двух из трех случаев он становится сильно лучше если спектрально нормализацию добавить вот это то что сейчас модно называть в литературе обличен станет что некоторая часть нашего pipeline она важна вот резюме важно понимать такие есть вообще источники неопределенности важно их правильной моделировать задача детектирования out of дистрибьюшен объектов она сложно непростая ну если нам и нужно очень качественно работать по всем направлениям то есть нужно с одной стороны с вероятностной точки зрения делать все правильно с другой стороны нейронная сеть это сложно алгоритмы нужно с архитектурой тоже работать очень аккуратно ну что иначе ничего не получится все спасибо за внимание у нас получился прямо марафон всем огромное вам спасибо да прям прекрасно очень интересно договорили и главное термины термины и термины ваши крым принимаются с огромным удовольствием ну хорошо тогда я enter и затевалось когда я соберусь таки защищает докторскую то я рад что к крайней мере части нашего российского сообщества они хорошо воспринимаются это повышает шанс хорошо олег андрей если у вас какие-то еще вопросы замечания будут задавал во время презентации спасибо огромное интересно действительно у меня будет нет но это очень здорово и спасибо большое за так вот серединка у меня есть вопрос вот в серединку слайдов их какие у нас есть выборки там 3 или 4 класса чтобы вот по вашей стратегии нарисовать распределение дирихле любое другое похожее распределение и кстати потом вот все-таки da di carta вы умножите его на каждую точку пространства иксов простые выборки знаете я честно вот когда говорят какую взять выборку чтоб классов было немного я бы начинал с того что просто брал несколько классов из места и все это проще всего . так сделать бинарную задачу ну возьми там 08010 против семёрки или 0 против единицы до все будет нормально меня о самом деле еще поворот спектральная регуляризация нормализации не интересно как оно соотносится с классическими в deep learning и всякими большой урон и так далее формально она она не то делает на да ну вот как например что будет вот в том методом капитана звался простите где вот эти полумесяцы были нарисованы дух вроде как так что будете там спектральный нормализацию изменить на хоть там бачелор который там в нормальный вид приводит но утверждение такое что она делает что-то в другом направлении то есть она регулирует по-другому а нам понять и она что что делать то что делает batch норм как это влияет на процесс обучения до сих пор нет мнения в литературе окончательного люди пытаются понять то есть как бы интуитивно вроде понятно по факту теорему для простой модели чтобы еще нормализация делает вот это вот доказать довольно ну как бы никто не смог пока я просто спектральный нормализации принципе то же самое то есть ну да мы нормализирует линейные отображения втулок здесь нелинейность которая все равно все портит и ну понимаете нет извините я курил у курил у функции активации ой ну давайте я все-таки планшет у меня все еще подключен я выясню что андрей андрей андреев и они все не так просто слил о вы согласны смотреть какая ситуация у лилу отличная константа липшица сверху она единица а снизу у нее извините никакой константы липшица нет поэтому что люди делают люди обучают резне ты а именно если у вас f от x это x плюс z и x то вы натравливаете спится спектральную нормализацию например с константой 1 2 на же ты тогда у вас уже от x константа липшица 1 2 а у f от x верхняя константа лившица три вторых а нижняя 1 2 опять же один минус одна вторая и тогда наступает счастье поэтому ресниц + спектральная нормализация вот он пусть путь к победе вот а просто спектрально нормализация она от фичи коллапса когда у вас две разные точки схлопываются в одно оно не помогает другая проблема понятно что если у вас 10 слоев то у вас 1 2 в десятой степени и вы опять сильно расстраивать вот но на практике даже для вот мы горизонта 50 мне кажется мы это делали помогает и работает а без нее не работает не подумал она она она где-то и спой она не сильно распространена она где-то было известно заранее то есть эти люди которые пару лет назад начали вот эти герменевтические модели смотреть не они ее придумали то есть для чего то она была не знать нужно не знаю для чего но в итоге вот здесь она как бы сыграл и как показывает практика с точки зрения к итоговым а да или а 2 накид и доли процента ухудшается из-за дополнительной за организованности и а вычислительно она не начинает особо медленне сходиться и и сама она достаточно дешевая то есть это посчитать этот спектр послойно это довольно быстро максимально собственно значение над посчитайте разделить на него у меня маленький вопрос по ансамблем правильно ли я понимаю что если мы будем стараться максимально органа лидировать ансамбле чтобы это не значило формально хотя понять что значит но качество нашего onset of action учиться но гипотетически да наверно это должно помогать потому что ну то же самое как в бединге мы все таки стараемся сильнее ти коррелировать другая проблема что первое непонятно как это делать технически не совсем понятно ну то есть можно как придумать какой штраф там еще что то но это скорее всего кажется чем-то сложным вторая проблема что такой audi корреляция это все-таки довольно сильно регуляризация и это может приводить к тому что индивидуальные модели могут становиться сильно хуже есть такой подход в литературе которая называется batch ансамбле а именно люди пытаются в рамках одной модели с помощью хитрого трюка учить сразу ансамбль и вот так получилось что мы ну точнее не то что мы я там участвую немножко сбоку на мои коллеги с калтехе частности есть такой дима и русский вот со своими аспирантами вот они они я с ними перри забрели эти batch ансамбли и обнаружили что вот в таких batch ансамблях неожиданно модели довольно сильно ортогонален автоматически то есть там мы как бы в ансамбль не независимая ансамбль учиться вместе на скоро будет на эту тему статья я вам скину посмотреть может быть будет интересно вот но каких то таких подходов что при марта гнали заводь я не видел слишком сложно видим у нас это получилось случайно то есть мы не ставили целью ортогонален зация потом про набор далее что она неожиданно появляется спасибо я максим кстати да как то думал что вы будете что-то похожее говорить что говорил артеменков алекандра вот надо его наверное тоже как-то пригласить потому что очень красивые идеи я думаю вот не артеменкова красивая идея он ее придумал думая вот над этими про он как бы у него была до этого хорошая статья про ускоренный тест н.е. и потом он придумал что а давайте мы возьмем вот эту идею с дирихле из праер networks и по сути засудим и засунем ее в тсн я вот и у него из этого получилось все красиво мы сейчас на эту тему скоро будем писать статью у нас там небольшие проблемы с тем как это правильно то что называется продавать потому что там нужно очень аккуратно говорить потому что итоговой точность это получается не такие хорошие как у людей но про но зато полностью он супер вас то есть на моем вам этот точность всем я не знаю идею красивая и очень хорошо да и тогда нужно доработать понимаете сейчас мир мир мир всяких хороших конференция он очень жесток войти хорошо тогда будем ждать пока вы работаете хорошо я тогда вам сейчас скину презентацию чтобы она у вас было все большую да и я очень благодарен хорошим вопросом потому что было очень приятно пообщаться я в таком формате и все это не рассказывал я это рассказывал как бы 100 людям одновременного например на семинар в компании flare проводил собственно это почти те же самые слайды которые рассказывал flare кроме последней части которая совсем новое вот ну там суммарное количество вопросов от ста человек было в три раза меньше чем от 3 вот поэтому я очень очень рад хорошо спасибо тогда да да и было приятно пообщаться и на связи до свидания россия большое задание свидание

так ну вот да смотрите вот почему термином которые вы произносили и которое ваш замечательный студент произносил на защите также секундочку какой из моих замечательных студентов а их там было двое вы кстати молодец у вас около 2 два студента из ваших получили флажок лучший докладчик всего была выбрана из всех скольки 4 дня до примерно 60 человек наверное вы послушали довыборы выбраны был ли 42 из них ваша и один по моему получил да да да получил задача получил приказ статью пишу на эту тему а я думаю что это отчасти связано с тем что у меня просто темы которые хорошо ложатся под этот комитет понимание комитета что таковых ну да да да артеменко себе ханович вот да двое замечательных ребят да и артёменко как раз он использовал вовсю термины и on certainty и без темик а я-то рик и так далее я пошел эти термины искать в интернете вообще и нашел страницу на википедии где это все было не очень понятно честно говоря списком описано и больше особо нечего нет и вот в этой области я ценю учебник томас ковер и joy томас elements of информация тире и там есть вот этот термин оферта нити он встречается по всему учебнику но раз шесть или восемь как-то так и ни разу не было более-менее жесткого определения и если вы например сейчас предложите терминологическую систему целую там и прямо боем ваши фанаты а если не предложите система то мы вас будем критиковать за то что вы вместо одних терминов используйте другие терминах ну сама сама сама on certain идти это информация theory то есть это вот шеншина нас к теории что согласуется с названием институция систем институт проблем передачи информации да это вот оно это ребята вот этим занимается ну вот а так вот на максим ярош разрешил экранчик отлично да я сейчас соответственно начну так так в общем смотрите сначала небольшой такой дисклеймер то есть я сегодня расскажу про в целом немного расскажу про то что делается вот с этим вот самым пресловутым set in this theme шин для в первую очередь нейросетевых моделей и более я плотно расскажу про конкретную часть onset анти меньше некоторую под задачу которая называется out of distribution detection вот я сформулирую что это такое более менее строго в рамках как раз байесовского подхода вот ну и в конце предложу некоторое такое полу строгое решение почему полу строгой тоже будет понятно которая мы вот недавно сами разработали вот но вначале что касается и писцами клео тарик я не очень большой фанат этих терминов они в вот в этом самом современных статьях по вот этому sunset in this theme шин очень часто используется людьми но тоже без всякого определения вот и я покажу как это можно в принципе определить но это не то чтобы единственное возможно определение просто есть определенные подход вещи вы можете сказать вот есть такой функционал и у него есть часть которую можно золотистыми к есть которую можно отеля тарик и все вместе это можно назвать он считал такой вот единого определения псковской сказал что я не знаю вот ну максимум вот правильно ли я понимаю что если например говорить в терминах там макая бишь по системе к это вот то что я прямо по формуле вижу вы это априорное распределение алиа тарик это правдоподобие или нет нет нет не так не так не так не так и мнимые мы это обсудим с вами но это будет где-то через полчаса сначала мы начнем с хорошо ну давайте да да хорошо смотрите я буду говорить про три вещи ну презентацию меня на английском я думаю что от никого не смущает вас до соответственно сначала поговорю в целом про on set on this theme is что я имею под этим в виду дальше поговорим как раз про всякие вероятностной модели и потом чуть более подробно поговорим про задачи out of distribution detection соответственно меня можно прерывать боль менее в любой момент вот мой доклад в целом будет не очень строгим потому что он такой немножко в канве того что происходит вот именно deeply линком unity а там все как правило не очень строго тем не менее в конце мы выйдем к чуть более строгим вещам которые может быть чуть более будут приятны для восприятия и так о чем будет речь речь идет о том что в идеальной жизни хотелось бы что и что вы если у вас есть некоторая модель которая что-нибудь предсказывает то вы также могли бы дали для вот этого предсказания предоставляет некоторую меру уверенности в этом предсказании или меру неопределенности соответственно что это может быть и какие могут быть мера неопределенности мы прямо увидим след на следующем слайде и на нескольких следующих слайдах ну в голове можно держать что например если у вас есть регрессионная задача то это может быть например стандартно склонение предсказания или как как одна из возможных мер вот если вы да вот максима как раз я вижу вот эту сигма куда чем она отличается вот у нас есть например пара терминов мат ожидания и дисперсии то есть матожидания матожидания да и у нас есть две такие два якоря два способа определения по крайней мере два способа определения матожидания это определение через интеграл лебега вот который является строгим но и имеет например такой недостаток что для распредели для каких-нибудь странных распределение типа распределениях каши но он не существует впрочем его можно приблизить чем-нибудь другим вот и есть ну какая то такая народная привязка что если у нас есть мат ожидания и дисперсии то мы имеем дело с нормальным распределением вот две две точки две точки входа вот on certainty здесь чем отличается от дисперсии от матожидание матожидания смотрите если мы говорим про задачи регрессии то на самом деле это совсем скоро будет на слайдах то ничего нет я со шляпкой этой а и со шляпкой это матожидание в точности до f со шляпкой в точности матожидания сигма с крышкой в точности стандартные отклонения но это один из вариантов потому что если мы предполагаем что вас все нормально и то вообще ничем а вот если у вас например она немножко ненормальная то там уже может быть хотеться строить какие-то доверительные интервалы они будут уже не только надо с ними нормально берем первый и второй момент чем проблема нет понимаете если у вас распределение ненормальная то моменты вам не позволяют строить первые два момента не достаточно того что построить давить на интервал поэтому да поэтому тут возникают уже некоторые особенности но мы в них особо углубляться не будем интереснее вещи будут про классификацию но я предлагаю дождаться соответствующего слайда окей вот но вопросы все очень правильные вот смотрите если вы такую вещь построили а именно вот такую некую меру неопределенность например дисперсию то у вас есть некоторое количество юфс кейсов которых она может быть полезна то есть приложений во-первых ваши модели она может говорить следующее если у нее вот это ну давайте говорить дисперсия для простоты если эта дисперсия большая в каком ну как по какому-то порогу например то вы можете то ваша модель может говорить извините и моему предсказанию в этом месте доверять нельзя я вообще отказываюсь что-либо делать отказ от классификация здесь у вас от к суда-то регрессе прямо золотые слова очень люблю эту тему и кстати еревана сюда black даже об этом писал много лет назад да я кстати не знал что про это писал юрий иванович но тема не нужно сам тебя тоже символ был специально для этого отказ от классификатор точно-точно я начинаю вспоминать да вот это очень важная тема я она безусловно в современной практике как в очевидно много где может быть нужно вот дальше у этой отказом от классификации есть конкретные под задачи которые ну такие частные случаи в частности это детектирование объектов которые вообще какие-то из другого домена которые мы не должны вообще классифицировать ни в коем случае на условно говоря если у вас есть нейронная сеть которая в себя принимает изображение то она вам от классифицирует любое изображение которое будет правильного размера правильно но при этом если она вас учит классифицировать кошек от собак а вы засунете рентген грудной клетки то она вам скажет эта кошка или собака вот вы наверное этого не хотите и хотели бы чтобы она of таких случаев говорила что вы не засунули какую-то ерунду вот вот такая есть конкретная подзадача еще под задачи которые мы пока кстати не занимались в отличие от первых двух но планируем заниматься в ближайшее время это конкретно детектирование всяческих от версаль данных примерах вот что в литературе до определенной степени тоже изучена но не очень сильно вот есть также пара как минимум повара задач в которых такие меры неопределенности они используются неким косвенным образом они не являются как бы целью но использовать это во первых задач и активного обучения или она же задача адаптивного планирования эксперимента по которой я девять лет назад магистерский диплом защищал под совместным руководством товарищи бурное wild к сожалению покойного вадим вячеславович а вот соответственно в этой задачи задачи активного обучения эта задача в которой вы хотите как-то увеличить свою выборку и как правило большинство ну и хотите это сделать умным образом так чтобы точек по набрать поменьше качество было получше вот большинство правил которые существуют в этой области они так или иначе основаны на том что вы берете точки там где у вас модель ожидаемая ошибка текущей модели большая то есть такое некое жадный жадного типа правило вот и соответственно я прошу прощение по слайдов под это у меня нет но точнее нету в этой презентации на словах объясняю вот и вторая задача которая решается часто довольно похожи вы методами на самом деле она довольно сильно другая эта задача по и савской оптимизации то есть когда у вас есть некоторое функция которая как правило дорогу дорого вычисляется и вы хотите ее про оптимизировать и вот методы из семейства методов называемых байесовской оптимизации когда вы грубо говоря поочередно то тыкаете в окрестность текущего оптимума и там проверяете точку либо вы проверяете области в которых у вас большая неопределённость текущей аппроксимации то есть области где у вас пока мо по мере назначений и может быть вы там минимум пропускайте вот это идея байесовской оптимизации и наиболее современное такое известное приложение и это всяческий html вот котором мы у нас не за моей группе не занимаемся но в принципе люди много занимаются и байесовской оптимизации там полез вот теперь собственно про поста ну ну как бы про чуть более конкретно соответственно если мы говорим про регрессию то ну как известно в регрессе есть целевая функция вы поверили в каких-то точках у меня нарисована что шума не было но это неважно вот вы построили некоторую аппроксимацию и и вот после этого кроме аппроксимации хотелось бы чтобы у вас было как хотелось бы построить что-то в духе доверительного интервала и это можно сделать различными методами про которые мы еще поговорим вот ну например можно предположить что ошибки у вас примерно нормальные тогда вы оцениваете дисперсию каким-то образом пока не говорю каким и строить вот такой вот замечательный доверительный интервал который как видно в моем примере довольно хороший в каком смысле он хороший а именно он уже там где у вас точки есть в обучающей выборке он шире там где их нет ну и в целом видно что истинная функция она где-то вот синенькая она где-то в рассматриваем диапазоне значений она лежит внутри этого доверительного интервала то есть давить интервал получился неплохой вот такой вот пример соответственно все можно и воспользуюсь случаем да спасибо что обратно рискнули и вспомню ваш пример про кошек и собачек и где вот здесь кошки собачки смотрите коль скоро мы все занимаемся байесовским моделированием до в той или иной степени у нас есть понятие прав вот и про мы конечно же понимаем как распределение ошибки до того как пришли данные и например пусть это где у нас данных нет например вот 0.5 по иксу да у нас там типа данных не отдай мы здесь можем какой-то pro-r накладывать и верить в него или не верить с помощью майского вывода это раз а два мне вот что поразило когда вы сказали кошки собачки и рентген грудной клетки например там у нас другой совсем про р какой у нас есть новый термин который вел наверное михаил бронштейн он называется геометрика праер то есть наши априорные положения о строении того физического мира до в котором мы выполняем наше измерение и вот в контексте вот этой вот этого вот этого графика это вот что это про р относительно структуры той формула которая написана верху fx равняется там 6 x минус 2 в квадрате синус вот вот как-то так и и вот я очень хочу как это как-то подтолкнуть мог наделать мысль что надо держать в уме 2 парой а вот про р относительно распределения до статистический проект и праер геометрические я не знаю алгебраически как его назвать вот относительно тех законов детерминированных они стохастических до которые управляют нашими измерениями вот все что я хотел сказать да простите за может доступной смотрите я очень рад что михаил бирштейна упомянули я слежу с его работами даже имел удовольствие с ним лично познакомиться он заметил он к нам приезжал статьях мы в одной комиссии сидели на защите диссертации вот да он конечно интересные вещи делает вот что касается вот вероятностной части то на самом деле да здесь и вот конкретно вот этот вот графики они построены с помощью регрессии на основе гауссовских процессов и в ней действительно если вы уйдете далеко от выборки вот это вот дисперсия она уходит на некое константное значение условно максимально ну то есть на априорную дисперсию уходит ну да да вот это как бы там как встроена в ту модель вот насчет различных геометрических вещей да я тоже согласен это обычно кодируются неким образом в структуру модели или в структура алгоритма то есть это с трактиром modules я не знаю можно как-то так сказать и это абсолютно правильно вещи с этим полностью согласен но про это я сегодня говорить практически не буду вот хорошо едем дальше я рад что андрей вернулся то он пропадал вот да ничего страшного но если еще будете пропадать мы ждать особо не будет довольно нормально да они они кстати здесь вот специалист по структурам модели и по автоэмаль вот так что довольно много есть что сказать на эту тему ну вот я как раз про автоэмали структура не буду да хорошо соответственно ну если говорить про строгую постановку задачи то может то одно из возможных постановок задач для регрессии является именно построение длительного интервала это понятная вещь строго определенное у вас есть выборка наблюдений функция плюс шум у вас есть некоторый алгоритм и дальше вы хотите вы задаете уровень значимости и хотите построить такие такой интервал обычно он имеет форму с крышкой плюс-минус вот этот вот некая величина си альфа чтобы имелась ну как бы правильное покрытие до чтобы истинная функция накрывала с доверительным интервалом заданной вероятность вот и соответственно если у вас есть какая-нибудь простая модель ну например линейная то и у вас есть нормальные ошибки то теория всего этого дела она хорошо разработана ну потому что если у вас ошибки нормальные то у вас вы делаете наименьшие квадраты у вас коэффициенты тоже нормальные случайные величины потому что они будет линейной функцией нормальной выборки соответственно ваше предсказание в новой точке она снова нормальная и вы можете посчитать для него математическое ожидание можете для него посчитать дисперсии она там вот случае двух переменных пишет простой формулой так далее вы получаете доверительный интервал который будет как бы правильным доверительным интервалом он будет действительно обладать заданной доверительной вероятностью и так далее с секунды максим только я приготовился запомнить букву цен на прошлом слайде как буква ц превратилась в букву сигма а буквы фильма добавилось вот ccc на прошлом слайде сейчас смотрите это было это была вся функция которая вот а здесь эта функция это определение умножить на стандартное отклонение на оценку стандартного отклонения но и замечательно связали до соответственно вот то есть для вот такой вот простой модели линейной для нее все хорошо проблемы начинается когда модели становятся более сложными ну то есть на самом деле для линейных моделей можно тоже придумать сколько хотите проблем например взять какую-то высокую размерность и там все сразу станет плохо сходимость будет медленно и и так далее и тому подобное и этом занимаются люди которые занимаются математической статистикой придумывают различные например структурной модели для которых все будет не так плохо ну например предполагают там что вектор параметров анти разрежена еще что-нибудь это как бы изучает там профессиональные статистики и мы в это углубляться не будем будем александр к трутся который этим занимается считать конфессиональным статистикам он тема это но он кстати этим занимается все-таки не со статистической точки зрения он сетов больше стал горит мической асада все-таки такие теоремы он не доказывает но ну да саша саша саша тоже специалист конечно вот соответственно теперь давайте коротко обсудим а как вообще в общем можно делать оценки когда у вас модель становится какое-то сложно опять же очень кратко пробегусь во первых можно продолжать в духе того что я писал на предыдущем слайде а именно условно я это называю аналитическими статистическим подходами это вы делаете в предположение что выборка достаточно большая вы делаете разложение по тэйлору по сути линеаризации и у вас в статистике от называется дельта метод и вы соответственно получаете приближенные длительные интервалы основанные на линеаризации в предположении большой выборке это можно делать проблема в том что ну как бы точность может быть не очень хорош можно делать различные варианты типа boots копирования соответственно быстро пировать вашу выборку и получать оценки bootstrap тоже может оказывать теоремы тоже хороший подход только дорого обычно считать вот дальше можно делать все что угодно в рамках байесовского подхода мы про это сегодня немножко поговорим а именно накладывать не которое построено и распределение тогда в ссоре априорное распределение автоматически получать апостериорное ну и дальше верить в то что апостериорное распределение хорошие понятно что опять же те же самые статистике они умеют про построена распределение доказанной теоремы но тоже можно делать но как правило практика с этим все-таки несколько расходятся и наконец хотелось бы упомянуть некоторое количество некоторые типы модель и которые они которые больше я бы это назвал модуль специфик то есть люди работают как то со структурой модели чтобы ее научить научить неким образом эту самую неопределенно сделать я в эту часть отношу гауссовские процессы они конечно с одной стороны полностью байесовский но с другой стороны получается очень специальная модель в которой от этого пациентка дисперсии возникает вот и поэтому я называю модуль специфик также люди например делают следующее они берут нейронную сеть приделывают к неси где-то сверху отдельную голову которая будет предсказывать дисперсию и потом задачи регрессии заставляют ее оптимизировать look like ликуд гауссовский то есть давайте знать что я сделаю я можно просто сказать дисперсия я вот сейчас это прокомментирую потому что непонятно наверное я мне только нужно минута я возьму свой планшет чтобы я мог написать сейчас секундочку давайте пока максим есть планшет я удивлюсь вот неровно творцами с диккенсом network это же of the encoding of the disease and rice здесь в этом списке не очень понятно как появился и зачем нужен а гауссовские процессы и 2 1 и 2 они связаны как я думаю водка когда говорят про героев соски процессы неявно все конечно же думают вот о чем о том что когда мы вычисляем дисперсию некоторые точки x до мы раскладываем процесс не обязательно кстати гаусса скида на dither минированную и случайно составляющей использую например да теорему короне нала его вот и вот таким образом связываем dither минированную часть первого пункта гаске процесса за с дизер мини раваной частью второго пункта нейрон networks это вот та часть которая закономерность вычисляет основной dither минирован и опять же да а случайную пожалуйста вариант predicting это часть которые относятся к вариационного вт энкодером вот а вы так максим вы как я вернулась я включу планшет я могу тут написать смотрите туда продался и процесса все правильно про нейронные сети просто при объясню то есть если у вас есть вот я пишу давида до видим видим хорошо делают очень простую вещь вы например можете обучить свою основную нейронную сеть а дальше вы берёте какой-нить отложенную выборку делаете следующую вещь у вас вот нейронную сеть предсказывает а вы у вас есть на это отложенной выборки значения вы берете вот так вот а потом говорите а я буду подгонять мой предсказал q дисперсии следующим образом она у меня будет вот такая вот и потом здесь что еще у нас должно быть то есть потом не знающим минус одна вторая да а еще вы берете одну вторую минус минус одну вторую логарифма сигма с крышкой от x этого суммируйте это все вот отложенный выборки и пар и оптимизируйте это весело ну как хоть на минимум по параметрам ну я напишу условно по на минимум по сигма с крышки вот но на самом деле по параметрам той нейронной под-сети которая вот эта сигма с крышкой делать ну вот такой подход вот люди делают есть очень известная статья то есть такой тип мая то ли в гетман деталь в google брей не товарищ его зовут баладжи лакшми-нараяны ли как-то так примерно вот у него есть статья естественно очень хорошо цитируемая где он этот подход протестировал довольно тщательно там в точности и оптимизации гипер параметрах через обоснованность модели фактически диссертации макает 90 го года ну да да да просто он взял это применил к нейронным сетям и показал что это действительно неплохо работает что вы можете так параметры подобрать реально задач целом да ничего не обучает можно все сразу на одной я просто для простоты объяснения мне кажется что они на одной сразу делали ну давайте назовем этот будет стропам и да да хорошо ладно едем дальше соответственно теперь немножко и поговорим про классификацию в классификации всё становится несколько любопытнее потому что если в регрессии хоть большинство методов и предполагают что у вас нормальное распределение в неком виде есть но вы можете про это и забыть вот и думать просто чтобы предсказывать какие-то числа потом у вас распределение возникает только тогда когда вы оба читать и думать в случае классификации все чуть-чуть по-другому а именно у вас как правило все почти для любых методов вам вам алгоритм выдает вероятность пардон соответственно и и вот это вероятности есть большое желание и сразу же использовать как собственно меру неопределенности в предсказаний то есть если у вас есть несколько классов вы берете в точке x смотрите на максимальную не очень хорошо написана 2x написать вы смотрите на максимальную вероятность а дальше берете единица минус максимальная вероятность и соответственно чем это число больше тем у вас больше неопределенность потому что максимальной вероятности классов которые выдали она соответственно меньше вот соответственно вполне себе мира и очень хочется и пользоваться однако возникают некоторые проблемы ну во-первых до того как я скажу про проблемы существует 2 мера которое который тоже в принципе приятного было пользоваться это обычная информационной энтропии энтропии шеннон а а именно если у вас выдали какому-то классу вероятность мне не знаю 095 то у него энтропия то распределение классов энтропия будет маленькая а если у вас вероятностью у всех классов одинаковую то энтропия будет принимать максимальное значение поэтому энтропию можно тоже вполне себе мерой неопределенности считать это вот второе может быть бы в некотором смысле более хороший подход к тому чтобы определить тут неопределенность проблема с обеими этими функциями возникает например когда вы рассматриваете задачи out of distribution у меня вот здесь есть примеру не очень хороший не очень понятный но я попробую объяснить а именно что было была функция была задача классификации и вся выборка лежала на отрезке вот который вот здесь вот двумя серыми пунктирными линиями обозначен то есть вот отсюда до сюда здесь лежала выборка мы по ней оценили но вот слева это до 7 де функция справа вот может смотреть справа это после сигма да то есть уже прям вероятность вот бинарная задач и соответственно мы эту функцию как то наверное хорошо оценили на ее там где у нас были данные но проблема состоит в том что как только в этой области отошли функции это продолжает как-то предсказывать никаких данных у нас тут не было и вот например здесь вероятность выдается ровно единица и соответственно вот если вы просто возьмете вот эту энтропию то она будет как бы 0 хотя казалось бы с какого по какой причине мы должны вообще здесь что-то такое говорить мы наверное должны предсказывать что здесь у нас неопределенность должна быть какая-то обновить на большая вот и про это за право дистрибьюшен да так song поговорим позднее но я хотел сказать что вот этих у обоих меру них есть некоторая гранчи но это только часть проблем другая часть проблем была обнаружена в следующем опять же лет пять примерно назад сообщества научная в области киплинга очень возбудилась в связи с чем выяснилось что модели современные киплинга они довольно плохо калиброван что такое калибрации калибрации это следующая представьте у вас есть генеральная совокупность или большая тестовая независимый выбор к вам бы хотелось что для точек для которых вы например предсказываете вероятность 05 чтобы для примерно 0 5 плюс минус иксе чтобы на них итоговая вероятность ошибки было примерно тоже 05 ну казалось бы логично требования вот она называется калибрации но оказалось что на практике вот этот вот expected calibration мэр он очень большой то есть вот например вот здесь вот синим приведена картинка для реальной нейронной сети ресниц 110 обочиной на выборке цифр 100 видно что вот по оси x здесь приведены вероятности а а по оси y точно для соответствующих генов вот соответственно вот здесь вот на 1 с бен между 02 и 03 для него хотелось бы там что где-то 025 бы вода должна примерно быть диагональ вот этот красная кривая она идеально а по факту получается что вероятности равномерно занижается пардон наоборот видимо завышается до соответственно это называется плохой калиброванный это проблема она от предыдущей проблемы out of дистрибьюшен дать экшн она в некотором смысле ортогонально потому что она как раз вполне себе наблюдается для in дистрибьютор и вы закончите мысли давайте я закончу мысль до мысль состоит в том что во первых ну в точности никто не знает почему это происходит по всей видимости то есть по идее если ваша модель честно максимизирует кросс энтропию то она должна быть хорошо калиброванного той вот в пределе но по всей видимости многочисленные трюки которые есть вокруг обучения нейронных сетей они приводят в некоторые локальные минимумы которые в которых все плохо калиброван вот соответственно есть большая литература на каждой большой конференции как правилах хотя бы парочку статей на эту тему возникает в последние годы а именно как делать дальше калибровку и mainstream алый подход он такой берем уже обученную нейронную сеть рассматриваем некоторую отложенную выборку и на это отложенный выборки дополнительно проводим калибрации а я популярный подход калибрации это так называемый темп-ры ческий link когда вы перед тем как вы вводите одномерный параметр t и вот все логи ты перед тем как их засовывать софт макс их на этот параметр t делите а потом со то есть вы делаете такое некоторое монотонно и преобразование и вот оказывается что довольно часто этот параметр t довольно неплохо удается подобрать то есть вот справа у меня здесь калиброванная нейронная сеть но видно что она откалибровал ась плюс минус прилично то есть уже очень похоже на правду да и техническое решение да ну это чисто технически трюка таких технических трюков была разработана с десяток но вот этот самый простой темп речи skellington на практике работает кажется достаточно стабильно это просто сделать в общем такой способ разумный до вас был какой то вопрос мне кажется ри комментарий да-да-да-да-да во-первых про калибров калибровку по моим хорошо написано в базовом учебники хосмер лемешев логистической регрессии грыжей шиндо вот чё ещё было кстати вот вы же до однокурсники кирилла павлова который хорошо разобрался в нерв в нил гареев вас взялась лидер modules давай вот такой да я помню был такой ну вот дать можно я попытаюсь вот это связать с предыдущим гениальным совершенно слайдам очень не нравится вот прямо хорошего слайд можно вот 10 обратно да вот смотрите я сейчас сделаю небольшой заход я надеюсь не очень долгий мне они квартире в как-то совершенно гениальная вещь сказал вот почему когда у нас например признаков больше чем альбеков да мы говорим ну так строить модель нельзя да потому что мы сразу же найдем ту самую например там разделяющей плоскость до которая заведомо делит любой выборку на 2 класс и в частности вадимыч слова чем был адептом вот этой идеи ну вот а почему так не работает почему а ты тоже соображение не хорошо иметь признаков больше чем или параметров до больше чем объектов не работает в сетях глубокого обучения да вот почему потому что мы ожидаем от ожидания параметров у нас равняется нулю то есть мы ожидаем что все параметры нейросети равна нулю нир и сети не существует это 1 и 2 всех кто оценивают гипер параметры да то есть параметр распределения параметров все считают что у нас вот это пространство вот это распределение она у не модель на а раз так то давайте вот эту же историю с распределением параметров перекинем и на пространство данных и но почему бы нам не строить две модели как вот еще там вас два слайда назад одно модель это наша наш прогноз вот на всем design space на на в область независимой переменной да вот другая модель эта модель которая описывает насколько мы уверены в наших измерениях и действительно вот здесь у вас больше чем два с половиной давайте вот эта вторая модель уверенность али исследованной территории вот пусть она там будет близка к нулю а да двойки от -3 например да она будет быть как единиц это будет ваш отказ там от классификации только не 01 а вероятность отказа задаваться владимирович все правильно и мы сегодня даже одну модель и примерно по такому типу построенную рассмотрим но ближе к концу я приду к модели которая все-таки 1 а за 1 без этого зверя без под модели хорошо я справлюсь да ну как бы и у вас вопросы хорошие я презентации продумывал вот смотрите теперь давайте немножко поговорим про немножко поговорим про задачу перейдем как к вероятностным постановка мы не сдвинемся в сторону задача out of дистрибьюшен дтп соответственно но смотрите вот есть у нас данный x и y и они идут из какого-то совместного распределения мы вот это распределение можем разным образом по формуле условной вероятности по разным образом раскладывать на то есть мы можем сказать что совместное распределение это произведение likely худо и распределения априорного распределения иксов признаков что что по-английски называется ковре дистрибьюшен вот либо мы можем разложить по другому и сказать что это условное распределение икса по классу до умножить на априорное распределение меток соответственно вот просто напоминаю такие замечательные стандартные формулы вот и вот я хочу сейчас двинуться в сторону задачи out of дистрибьюшен что имеется в виду стандартно люди рассматривают то что у вас распределение теста но такое же как распределение трейда то есть мы действительно то есть у нас есть некоторая генеральная совокупность и мы вот из нее генерируем объекты на обучающей выборке ожидаем что потом тестовый пойдут оттуда же однако в жизни в реальное это довольно часто не так может так оказаться что вашу модель начинают запихивать на тесте точки которые отличны от обучающей выборке тут для чего я собственно писал вот эти вот все замечательные не все одну простую формулу на предыдущем слайде тут у вас начинается вариант потому что может быть например что у вас распределение класса в конкретной точке она не меняется то есть likely хуту вас фиксирован а например меняется распределение иксов то есть вам например на трейни шло из какой-то области мало . на тесте они так сказать попёрли вот это называется ковырять shift и это в принципе проблема достаточно нетривиальная то есть ну простой пример есть такое известное достаточно не знаю что сколько в широких кругах человек его зовут олег жаворонков я не знаю слышали вы про такого который in silico медис вот я как-то бы имел счастье с ним быть лет 5 назад в одной комнате с сексом впрочем кулешов директора мтс калтеха и олег жаворонков говорит у меня есть классно но он сейчас больше занимается drug discovery но вообще у него мечтает вот это вот он 9 или longevity долголетие вот он показывал аксон петровичу приложение готовясь классное приложение на по фотографии определяет возраст соответственно он подберет смартфон фотографирует аксон петровича особенно пять лет назад александр петрович никто и возраст не давал ему давали led 60 а ему было уже за 70 вот она не за 70 и 70 наверно вот ему давали 60 и тут он фотографирует александр петрович а его приложение в выдает 82 года но и так сказать и александ петрович не впечатлился во-первых расстроился во вторых не впечатлился талантами жаворонкова построения таких приложений но проблем это очевидно потому что естественно выборка по которой все это строилось в ней пожилых людей было мало вот и поэтому она в области там где пожилые люди она давала большие ошибки и соответственно вот это ровно к вы redshift вы обучались на молодых людях а тут начали тестировать на пожилых и на пожилых она стала давать естественно большие ашик вот дальше могут быть другие проблемы может быть например ну кстати это вопрос то есть это вот вопрос что это тут конкретно к вашей стрелы был ships это можно подискутировать ну на самой задачи будем считать что это говорит шиш вообще есть задача другая то лейбл shift то есть у вас может сильно меняться распределение класс да то есть вы это другая сторона этой задачи то есть для каждого класса распределение фиксирована но у вас например каких-то классов стала сильно больше вот экстремальный случай этой задачи это задача о пинцет recognise так называемая и тогда у вас появляется новый класс это вот актуально например для всяких биометрических систем когда у вас есть сколько это людей которого зарегистрированы в системе но каждый новый человек который пытается прорваться через ваш система безопасности он вообще говоря новый класс вот и соответственно это тоже нужно рассматривать вот и что как бы является некой мотивацией для того что говорю нейронные сети они у них конечно south of дистрибьюшен все довольно плохо то есть например вот у меня справа из картинки из статьи 14 года где в нейронную сеть засовывали какие-то геометрической структуры она от классным образом ри портала что вот этот вот серый круг сера оранжевые круги с черными полосками этот королевский пингвин до пирса реал какие-то подзадачи то есть распределение которое было в тренинг то есть ну добавить это точек которые не были строение смотрите это напоминает но это немножко разная потому что адресами вот так как задача сделать такое извинение которое будет незаметным да вот а тут как раз именно вот совсем out of дистрибьюшен совсем что-то экстремальное и вот по-моему там вероятность что это королевский пингвин выдавалась типа 099 вот то есть это не чуть-чуть другое на степень говорят он тоже изменение в excel эту который не будут влиять на распределение да там как раз там как раз проблемы с нутом другого типа проблемы вот ну вот вот это такая была мотиве мотивировочная вещь теперь давайте поговорим про вот как раз эти замечательные различные филлеры почему я сейчас про них начинаю говорить потому что как оказывается они вот для задачи алтарь дистрибьюшен тот экшен не каждое onset найти подходит и вот в литературе выделяет два вот эти тип вам sed ante одна называется лео турник другая называется и пестель алиа тарик это про то что у вас и ваших данных может быть какой-то внутренний шум а именно самый такой понятный пример это класс overlap то есть когда у вас есть какие то данные какая-то какие-то точки в которых у вас действительно классы пересекаются вот ну как бы вероятностное моделирование мы это хорошо себе представляем у нас есть функция условной вероятности они так например непрерывные и тогда где-то должна быть . 1 2 до между двумя классами вот это вот как раз класс overlap и вот этот вот типа неопределенности мы его но мы его попытаемся формально определить но не формально говоря мысе с ним ничего не можем сделать потому что то в наших данных есть есть мы его нему чем больше у нас будет выбор к нам и не поможет все равно могут быть точки которые сложны и потому что там какая-то внутренняя определенность дано давайте я напомню что французский математической литературы аль отвара это в точности случайная величина здоровая от к сожалению на французском зная только не так много слов но смысле я по-французски могу даже счет сказать но математической литературе не владеет это же само слово али от орико нужно откуда-то взялось сейчас вот вот это да это это это случайная величина а теперь что же такой системе лепестки миг это все остальное это детерминированная вас есть дихотомии случайно иди терменировали не совсем сейчас подождите вот это то наша нет это не не не совсем не термини равана и даже совсем недетерминированные это то что связано с тем что мы рассматриваем конечную выборку данных а значит не знаем все о наших распределениях чтобы вы могли бы они знать то есть эта часть неопределенности по вот этому неформальному определению она с ростом выборки она уменьшается то есть если вы чем вы больше наблюдаете данных тем вы лучше знаете те распределения которые у вас есть в их лучше оцениваете ваши ошибки становятся меч соответственно иллюстрация номер 1 который мне вполне себе нравится у вас есть неизвестная линейная зависимость и по каким то причинам вы и промерили только в двух частях от -3 до минус 2 и 2 до 3 соответственно там где вы данных вообще не мерили у вас большая это самая и писты мической они определенно потому что вы конечно можете по всем этим данным посчитать что там тоже будет линейно но тем не менее по факту вы этого не знаете и увы соответственно если бы вы здесь померили то ваша системе константином был меч али atari консультанте тоже понятно потому что у вас есть вот здесь вот у вас маленькая лиотар на неопределенность потому что у вас маленькая дисперсии вот а здесь она большая вы можете линейную функцию измерить сколь угодно но у вас есть некий внутренний шум в данных какая то что то с этим связано которая дает большую disperse вот в этом собственной разница соответственно вот один пример и второй пример который мне тоже вполне себе нравится все примеры не мое но найдены в статьях второй пример такой вы наблюдаете опять некие данные но здесь у вас не функция у вас есть 2 таких ветки чтобы на а то есть у вас есть зависимость от секса но она как бы многозначны соответственно что вот это вот ваш выбор при этом вот выборка она вот по мере на именно так я беру такую выборку но на самом деле истинное распределение оно вот такое то есть вот этой вот функции если бы мы брали бесконечно много точек то получили бы вот такое распределение как на картинке c просто мои данные были сгенерированы так что плотность точек вот на картинке бы она была затухающий в итоге что мы получаем мы получаем что у нас есть два типа неопределенности 1 неопределенность это неопределенность оля торна оно связано с тем что у нас есть данных две ветки и она себя ведет так на картинке е да то есть она у нас слева две ветки справа две ветки поэтому она какая достаточно большая а посередине у нас одна ветка и у нас она становится маленькой это лео торнане у нас есть эпидемическая неопределенность она на картинке f она слева маленькая справа большая почему потому что слева у нас было много точек а справа мао и соответственно ну кстати заметим что она слева тоже немножко подрастает потому что точки распределяются на две ветки и мы видим и хуже оценивать вот ну и можно рассмотреть их сумму а на утро она на картинке д слева что-то максим это мне напоминает этом не конечно же напоминает разложение ошибки на без и но и вариант дано смещение дисперсии и здесь смотрите да давайте уж тогда если мы в лингвистику мне миску в технологии погрузились да и peace теме когда чего это точное знание научное знание на достоверные сам факт измерения вот приносит нам знание да и мы говорим о есть знание и песке на концерте в смысле есть сам факт измерения и pista микро царственности снижается вот но доверие этому измерению измеряется уже в али atari концерт инте ну тогда наоборот смысле вместо андоры это грубая как матожидания а песнями как дисперсия получалась такая да только вместо констант да у нас функции вот и все так же как и в моделировании у нас самая простая модель это константа модель посложнее это линейная модель до модель ещё более сложно это какая-то там скажем суперпозиция нелинейных моделей с линейных моделей с нелинейными корректирующим операциями да то есть нейросеть но вот здесь . то же самое мы видим и это прямо замечательно вот мне кажется вот эта картинка она довольно хорошо иллюстрирует что происходит вот соответственно вот этим вот рассуждениям им можно придать некоторые отчислена не численное формальное определение именно следующее вот предположим что у вас есть некоторая параметрическая модель которая в точке x со звездой неважно в точке x дает распределение лейбла y ну вот и если у вас есть некоторое распределение ваших параметров апостериорное построенная по данным то тогда во первых можно определить то что называется that all on certainty это вы берете считаете у вашего распределением от ожидания а потом результатом естественно все еще является распри деление по игреком вот а дальше у этого распределения по игрокам берете берете энтропию этот называется to the lancet и оно разбивается на две части одна часть называется лиотар и конфеты тебя другая часть называется и песке миг алиа торик это что такое это вы берете в каждой точке тета в каждой точке тета вы берете считаете энтропию потом у нее считаете матожидание то есть условно говоря вот в терминах предыдущей картинке это вы сначала выбираете одну из двух веток считаете в ней энтропию а потом правильно ли я говорю неправильно с ним на каждый из двух i&#39;m right можете здесь говорим про параметры для каждой порождающий модели вот с фиксированным параметры задает это порождающую модели мы считаем энтропию вот так потом смотрим это ожидание ну а вот разница между ними это которая на самом деле их взаимная информация некоторое это вот комическая неопределенность ну и ты-то здесь можете иметь разный смысл может иметь ну в общем то вы бы обычно имеется ввиду что не ники байесовских смысл и то же самое можно если но это вот удобно говорить для классификации для например агрессии можно говорить удобно говорить в терминах вариант то есть у вас есть общий вариант и он его можно разбить на двумя способами вы можете его разбить на то есть это матожидание дисперсии условный плюс дисперсия условного мы ожидаем а можно вопрос по радио турик консультанте можете перелистнуть на первую картинку поле поле оля так вот эту правильно ли я понимаю что авиаторы концерт intego вообще он зависит от вашей модели то есть условно говоря вы здесь говорите что ну что в реальности мы построили эти точки по линейной модели и поэтому у нас справа низкая авиатор лигатурные слева высокая а если мы предполагаем что как бы точки порожден и нелинейные модели о какой-то супер сложный моделью из слева вот точки действительно лежат на какой-то очень сложно сложной прямой не прямой линии то никакой ли atari консультанте там не будет высокий или вас не понял но смотрите то есть определение а вот там вот этот overfit мы мы сделаем жесткий график у костра и нет это это я понял олег да да да спасибо за вопрос смотрите тут вопрос в том что мы понимаем под моделью потому что вот эти вот которые я говорю они все-таки у меня определены скорее в терминах истинного распределения данных наверное ну да да и соответственно ну да если у вас истина и распределение данных простое как тут а я говорю действительно как есть высокая или низкая если мы стены там апостериорное распределение вот это вот написан в рамках байесовского подхода мы предполагаем что у нас есть априорное распределение параметров что нас данной порождены через likely худ и через априорное нас появляется апостериорное так далее красавица таки параметров ты-то апостериорного распределения может быть разве нет ну может быть до отвечая на вопрос ну да можно считать что эта модель deep and конечно выжжен для ваших данных ну как бы интер как бы зависит эти от модели у вас действительно как есть переход от баса covariance то и тут тоже может быть конечно вот ну и вот резюме из всего этого состоит в том что если мы говорим для за именно задачи out of дистрибьюшен detection то есть вот мы именно зачем-то хотим делать out of дистрибьюшен то нам нужно именно эти сценическая on certainty можно словить не читать это слово говорю вот потому что она говорит о том где нам где именно вот этот вот где у нас модель плохая и соответственно эти данные можно считать теми которые то есть out of дистрибьюшен мы воспринимаем как область где у нас плохая модель соответственно сомали а торнан sed ante она может ничего не значить у нас может быть где-то очень много данных и ошибка большая все равно потому что там большая лиотар на неопределенность ну вот а соответственно теперь наверное я достаточно быстро пробегусь по тому как люди на практике делают вообще on set in this theme очень странными сетями ну а фамилия я должна сказать вот в этом на этом в этой на этой секунде до что до сих пор ваша кампания проходит для меня с очень большим успехом это очень правильная тема конечно же и замечательно чтобы вы про нее так красиво рассказа не вот просто супер я про не за я я за термины и главное я вот за саму тему и за постановку задачи таким образом но я да спасибо я именно этот пару лет назад думал чем заниматься как то вот это вот нащупал но ему потихонечку на какой-то прогресс и чем есть вот у меня в принципе большая часть моей группы сидит где-то в этих окрестностях до соответственно соответственно что делают люди на практике люди на практике берут и 1 осматривают нитки и бойцовские модели или некоторые то что можно условно называть бойцовскими моделями и считают например эту самую историческую неопределенность просто берут у вас есть некоторый никому модели индексированные какими параметрам омега это как мы увидим буквально стоящим сладит нато может быть неким образом построенный ансамбль моделей и считает вот эту взаимную информацию как разницу 2 неопределенность вот и использует ее как меру неопределенности и ранжируются объекты по ней выбирают пороге и так далее и тому подобное и соответственно что интересно что самый успешный абсолютно во всех приложениях на настоящий момент подкова но мы это чуть-чуть поколеблено самом конце моего доклада вот но де-факто в литературе то что вы сейчас можете найти это просто строить ансамбль нейронных сетей причем строить его самым примитивным что ли образом а именно вы берете обучаете много нейронных сетей на одних и тех же данных но стартуя из разных случайных инициализации это приводит вас в разные локальные оптимум и как правило до инициализации чего параметров а параметров задача не выпуклая как известно соответственно вы будете сходиться в общем случае в разные оптимум и и как оказывается работает это дело неплохо а именно вы можете с одной стороны усреднять предсказания этих нейронных сетей и у вас будет подрастать качество основной задачи просто за счет никого и уменьшение дисперсии вот прогноза а с другой стороны вы можете смотреть на деза grim and так называемый между этими моделями то есть на несогласие в их предсказаниях на дисперсию на взаимную информацию вот эту самую которая была на предыдущем слайде и использовать ее как меру от этой песни мической неопределенностью вот что интересно что до сих пор чего то чтобы работало стабильно лучше никто не придумал то есть какой-то более обоснованный хороший подход в большинстве приложений где-то с меньшим зазором где-то с большим зазором такой подход он лидирует у него есть понятная проблема одну то нейронную сеть на реальных данных замучаешься обучать как правило а тут нужно обучить несколько а еще потом мы на этапе предсказания у вас еще кратное количество раз замедляется это людям очень сильно не нравится и поэтому люди пытаются сделать что-то более хороший ну вот приведу пример вот что что делается берутся методы и выборка тестовая она с помощью значений меры неопределенности например взаимной информации ранжируется от наибольшей от наименьшими определенности к наибольшей и вы начинаете вот у меня здесь центре картинка вы начинаете неопределенность так высчитывается по какой-то одной при обычной модели нет у вас он ну например ансамбль поселенцам вы или какими-то другими способами я про них еще скажу немножко и вы берете и откладываете вы берете и начинаете выбор выборку тестовую вас естественно выборкой вы начинаете выбирать из неё точки с начала самой маленькой неопределенность а потом все с ней принести больше больше больше больше и вот у меня здесь по оси x отложен процент выбранных точек и мы видим что точность модели ну терминах рука у к здесь она уменьшается что с увеличением количества взятых . это поведение некоторая логично и это говорит о том что меры неопределенности что-то значит то есть она действительно как-то коррелирует чем мы берем менее не определенные точки слева тем больше . вот но и вот здесь показано как раз что в сравнении с некоторым семейством других методов ансамбль всех просто бьёт как вот ну как с хорошим запасом а максим можно можно зато я здесь шутки ради скажу вот что вот посмотрим на рисунок слева снизу модели 1 модель два и так далее модель м если мы говорим что у нас каждая модель это просто линейная регрессия линейная да и их вот и там кружочек комбинация до их комбинация это тоже линейная комбинация ну конечно же там где стрелочки слева от комбинации тому у нас есть еще некоторые нелинейные нелинейные преобразования там и в точности получим двухслойное нет ни нейросеть да если мои параметры каждого нейрона могут модели 1 и model2 модель 3 будем случайно разводить ну например так чтобы идти виктор очки были более-менее ортогональны вот и подбирать их веса то мы получим пабам смесь моделей а если вместо комбинаций будет gate фан шиндо шлюзовая функции мы получим в точности смесь эксперт конечно же такие вещи работают хорошо ну да это да понятно как стать хочу сказать что у меня была работа которая ровно исходит из вашей логики что нужно нейроны сделать парта гонорий вот работа как раз в контексте оценки неопределенности у нас там были неплохие предварительные эмпирические результаты потом более тщательный анализ показал что то конкретный подход я не буду рассказывать вообще какой сегодня потому что иначе вообще никогда не закончим у меня слайдов здесь нет про это но конкретный подход в итоге что у меня получилось она работала в итоге тщательный анализ показал что она все таки не особо хорошо работает и мы эту работу так и не опубликовали в прямом виде она лежит на архиве правда некоторые сиквел мы опубликовали в применении к работам к методам обработки естественного языка у нас там есть партнеры саша панченко его команда который занимается естественным языком мы там вот у в приложении к трансформером наш метод более менее заработала вы его там публиковали довольно неплохо на хорошей конференции по естественному языку вот но это забавно просто что вот то что вы сказали в ровном и даже делали в принципе теперь возвращаясь к основному так сказать по току моего сознания ансамбль young медленный люди придумали миллион способов как этот ансамбль young ускорять все они в той или иной степени работают все они работают в итоге все равно хуже чем основной метод то есть быстрее но хуже по качеству и упомянул один подход который очень популярен в литературе который как правило работает но работает не очень хорошо это так называемый монте-карло dropout а именно ну все знают что такое dropout а вот товарищем эрин угол у и довольно знаменитому товарищу зубе ну-ка храма не вот и в 2016 году пришла в голову очень простая идея а давайте мы dropout будем применять на в момент предсказания а именно но обычно же dropout при предсказании как используется он вообще никак не используется включаются все нейроны их выходы школе руются чтобы в среднем получалось столько сколько надо вот они сказали давайте мы будем сэмплировать и и и потом будем если говорить регрессии считать стандартно то есть вас будут получаться для каждого сэмпла нейронов разное предсказание итоговой нейронные сетки и будем считать нам стандартное отклонение вот этот подход обрел огромную популярность среди народа потому что нейронную сеть надо обучать чего одну правда все еще остается проблема того что потом нужно ее кратное количество раз сэмплировать единственное как бы подход очень популярный как раз вот это некая ортогональны зация мы делали в контексте этого подхода но и чем это кое-что в итоге обычно работает все таки паршивый ансамбле ансамбле сильно лучше настоящим вот так я пропущу теперь коротко максим гляньте в чате к пожалуйста я не вот здесь здесь пришел вопрос по как раз по пройденному материалу скорее темпо у меня есть реакция но интересно конечно ваша реакция ада вопрос понятен как правило все таки рассматривают какие-то частные под задачи или covered shift relay бушев то есть я вот в конце буду говорить про к в redshift полную вероятность мне кажется в лоб не используют иногда сложно сказать что использует потому что очень много всего делается именно deep learning комьюнити а там знаете помахали руками что-то предложили и и и в радостно протестировали вот и вообще не понятно что происходит у меня например та работа наши по которой я в самом конце расскажу она как раз выросло из того что как бы есть работы свежие вот этого самого гири наголо и он там очень много машет руками очень мало пишет очень много машет руками очень мало пишет форму ничего не понятно вот и мы пытались сделать чтобы было понятно может коротенькое замечание здесь уже снова ваша реакция а если например взять и построить какой-то вот такую фундаментально большую систему а именно почему бы не строить для в пространств для иксов и для игреков две модели для каждого пространство и песке миг и а я тарик а потом все это соединять в совместную совместное распределение я понимаю что звучит города довольно громоздка но все же ну я вам так скажу вот модель в которой я в конце предложу например на это вроде не следует в конце концов то есть она ну посмотрим вот смотрите я еще наверно коротко расскажу про один подход который перед тем как перейти к финальной части а именно этот подход он называется он он интересный и он он был предложен таким андреем малинин им который в то время был предложен года три или четыре назад он в то время был аспирантом в кэмбридже сейчас он является еще чирам в яндексе нашем московском word то есть он из кембриджа с пературы приехал в этот индекс research вот ну так вот что он предложил он предложил следующее он сказал ну вот если у нас есть какое-то апостериорное распределение то параметров и у нас есть соответственно like лихута в конце нас интересует как правило ну то что называется по стерео предикатив дистрибьюшен а именно интеграл от likely худо папа posterior вот соответственно и он сказал а давайте мы будем мы предложим для вот этого вот мы предложим некоторые для этой ситуации некоторую нетривиальную вероятностную модель что он конкретно сделал он сказал следующее сейчас я правильно это сформулируем он сказал сейчас уже немножко я устал сейчас формулирую как он правильно сказал сейчас я сейчас немножко я запутался сейчас судя потому что здесь написано здесь эта функция используется чтобы integra недель дельта функция это правильно сейчас я просто скажу правильную правильную аналогию баба ба ба ба ба бам сейчас а ну вот что он собственно сказал он сказал следующее что люди обычно берут и моделирует распределение над классами правильно то есть мы говорим что у вас что у нас есть ну там после saw макса получается распределение над классами на он сказал следующее вообще говоря у нас же в пространстве у нас на simply xi есть очень хорошее распределение а именно есть такое распределение на симплекс и который называется распределение дирихле вот и он говорит следующее а давайте у нас нейронная сеть она будет не выдавать вектор распределение по классам а она будет выдавать вектор параметров распределение дирихле и это на самом деле довольно интересная вещь потому что вы можете моделировать разные ситуации например ваше распределение дирихле может быть сконцентрировано вот это вот симплекс у которого как бы каждая вершина соответствует одному классу вот соответственно в середине вероятности 1 3 на на ребре у вас вероятность 1 2 для 2 классов и для 3 класса ноль соответственно вы тогда можете моделировать разные ситуации вы можете сказать что у вас все распределение с концентрированным в одном углу и тогда это вы уверены то есть это то что называется уверенно и предсказаний дальше вы можете сказать что у вас все распределение она сфокусирована в центре это значит что у вас что это значит в терминах оля торная писать image и неопределенности это значит что у вас большая или а торна неопределенности маленькое пи сценическое вы абсолютно уверены что вас вероятность 1 3 до всех 3 класс и у вас есть третий вариант а именно у вас распределение ну там примерно равномерно на simplex это говорит о том что у вас высокая писцами ческая неопределенность вы вообще для этой точке не понимаете какое для нее должно быть распределение максим дать с прогнозируем что будет через три слайда смотрите у вас справа от вот этого треугольника любого из на будет стоять крест декард его произведения да и мы умножаем вот этот треугольник распределением на y до на распределение и без темик наикса и получаем ту самую совместную вероятность а вот нет сейчас все расскажу как они сделали подход который вы говорите он наверное возможно на самом деле я думаю что этот подход нужно улучшать которую них есть но они сделали немножко по-другому они сделали следующие первое они сказали ну распределение дирихле но такое замечательное у него ровно столько параметров сколько классов давайте у нас нейронная сеть будет точно такой же структуру как ваша любимая нейронная сеть до этого но она будет предсказывать не вероятности классов об опо параметры распределения дирихле дальше под это дело нужно какой-нибудь лосс функцию придумать и они придумали лосс функцию состоящую из двух частей первая часть у них отвечает за in дистрибьюшен они минимизируют кульба кляйбер между между некотрое некоторым эмпирическим распределением дирихле чтобы это не значило я сейчас не буду вдаваться в итоге в детали ну прям не помню честно говоря и тем что выдает модель то есть они некоторым образом строятся и ческую оценку строю и считают кульбака с тем что выдала модель а вторая часть у них еще круче они говорят но на у нас же есть еще all the в дистрибьюшен и мы для него хотим получить что-то типа равномерного распределения и вот они используют отдельную out of дистрибьюшен выборку и это главный недостаток их подхода им нужна отдельная выборка и для id и вот они берут эмпирическую для out of дистрибьюшен как просто некое равномерное распределение и пытается подогнать чтобы нейронная сеть на уток дистрибьюшен точках выдавала равномерное распределение вот и вся идея возможности такой вопрос я не пою почему нельзя просто использовать тот же лопает ликуд ну как бы вот ваши не рост которой классический да это плотная текут отмыть именно короче кати горя мультик короче это категориальном распределяется вот здесь вы заменили его на дирихле ну давайте сделаем также look like you&#39;ve put от распределения дирихле там тоже красиво формулы все будет красиво газировать почему так не здесь просто в лоб детская дивергенции так далее ну вообще-то look like food это есть как дивергенция между мужчинами аль нами распределения нет около кихот это логарифм подобие выборг наподобие здесь будет распределение дирихле логарифм плотность распределения директ летом красивая функция получается достаточно принципе тоже можно без проблем минимизировать вроде бы еще андрей тут два варианта то есть я первый вариант это та говоря оба варианта это то что как мне кажется это то же самое а я первый вариант это то что это прямо но есть и второй вариант это то что если вы посмотрите на один из способов как вывести метод максимум правдоподобия то он стартует как раз с минимизацией цель дивергенции через вставления вкл дивергенцию вместо годности эмпирической плотности меня есть и надежность и что получится но это как бы я вот в своих лекциях по статистике именно так ввожу метод максимум правдоподобие ролики большинство людей говорят да будет так а я говорю давайте начнем с минимизацией цель дивергент вот ну ладно почему мы это то я чувствую я думаю что все немножко устали давайте мы все таки продвинемся вот в общем есть вот такой вот подход он он существует есть серия статей на эту тему он достаточно популярен сообщества его хорошо восприняла и у него есть некоторая проблема с тем что нужно вот это вот out of distribution выборка иначе у них ничего не получается вот у меня были мысли про то что круто бы сделал было бы сделать без out of distribution выборки условно говоря сказав что у нас априорно сетка выдает везде равномерно и вот как это правильно имплементировать это такой вопрос не совсем тривиальных не кажется вот все теперь финальный финальный часть и собственно расскажу про нашу последнюю работу которую мы недавно нас ну я в общем расскажу как это хорошая цифра скоро вот у людей людей гложет такая проблема а вот мы не хотим вообще никаких вероятностных особо вещей накручивать хотим взять одну нейронную сеть и что-нибудь про нее сказать вот взяли одну нейронную сеть сделали какой нибудь может быть пост-процессинг и каким-то чудом определили что и сумели разные типы неопределенности сделать вот их идея у людей примерно такая вот если мы рассмотрим задачу это дистрибьюшен дат action то давайте подойдем к ней с такой точки зрения взяли нейронную сеть прогнали через неё точки но прогнали не до самого прогнали через нее картинки давайте считать но не до самого конца прогнали а до какого-нибудь слоя vk арам мы взяли и просто использовали выход этого слоя как некоторое векторное представление ну во многих задачах там не знаю fisica книжки не где угодно это так или иначе используется а вот здесь вот люди говорят а давайте вот так вот посмотрим а дальше и очень простая мы смотрим на этот имбирь inkspace и в нём будем смотреть а новая точка она к обучающей выборке близко или далеко если далеко значит выброс если близко то не выброс вот примерно так люди рассуждают и разным способом пытаются с этим работать да вот это я уже сказал обнаружилось на практике что если просто это применить то ничего не работает потому что нейронные сети они же такие штуки то очень мощные и преобразование из исходного пространство вот это пространстве на биллинг получается каким-то совсем страшный и в общем в лоб такой подход ну даже вот как его эвристическая писал он никакие его реализации не работают оказалось что он начинает более-менее работать если сетку регулировать а именно люди пытаются enforced так называемую белив 6 гуляли зации а именно что нейронная сеть она делает преобразование с одной стороны не сильно меняющие входы а с другой стороны она точки в одну не коллапсирует то есть у вас хочется чтобы преобразование было вот таким вот она бы сверху была ограничена и снизу с какими-то константами k1 и k2 естественно в это гарантировать не можете все что люди делают люди легализуют сетку как правило послойно через так называемую спектральную нормализацию чтобы линейное преобразование которое вас на каждом слое была она вот удовлетворяла вот этим вот ограничением тогда нелинейность все портит не так сильно конечно как только вы начинаете эти преобразования стакать друг другом по боям все начинает экспоненциально ухудшаться но тем не менее на практике если вот такую регуляризация применить то как мы увидим буквально через пару слайдов начинает работать неплохо а что начинает работать ну во-первых упомяну просто гениальную работу которая меня продвигалась делать свою работу работа была просто потрясающе они ее пытались продать найти мир в этом году естественно не прошли вот но на архиве она лежит а именно идея сканави творчестве они все стабильно вопрос оцените идею уточнит знаете вот я бываю часто излишне критичен это моя проблема потому что в принципе я люблю простые идеи но тут идея была слишком простая в каком-то смысле простые идеи которые работают это замечательно но иногда они все бывает слишком простые это немножко удивляет вот а именно люди сделали следующие люди сказали мы рассматриваем беринг space а дальше мы в этом пространстве к нашим данным подгоним gauge он ни к чему долл то есть галсов скую смесь обычную с количеством кластеров равном количеству класса а дальше будем смотреть если у этой замечательной смеси в какой-то точке x большое значение правдоподобия значит это ян дистрибьюшен а если маленькая to all the дистрибьюшен вот как говорится как это улыбаемся и машем да вот ну в общем вот такой вот был отличный подход в принципе если бы он возник как первый из ниоткуда то я бы согласился что это имеет право на жизнь проблема была в том что до этого было предложено три или четыре других подходов более ранних работах которые делали примерно тоже самое но более интересным способом поэтому этот подход меня настолько не впечатлил чуть более интересный способ который был предложен и был кстати опубликованная 7 или прошлого года это следующий мы берем и начинаем выход вашей не ранки моделировать никак обычный из через софт макс а мы начинаем на выходе строить смесь рпф то есть мы берем каждый класс моделируем его распределение как рпф вот и дальше у вас есть некоторых смесь этот подход в принципе а кто у них работал и есть такая статья ссылка у меня есть вот теперь на тему того как она работает вот смотрите если вы берете вот левая картинка здесь это ты тот самый критерий максимальный неопределенность максимальной вероятности вы берете классифицируйте dts две луны берете там небольшую 2 трехслойную сетку и что у вас получается у вас получается ну наверное не 2 наверное трехслойная тут сетка получается что ожидаемая картина что между классами неопределенность какая то есть тут чем чем сильнее чем не определение желтое это большая уверенность вот соответственно вот где-то вот в этих областях где вы в углах где вы ничего не знаете у вас с тем не менее абсолютная уверенность дальше применив вот этот метод из предыдущего слайда smb функциями они получили классную картинку то есть у вас видите рядом с классами у вас уверенность желтая между ними там такая узкая полоска неуверенности отошли от данных вы такие очень не уверен это естественно достигается за счет свойств рпф а потому что у рпф а если аргумент сильно-сильно ушел на бис как ушел на бесконечность то он становится нулем и вот вы выходите на эту константу но и что интересно что вот такой классный эффект достигается только если вашу сетку правильно регулировали а если сетка не регулируем а вон на ту двумя разными способами регулирована вот давайте вот на третью картинку просто посмотрим если сетка не регулирована то нейронная сеть выдаёт слишком много нелинейности и получается что у вас вот это тут у вас в областях где вы должны быть не уверены вы на самом деле уверен и почему потому что вот например вот эти вот все желтые точки на желтой области они на самом деле выберет спейси коллапсирует в какие-то очень близкие точки вот а если вы сетку за регулируете то этого не происходит понятно ли вот человек здесь все вот это вот наболтал микрофон выключать все да да да да сейчас включу понятно следующее смотрите можно предыдущий слайд вот здесь есть в регуляризации рпф две палки и квадраты евклидова расстояния то есть у нас а теперь следующий слайд а давайте поиграем например в метрик learning а если бы мы сейчас сказали а давайте будем обучать не модель а ту самую функцию которую мы оптимизируем целевую функцию крита или качество конечно же там бы было бы гораздо более сложная модель до чем норма квадратов разностей чем сумма квадратов разностей занять вот там было бы что-то даже не вот такое квадратичная да они линейно квадратичная форма какая-то вот и не не могу ее назвать и конечно же [музыка] вот и фокусов ну вот в общем нет я бы я бы стал думать вот в этом бы ключи картинки очень правильно очень классные но безусловно это некоторый тип метре клининга и можно ли его делать лучше ну наверно можно я думаю что вполне на самом деле другой вопрос есть на самом деле тут rb как вы сказали уже сработал потому что такая выборка хорошая для bf а если вы там какие то там полосочки my dear bv плохо работает у моря rb очень хорошо решать по значку кластеризации вот так да андрей классный вопрос смотрите там нет смотрите вот мне кажется ключевой момент состоит в чем ключевой момент состоит в том что это делается вы конечно можете сделать в лоб rb в исходном пространстве но здесь-то и bf делается в пространство и от нее беринга нейронной сети если нейронная сеть правильно обучена то вся ваша полоска она просто схлопнется в точку или в линию меньшей размерности вот и все точно так же как если вы нарисуете embedding вот для этих вот замечательных луну который у меня есть то в пространстве им беден га когда она урегулировано они будут выглядеть как две аккуратные гусянки вот то есть вот это вот как в основной момент что до рпф он имеет некоторую ограниченность но если нелинейность подобрана правильно которое вот здесь в этом рубрике торчит вот она и fated а то все может сильно быть лучше формат если все правильно подобрано то пространстве берингово имея минутам не будет такой ситуации ну если ну в общем случае да по факту конечно где-то будут искажений так далее но идея идея такая что мы хотим выберем где получить гуща вот это вот этот метод на это нацелен понял сразу немножко неправильно максим маленький комментарий мне очень нравится слово embedding и слова baby lips вот почему bedding он все-таки означает вложение то есть вот этот ваш слой нейросети да он не отображает одно пространство другое а он преобразует пространство и мы можем в каждой точке этого пространства измерять скорость разлита не я этих точек привыкли вычисления слоя а константа липшица при этом ограничивает но хотите штрафует вот это самое разлита не и понятную и это значит это не услуги да да да да конечно постигнешь хорошо все и у нас с вами остался последний рывок а именно я хочу рассказать чего мы придумали в этом отношении это пока работа мы ее только что недавно совсем неделю назад подали на воркшопа семеновский нас туда уже приняли ну там была такой типа rapid review потому что workshop это как не совсем публикация вот но workshop тематически он называется дистрибьюшен free anti квантификации вот и там очень много правильных людей типа там ларри васерман а и так далее известных таких статистиков скорее вот соответственно сразу скажу сразу мотивацию мне вот этих вот всех работах провод который предыдущие 2 еще есть несколько пах выжив мне что нравится мне нравится вся вот эта by лившиц его история и мне нравится в принципе смотреть на им беринг мне показалось что когда вы рассматриваете что все вот в итоге смотрелась в голосе анны это некоторая история немножко ограничительная и хотелось сделать что-то немного более общем вот и мне кажется у нас это до некоторой степени получилось плюс у нас получилась некоторая формализация и и это на за что такое неопределенность вот не не через энтропию тут у нас получится немножко по-другому соответственно что о чем мы говорим мы говорим о следующем но вот вы хотите решать задачи классификации вообще говоря идеальный классификатор это тот который минимизирует вероятность ошибки да и он и как известно оптимальный классификатор задается байесовским классификатором который исходит из того что вы знаете условную плотность то есть условную плотность бинарная задача условную плотность игрека при условиях со вы знаете тогда вы можете узнать оптимальный классификатор нокий это как бы стандартная вещь дальше а дальше я хочу сказать немножко другое я хочу сказать опускай я по выборке построил какой-то классификатор уже с крышкой тогда что такое моя мера неопределенности вообще говоря но это вообще говоря вероятность того что я в какой-то точке x ошибаюсь то есть это вероятность что мой вот этот построенный классификатор он в этой точке y ошибается ну классно только естественная посчитать ее никак не могу в лоб потому что я ну тут вероятность берется по игроку поскольку тот условно по экссудата sexus на самом деле фиксированный вот но я это вероятность с на не знаю возникает вопрос что с этим делать и вот я предлагаю мы со своими аспирантами коллегами предлагаем некоторый способ а именно следующий мы решаем задачи классификации можно сделать то же самое для регрессии будет немножко проще соответственно что мы делаем вот этот вот есть риск ошибкам вероятность ошибки его можно разбить на две части у как разбить на две части прибавить и вычесть байесовский лист бойцовский риск он будет меньше то что лучше ничего сделать нельзя соответственно две части первая часть бойцовские риск вторая часть это разность нашего риска и байесовского которое называется access-list в литературе вот дальше говорю следующее пускай тот классификатор который у меня есть же с крышкой он имеет стандартную форму а именно он как бы он основывается на оценке условной плотности то есть какая-то ушло оценка условной плотности больше 1 2 единица меньше 1 2 0 и дальше я что делаю я хочу воспользоваться есть такое об литерату бури не уверен что известно вам неравенство может быть известно но вот статистика fleur нинги в том чем занимается там никита животов ски она очень хорошо известна это неравенство следующее что в бинарной классификации вот этот вот xs риск для классификаторов от такого типа можно сверху ограничить на 2 умножить на модуль разности плотностей то есть у вас есть вероятность ошибки а вы взяли сверху ограничили как 2 умножить на модуль разности плотностей факт нетривиальный требуют доказательства но доказывается там в две строчки вот и что я говорю я говорю следующее что я хочу вместо моего риска который я не знаю хочу рассмотреть его верхнюю границу а именно байесовский риск кстати он равен минимуму из условной плотность единице минус условной плотности вот плюс 2 плюс вот эта верхняя оценка но классно построил какую-то формулу новую что с ней делать мы все равно вот эту разницу это с крышкой и это мы не знаем в бойцовский то риск можно вместо неизвестной этой подставить это с крышкой получить некоторую его оценку по крайней мере а вот сюда то точно ничего подставить не получается потому что ну как удар чего представлять и тут я говорю а давайте мы рассмотрим ядерную оценку плотность нейронных сетей пока никаких нет просто x и у меня есть какие-то задачи классификации просто в пространстве я рассматриваю ядерную оценку плотности обычную по сути надо рая ватсон только для категориальных переменных игла и подальше использую а симпатическую аппроксимацию а именно если правильным образом выбирать шаг то оценка плотности оно является асимптотически нормальной с правильным среднем и вот некоторые дисперсии и вот это вот формула для дисперсии это ключевая вещь в том что я делаю у нее замечательные свойства если б от x aptx это как раз маргинальное плотно sexo если оно в какой-то точке маленькая то есть мы где-то на границе нашей выбор или вообще ушли от нашей выборке далеко то пэт x будет маленькая и моя дисперсия будет большая вот мой очень простой способ определять где у меня autodesk только бьешь по суть потому что вот это вот формула для дисперсии она будет просто большой там где у меня мало . ну что я в итоге делаю я говорю следующее у меня есть вот эта вот правая часть вот это вот моя оценка ну точнее не оценка пока не которая верхняя граница на риск я говорю ну что могу сделать я знаю асимптотически распределение мои оценки плотности давайте посчитаем от ожидании беру считаем матожидание вот ожидании считается ну потому что матожидания модуля нормальной она как бы известно этот корень из 2 делить на pin на стандартное отклонение вот вот это вот будет моей полной оценкой неопределенности более того она состоит из двух частей первая часть это по сути оля торная неопределенность а вот эта часть этапе сценическое потому что это вот соответствует байесовского риску который в точности соответствует алиа торна неопределенности а это большое там где у меня мало . это моя apisto мической они определенно ну вот собственно все подход на этом закончить а те ну и дальше с да тут у вас есть в оригинальное распределение признаков объект speaks of до 1 формально тоже неизвестно для выбрать его нужно осмотрите а смотрите смотрите это хороший вопрос эти глупые вопросы не бывает вот смотрите у меня в этой формуле вообще ничего не известно у меня здесь это от x у меня здесь талой до того того тут не видел вот это вот эта вся дисперсия толко да ничего не известно но у меня есть замечательная ядерная оценка я беру и снова сюда вставляю вместо это с крышкой могу ядерно ценить плотно six of могу оценить дисперсию все могу оценить вот этот интеграл это ядерная оценка для большой размерности очень очень плохая 10 признаков все уже ядерной оценка так тебе работает особенно слушайте мне же не нужно делать в точную оценку плотности мне нужно сделать для deep learning a оценка неопределенности понятно что если вырос до понятно что если вы рассмотрите какую реальную ну как бы сказать если вы тут будете говорить о скорости сходимости в каком-нибудь 50 мерном пространстве то у вас все будет просто отвратительно вот но я здесь предлагаю некоторые метод просто которые исходят из таких предположений поезда в плане скорости сходимости чего-нибудь к чему-нибудь то все будет очень плохо интересно получается да вот а дальше что мы делаем это уже практика мы можем можно зато у меня есть тоже парочка комментариев коммент ю ю ю от сорта жирный insert and и пожалуйста до ворот вительно вот эта формула замечательная мой сын обычной руководитель как раз на эту тему говорил пал мичман боб черным кинжалом пораженным продажный он получил того чего хотел-то свои здесь получили оба члена как и показали в первых слайдах и т.д. это прекрасно но меня смущает смотрите прям пример то же самое что и андрея можно предыдущий слайд а именно вот этот значок сумма в j равняется 1 до n и а число ваших . x да которые вы должны откуда взять вот это число вот это на самом деле этот интер мальчик дает точнее это множество джей оно должно быть континуумом так чтобы считать x не знаю минус x для каждой точки понятно для расстояния между двумя точками в любой в любой области по крайней мере это будет вот в вашем стиле в стиле вашего начала то есть как первое решение это классно но наверное вот как второе решение вместо вот этой дроби на даст устроить какую-то плотность какую-то не розетку опять же да который на всем пространстве срочно ну да смотрите объясняю первое этот метод то есть вот эти вот та формула которое написано ее можно посчитать и тут сумма идет все-таки не блокаде новому а по выборке вот которого это по той самой выборки которой у вас есть второй вопрос что то что здесь как бы скрыто что когда у вас нейронные сети и у вас выбор к нам не знаю 10 тысяч сто тысяч миллион объектов то извините меня фиг посчитать вот поэтому у нашего метода он как вы увидите через пару слайдов должны между эти работает вот в него засунуть метод ближайших соседей то есть мы строим граф ближайших соседей довольно эффективным современным методам который нам позволяет в итоге приближении к всем этим суммам считать эффективно и быстро вот то есть там целая история еще на самом деле под капотом потому что вот сумму большой не посчитаешь а мы хотим быстро предсказан ну и первый мор можно вот первую вещь которую которая меня смущает это то что смотрите предыдущие сказать 4030 можно где у нас сейчас нет еще один слайд назад вот господин так ура товарищи не важно у вас короче говоря есть два класса вот класс да и класс нет и есть вероятность из логистической регрессии классно вероятность на 1 минус вероятность вот в самом начале вы классная вещь сказали а предположим уж нас классов весьма и весьма много да и мы считаем вот этой неопределенностью ну само значение вероятности того что зависимая переменная принимает значение и вичка на данном классе и вот вы как-то взялись за стандартное определение до из эмпирического риска и от этого отошли весьма красивого соображения я думаю что мы сейчас выучили в эксперименте к этому придете выживать картинки классифицирует что много классов осмотрите нет для много классов мы обобщили задачи очень простым образом мы рассматриваем много классов как много задач одна против всех потом просто по просто по сути усредняем вот поэтому такую начали хорошую вещь сказали ведь но этот момент кстати недоработан немножко потому что на самом деле можно рассматривать ни один против всех описать некоторые обобщение вот этого неравенства тоже вот но этого там у нас пока руки не дошли мы попроще сделай это хорошо замечание спасибо вот спасибо вот теперь собственно к экспериментам должны же быть у неё такие картинки вот эксперименты получились интересно я предлагаю посмотреть на правую картинку она по-моему очень прикольно я объясняю что есть мы берем мы берем мне у нас есть нейронная сеть обычное нам нести потом мы берем еще цифр 10 и цифр 10 делаем его grayscale в общем и и берем и перемешиваем у нас есть некоторое тестовый выборка мне стоит у до замешиваем цифр 10 а потом говорим уважаемые методы оценки неопределенности попробуйте нам отранжировать как не гений определенность больше для каких точек и что получается мы их отсортировали по возрастанию час до по возрастанию неопределенности то и начинаем включать объекты вот у нас 10000 1 10 тысяч другого начинаем включать ты еще включили 2000 3000 включили и так далее а на графике я рисую вот среди этих первых тысяч объектов какая доля из цифр 10 и вот если мы просто ориентируемся на оценку там например на основе энтропии просто для нейронной сети или на макс про то у нас график почти линейный они вообще не отличаются фар от министра хотя сетка обычно нам нести а потом мы применяем наш метод и вот видите у него почти до 10000 он дотягивает еще него долго-долго долго-долго-долго на нуле и только самые самые самые не определенные мне ст и он начинает путать цифры то есть только вот здесь вот на самом-самом конце что по-моему выглядит довольно впечатляюще конечно на кончике да конечно такой огромный разрыв он потому он бы мог быть меньше если бы мы сравнивались нет самыми базовыми breeze лайнами теми методами про который я говорил раньше ну как красивая картинка мне нравится вот дальше мы измеряли качество работы уже в чист и на что мы делали мы брали цифр 100 imagined сначала брали цифру 100 и брали 90 классов как in дистрибьюшен а 10 классов какого-то дистрибьюшен мы там рассматривали разные группы классов там типа по моему у нас были транспортные средства были есть какие-то большие объекты еще что-то общем какие-то когерентные групп и классов там есть иерархия классов в цифре и вы начинаете вот мы выбрали 10 классов сафари 100 как out of дистрибьюшен и 90 как in дистрибьюшен обучались нет с нуля резне tomoya всем этом деле и сравнивали разные методы что оказалось оказалось что в таблице нарисован рока ук для классификации in дистрибьюшен от out of дистрибьюшен рока ук не идеальный потому что задача не очень простая потому что тут не кошки собаки против рентгена все-таки в цифре картинки они там плюс минус похоже это по своей структуре вот поэтому рока оку лучше здесь где-то 085 во всех задачах примерно и оказалось что наш подход он справа называется нюк он работает на одном уровне с самыми хорошими подходами в том числе с ансамблем даже иногда лучше ну а для красоты как сейчас принято в статьях бал дом выделенные жирным выделены два самых лучших методах то есть соответственно видно что в топ-2 наш метод вошел во всех случаях вот ну а строчки они соответствуют разным молоток дистрибьюшен разным цветом вот и наконец мы то же самое сделали для имидж на я-то тоже какую-то группу классов отложи или другую группу классов сказали что это ян дистрибьюшен обучили и здесь у нас получился какой-то прям колоссальный разрыв то есть видно что правда нету тут ансамбль ансамбль не успели обучить ну на ими ждать еще довольно долго учиться кто учил между нагнать я не учил но знаю в том что у меня студентов учить эсперанто вот поэтому тут сравнено с более простыми методами тот детей это кстати смешной метод это тест называется его популяризовал литра в год назад а именно берем и просто начинаем картинки всяко портить немножко там отражать там еще что-то с ними делать и дисперсии у нас это просто дисперсия по берем одну картинку многое и разных сделали там всяких отражений смотрим насколько сетка на это реагирует вот у нас в нашего метода получился прямо очень большой разрыв ну это сейчас продолжаем во лидировать а ну и кстати мы показываем здесь что нормализация она важна вот эту спектрально нормализация чтобы били вшивость хотя бы в сторону нее делать шажочек то есть наш метод работает и без нее вот предпоследняя строчка это без спектральной нормализации но в двух из трех случаев он становится сильно лучше если спектрально нормализацию добавить вот это то что сейчас модно называть в литературе обличен станет что некоторая часть нашего pipeline она важна вот резюме важно понимать такие есть вообще источники неопределенности важно их правильной моделировать задача детектирования out of дистрибьюшен объектов она сложно непростая ну если нам и нужно очень качественно работать по всем направлениям то есть нужно с одной стороны с вероятностной точки зрения делать все правильно с другой стороны нейронная сеть это сложно алгоритмы нужно с архитектурой тоже работать очень аккуратно ну что иначе ничего не получится все спасибо за внимание у нас получился прямо марафон всем огромное вам спасибо да прям прекрасно очень интересно договорили и главное термины термины и термины ваши крым принимаются с огромным удовольствием ну хорошо тогда я enter и затевалось когда я соберусь таки защищает докторскую то я рад что к крайней мере части нашего российского сообщества они хорошо воспринимаются это повышает шанс хорошо олег андрей если у вас какие-то еще вопросы замечания будут задавал во время презентации спасибо огромное интересно действительно у меня будет нет но это очень здорово и спасибо большое за так вот серединка у меня есть вопрос вот в серединку слайдов их какие у нас есть выборки там 3 или 4 класса чтобы вот по вашей стратегии нарисовать распределение дирихле любое другое похожее распределение и кстати потом вот все-таки da di carta вы умножите его на каждую точку пространства иксов простые выборки знаете я честно вот когда говорят какую взять выборку чтоб классов было немного я бы начинал с того что просто брал несколько классов из места и все это проще всего . так сделать бинарную задачу ну возьми там 08010 против семёрки или 0 против единицы до все будет нормально меня о самом деле еще поворот спектральная регуляризация нормализации не интересно как оно соотносится с классическими в deep learning и всякими большой урон и так далее формально она она не то делает на да ну вот как например что будет вот в том методом капитана звался простите где вот эти полумесяцы были нарисованы дух вроде как так что будете там спектральный нормализацию изменить на хоть там бачелор который там в нормальный вид приводит но утверждение такое что она делает что-то в другом направлении то есть она регулирует по-другому а нам понять и она что что делать то что делает batch норм как это влияет на процесс обучения до сих пор нет мнения в литературе окончательного люди пытаются понять то есть как бы интуитивно вроде понятно по факту теорему для простой модели чтобы еще нормализация делает вот это вот доказать довольно ну как бы никто не смог пока я просто спектральный нормализации принципе то же самое то есть ну да мы нормализирует линейные отображения втулок здесь нелинейность которая все равно все портит и ну понимаете нет извините я курил у курил у функции активации ой ну давайте я все-таки планшет у меня все еще подключен я выясню что андрей андрей андреев и они все не так просто слил о вы согласны смотреть какая ситуация у лилу отличная константа липшица сверху она единица а снизу у нее извините никакой константы липшица нет поэтому что люди делают люди обучают резне ты а именно если у вас f от x это x плюс z и x то вы натравливаете спится спектральную нормализацию например с константой 1 2 на же ты тогда у вас уже от x константа липшица 1 2 а у f от x верхняя константа лившица три вторых а нижняя 1 2 опять же один минус одна вторая и тогда наступает счастье поэтому ресниц + спектральная нормализация вот он пусть путь к победе вот а просто спектрально нормализация она от фичи коллапса когда у вас две разные точки схлопываются в одно оно не помогает другая проблема понятно что если у вас 10 слоев то у вас 1 2 в десятой степени и вы опять сильно расстраивать вот но на практике даже для вот мы горизонта 50 мне кажется мы это делали помогает и работает а без нее не работает не подумал она она она где-то и спой она не сильно распространена она где-то было известно заранее то есть эти люди которые пару лет назад начали вот эти герменевтические модели смотреть не они ее придумали то есть для чего то она была не знать нужно не знаю для чего но в итоге вот здесь она как бы сыграл и как показывает практика с точки зрения к итоговым а да или а 2 накид и доли процента ухудшается из-за дополнительной за организованности и а вычислительно она не начинает особо медленне сходиться и и сама она достаточно дешевая то есть это посчитать этот спектр послойно это довольно быстро максимально собственно значение над посчитайте разделить на него у меня маленький вопрос по ансамблем правильно ли я понимаю что если мы будем стараться максимально органа лидировать ансамбле чтобы это не значило формально хотя понять что значит но качество нашего onset of action учиться но гипотетически да наверно это должно помогать потому что ну то же самое как в бединге мы все таки стараемся сильнее ти коррелировать другая проблема что первое непонятно как это делать технически не совсем понятно ну то есть можно как придумать какой штраф там еще что то но это скорее всего кажется чем-то сложным вторая проблема что такой audi корреляция это все-таки довольно сильно регуляризация и это может приводить к тому что индивидуальные модели могут становиться сильно хуже есть такой подход в литературе которая называется batch ансамбле а именно люди пытаются в рамках одной модели с помощью хитрого трюка учить сразу ансамбль и вот так получилось что мы ну точнее не то что мы я там участвую немножко сбоку на мои коллеги с калтехе частности есть такой дима и русский вот со своими аспирантами вот они они я с ними перри забрели эти batch ансамбли и обнаружили что вот в таких batch ансамблях неожиданно модели довольно сильно ортогонален автоматически то есть там мы как бы в ансамбль не независимая ансамбль учиться вместе на скоро будет на эту тему статья я вам скину посмотреть может быть будет интересно вот но каких то таких подходов что при марта гнали заводь я не видел слишком сложно видим у нас это получилось случайно то есть мы не ставили целью ортогонален зация потом про набор далее что она неожиданно появляется спасибо я максим кстати да как то думал что вы будете что-то похожее говорить что говорил артеменков алекандра вот надо его наверное тоже как-то пригласить потому что очень красивые идеи я думаю вот не артеменкова красивая идея он ее придумал думая вот над этими про он как бы у него была до этого хорошая статья про ускоренный тест н.е. и потом он придумал что а давайте мы возьмем вот эту идею с дирихле из праер networks и по сути засудим и засунем ее в тсн я вот и у него из этого получилось все красиво мы сейчас на эту тему скоро будем писать статью у нас там небольшие проблемы с тем как это правильно то что называется продавать потому что там нужно очень аккуратно говорить потому что итоговой точность это получается не такие хорошие как у людей но про но зато полностью он супер вас то есть на моем вам этот точность всем я не знаю идею красивая и очень хорошо да и тогда нужно доработать понимаете сейчас мир мир мир всяких хороших конференция он очень жесток войти хорошо тогда будем ждать пока вы работаете хорошо я тогда вам сейчас скину презентацию чтобы она у вас было все большую да и я очень благодарен хорошим вопросом потому что было очень приятно пообщаться я в таком формате и все это не рассказывал я это рассказывал как бы 100 людям одновременного например на семинар в компании flare проводил собственно это почти те же самые слайды которые рассказывал flare кроме последней части которая совсем новое вот ну там суммарное количество вопросов от ста человек было в три раза меньше чем от 3 вот поэтому я очень очень рад хорошо спасибо тогда да да и было приятно пообщаться и на связи до свидания россия большое задание свидание

Transcript for:Probabilistic Modeling in Neural Networks

Transcript for:
Probabilistic Modeling in Neural Networks