21 сентября, суббота 01:51
Bankir.Ru

Объявление

Свернуть
Пока нет объявлений.

Скоринг частные лица

Свернуть
X
  • Фильтр
  • Время
  • Показать
Очистить всё
новые сообщения

  • Зачем же доводить до 20% Вы не поняли мой вопрос. Я спрашиваю, надо ли искуственно размножать записи до соотношения классов 50 на 50 перед тем, как запускать регрессию.
    Конечно до 20% доводить совсем не нужно. Всё зависит от объёма имеющихся у Вас данных. Я лишь привёл раскладку достаточную для построения очень точной модели : 2000 / 80% / 20%

    А зачем размножать самому ? Обычно всё это учитывается и закладывается в вычислительные процедуры пакетов. Или Вы, в смысле, пишете свой собственный стат. пакет ?

    Комментарий


    • Алгоритмы используемые в некоторых программах являются открытыми и описываются в прилагаемых pdf файлах - если интересно, то можете залезть в технические подробности

      Комментарий


      • Sonny
        DataMining - обнаружение скрытых и полезных закономерностей в данных.
        Анализируя данные о заемщиках для построения скориноговой модели, вы предполагаете что эти закономерности есть и строите модель, которая их выявляет. Предполагая, что условия возникновения закономерностей (т.е. значения признаков, характеризующих классы "плохих" и "хороших" заемщиков) не изменятся в будущем, вы классифицируете новых клиентов.

        Если модель может выявить закономерности в ваших данных и точно классифицировать "плохих" и "хороших" заемщиков по соотношению 80/20%, зачем сводить к 50/50%?

        Здесь важно понимать, что искусственно сводя к 50/50%, вы можете нарушить распределения значений признаков в каждом классе. И тогда, скорее всего, закономерности в текущих данных (т.е. ваша модель) будут неверно классифицировать новых клиентов.

        Вообщем, самое главное, чтобы распределения значений признаков в каждом классе полностью отражало будущее распределение значений этих признаков у новых заемщиков.

        Комментарий


        • Jimmy Ionic
          Вы несколько раз ссылались на статистические пакеты. Какие именно?

          Мне кажется здесь уместнее говорит о dataminig решениях.
          Например, у компании SPSS есть ее известный статистический пакет и есть dataminig решение - Clementine. Тоже и у SAS.

          Комментарий


          • dmigma Вы пытаетесь рассуждать общими категориями над методами, котопые имеют совершенно разный математический аппарат. Для деревьев решений нарушать соотношение классов в обучающей выборке - естественно смерти подобно. Меня же интересуют логит, пробит-регрессии и здесь, возможно, другой подход.
            Эксперт - это человек, совершивший все возможные ошибки в узкой сфере деятельности.

            Комментарий


            • Логистическая модель - это гиперплоскость в многомерном пространстве, которая делит ваших заемщиков на плохих и хороших. Плоскости не важно какое распределение 50/50% или 80/20%. Ее задача разделить так, чтобы ошибка классификации была как можно меньше.
              Скажем, если по модели в группу "плохих" попало из фактических данных 8 плохих и 2 хороших, а в группу "хороших" - 7 хороших и 3 плохих, то ошибка классификации 25%.

              А вероятность отнесения нового заемщика непосредственно не зависит от распределения плохих и хороших заемщиков в обучающей выборке. И расчитывается как P=1/(1+e^-Y(x)), где Y(x)=a+b1X1+b2X2+...+bnXn

              Комментарий


              • Логистическая модель - это гиперплоскость в многомерном пространстве, которая делит ваших заемщиков на плохих и хороших. Плоскости не важно какое распределение 50/50% или 80/20%. Ее задача разделить так, чтобы ошибка классификации была как можно меньше.
                Скажем, если по модели в группу "плохих" попало из фактических данных 8 плохих и 2 хороших, а в группу "хороших" - 7 хороших и 3 плохих, то ошибка классификации 25%.

                А вероятность отнесения нового заемщика непосредственно не зависит от распределения плохих и хороших заемщиков в обучающей выборке. И расчитывается как P=1/(1+e^-Y(x)), где Y(x)=a+b1X1+b2X2+...+bnXn. Xn - соответственно Ваши признаки

                Комментарий


                • Вот поэтому я и считаю, что количество объектов двух классов в обучающей выборке должно быть 50 на 50. Если у вас очень мало объектов класса "плохой" то почти любая гиперплоскость, характеризуемая b-итыми отсечет их c достаточно небольшой ошибкой классификации.
                  Эксперт - это человек, совершивший все возможные ошибки в узкой сфере деятельности.

                  Комментарий


                  • >Зачем же доводить до 20% Вы не поняли мой вопрос. Я спрашиваю, надо ли искуственно размножать записи до соотношения классов 50 на 50 перед тем, как запускать регрессию.

                    Можно и мне добавить свои пять копеек :-) Кратко говоря - нет.
                    Это подробно описано у Хосмера и Лемешева. Там как обыгрывается ситуация выборки из некоей генеральной совокупности минимального размера обучающей выборки. Можно иметь по одной записи хорошего и плохого заемщика и уже получить рабочую модель.
                    Но проблема чуть другая (извиняюсь если это азы)- гипотетически при отборе плохой/хороший нужно доказывать H0,H1 гипотезу - т.е. сличать вероятности "специфичности" и правильно выбрать точку отсечения. Т.е. возможны ситуации когда модель будет "неспецифичной" и клиент будет с высокой вероятностью и хорошим, и плохим _одновременно_. Для того чтобы повысить это различие - нужно обучить модель устойчиво различать эти признаки. Т.е. "плохих" записей тоже должно быть достаточно для обучения модели выделять "плохих". Обычно распределение "плохих" клиентов в выборке определяют по кривой Лоренца (в зависимости опять же от балла отсечения)
                    И во-вторых, про "эффект памяти" - на практике клиенты хотят влить все свои анкеты (штук так 100 тыс) и потом получить что-то работающее. Но получается ерунда - потому что предикаты усредняются и модель может потерять точность. И нужна сегментация на кластеры. Лучше сегментировать исходный набор по каким то характеризирующим признакам при помощи инструментов кластерного анализа и визуализации (например Карты Кохенена) и построить под каждый кластер модель - например своя модель для поля "Есть/нет счет в банке" , недвижимость, диапазоны возрастов и пр. Т.е. рабочий и точный способ - это сделать комплексную скоринговую _политику_ - в которой в зависимости от исходных данных будет делаться переключение (по характеристическим признакам) на _разные_ модели и как-то агрегироваться их результат.
                    Последний раз редактировалось bantik; 29.09.2006, 17:57.

                    Комментарий


                    • Интересно, надо ли при построении логистической регрессии модифицировать переменные, чтобы их распределение становилось более похожим на нормальное.

                      Что - хочется доказать ЦПТ ? :-) Информационная мера от этого не изменится - поэтому смысла нет. Ну как сделать нормальное распределение для пола заемщика или дохода ? Во-вторых - если это не числовое , а категориальное поле - то такой функцией можно размазать одно поле на несколько b-членов - а зачем ?
                      В-третьих все традиционные критерии согласия для лог-регрессии уже учитывают тот факт что функция дихотомическая и исходное распределение не нормальное. На то она и "лог", а не линейная ;-)

                      Комментарий


                      • bantik Браво!

                        Вы очень верное направление отметили - это как бы "углубление и развитие деревьев решений". Если помните - деревья решений с геометрической точки зрания - чтото вроде ломаной (линии) или ступенчатой поверхности в пространстве признаков. Поэтому, в ряде случаев такие нелинейные поверхности точнее, нежели плоскость (пусть даже и "отцентрированная" максимально точно (в пределах методоа типа МНК)). То о чем Вы говорите - предолжение и развитие - т.е. к примеру, берем деревья решений как метод. Оцениваем ошибки 1-го и 2-го рода на всей обучающей выборке. Потом - сегментируем (выявляем кластеры) на обучающей выборке и "запускаем деревья" отдельно на каждом сегменте. Смотрим - что с нашими ошибками - если они меньше, то "ход" сегментирования правильный. Выявляем отдельные кластеры, где локальный уровень ошибок выше (скорее всего - кластеры крайне неоднородны) и, в свою очередь, их разбиваем на кластеры и т.д. Это - своего рода "нелинейные" деревья решений. Интересно. Эх, было бы время ...

                        Комментарий


                        • Вы очень верное направление отметили - это как бы "углубление и развитие деревьев решений"

                          Ну наверное не я - а зарубежный опыт :-) "Классики жанра" Decision Trees (Kolluru, Vennkata, Sreerama, Murthy) тоже говорили - что если у вас сразу выпадает очень сильный характеристический признак (Есть счет/нет счета в банке) - то нужно делать сегментацию. Еще важно - построение дерева с оптимальной "шириной" и "глубиной" является NP-полной задачей (Хайфил, Ривест), а следовательно не имеет эффективного решения. Т.е. по простому - можно конечно сделать дерево - но не факт что оно будет самому понятным и не будут отсечены интересные предикаты. Но самое главное отличие кластера от дерева - что он может быть определен в многомерном пространстве (дерево расщепляется по одному признаку) - т.е. можно выделить сегменты например Возраст >30 лет> & есть счет в банке> & живет в Москве> и вот по ним уже обучать модель. Строго говоря скоринг нужен как раз для таких серых зон ("gray zone") где человек из-за многомерности потеряется. Там где все очевидно - точнее будет экспертная модель .

                          Комментарий


                          • Сообщение от bantik Посмотреть сообщение
                            Ну как сделать нормальное распределение для пола заемщика или дохода?
                            А в чем сложность? Пол вряд ли потребует коррекции - соотношение в заявках этого признака скорее всего будет соответствовать распределению в популяции. А вот доход может и потребовать. Для этого заявки сгруппирую в определенные интервалы по данному признаку и поставлю границы интервалов примерно так, чтобы чрезмерно сильных смещений не происходило.
                            Эксперт - это человек, совершивший все возможные ошибки в узкой сфере деятельности.

                            Комментарий


                            • Сообщение от bantik Посмотреть сообщение
                              Интересно, надо ли при построении логистической регрессии модифицировать переменные, чтобы их распределение становилось более похожим на нормальное.

                              Что - хочется доказать ЦПТ ? :-) Информационная мера от этого не изменится - поэтому смысла нет. Ну как сделать нормальное распределение для пола заемщика или дохода ?
                              Ответ, к сожалению, не так прост. Переменные преобразовывают не для того, чтобы распределение привести к нормальному, а чтобы зависимость между переменной и log odds сделать менее нелинейной. И информационная мера тут не при чём. Например, если зависимость риска от переменной X выглядит как буква U (высокий риск при низких X и высоких X, яма в середине), то добавление такой переменной в модель без предварительного преобразования не поможет совсем.

                              Доход заёмщика - пример прямо из книжки. Готов поспорить, что если в модели использовать логарифм дохода, то работать она будет лучше. Потому что разница в риске между клиентами с годовым доходом в $10,000 и $100,000 есть и очень большая, а разницы в риске между клиентами с годовым доходом в $1,000,000 и $1,090,000 нет никакой. Если в модель запихнуть непреобразованный доход, то коэффициент перед этой переменой будет определён по нескольким клиентам с большим доходом, то есть практически по шуму.

                              Подробнее тут: http://arrowmodel.com/cgi-bin/blosxo...t_quite_normal

                              Комментарий


                              • Сообщение от Jimmy Ionic Посмотреть сообщение
                                Sonny
                                На практике для построения модели можно руководствоваться правилом 80/20 при общем объеме имеющегося портфеля 2000.

                                В этом другое преимущество использхования готовых решений, т.е. стат. пакетов - все необходимые преобразования и "приведение данных под метод" они делают сами.
                                При моделировании есть некоторое количество степеней свободы, ограниченное эффективным размером выборки (грубо говоря, количеством редких событий, которые мы предсказывать собираемся). В данном случае имеем 400 событий. Это даст возможность оценить коэффициенты примерно для 20 независимых переменных. Вроде неплохо, да? Ведь зачастую в моделях используется даже меньше входов? Но ведь надо ещё часть данных оставить в запасе для проверки, и если делать преобразования переменных, на это тоже сколько-то степеней свободы уйдёт. Так что 2000 может оказаться мало. С другой стороны, если мы заранее знаем, что хороших переменных всего три штуки, и их преобразовывать не надо. то 2000 - больше чем достаточно для подгонки модели.

                                Подробнее про степени свободы и Events per Variable можно почитать в литературе, список тут: http://arrowmodel.com/cgi-bin/blosxo...ners_resources
                                Особенно рекомендую книжку Френка Харрела.

                                Комментарий


                                • О кластерах и деревьях. Результат реализации дерева решений - как раз кластеры (терминальные узлы). Мона задавать разные параметры - например - минимальной число элементов в каждой терминальной вершине, "глубину" дерева" и т.д и т.п.
                                  Если мне не изменяет память - основная проблема кластерного анализа - это выбор меры или "расстояния" - т.е. как считать расстояние между двумя элементами выборки - особенно если ряд предикатов - нечисловые. В деревьях это давно решено.

                                  Комментарий


                                  • Сегментацию не обязательно делать по одной независимой переменной. Например, в Vantage Score сегментация производится по risk score. Vantage заявляет, что в этом одно из их преимуществ перед FICO, и вроде даже патентную заявку на этот подход подали.

                                    Комментарий


                                    • Сообщение от Jeff Посмотреть сообщение
                                      Ответ, к сожалению, не так прост. Переменные преобразовывают не для того, чтобы распределение привести к нормальному, а чтобы зависимость между переменной и log odds сделать менее нелинейной.
                                      ..
                                      Доход заёмщика - пример прямо из книжки. Готов поспорить, что если в модели использовать логарифм дохода, то работать она будет лучше
                                      Очень здорово что появились люди, с которыми можно обсудить скоринг (за ссылку спасибо). В данном случае про доход согласен, логарифм сможет "сгладить" краевой шум. Но проблема что он загрубит не большие величины, а как раз малые. Вдобавок - такой "сбой" актуален, если мы индикаторную переменную сразу хотим поставить в полином. С другой стороны - отчего бы не отсегментировать входной набор, так чтобы величина дохода из линейной величины превратилась бы в категориальную (Доход от 0..10000, 10000..100000, выше 100000) (вопрос в пороговых значениях - я бы разбил на равновероятные площади всю выборку ) И все просто. Т.е. логарифм интересен скорее для моделей, основанных на нейронной логике - которые при краевых значениях дают аномальные выбросы, для лог-регрессии и экспертной это удается обойти.

                                      Комментарий


                                      • Сообщение от Jeff Посмотреть сообщение
                                        Сегментацию не обязательно делать по одной независимой переменной. Например, в Vantage Score сегментация производится по risk score. Vantage заявляет, что в этом одно из их преимуществ перед FICO, и вроде даже патентную заявку на этот подход подали.
                                        Ну это старая песня - что сегментировать , клиентскую базу или рынок. Я утверждаю что для FSP (поставщика финансовых услуг (Financial Services Provider) лучше первое. Поскольку рынок уже во многом поделен, и нужно что-то делать с существующими клиентами. Что такое risk score - это фактически это деление клиентов по "доходности" ..

                                        >и вроде даже патентную заявку на этот
                                        А разве патенты на математические методы и программные средства дают ? или это по штатовскому патентному праву ?

                                        Комментарий


                                        • Сообщение от bantik Посмотреть сообщение
                                          Ну это старая песня - что сегментировать, клиентскую базу или рынок. Я утверждаю что для FSP (поставщика финансовых услуг (Financial Services Provider) лучше первое.
                                          Этой песни я не слышал. Традиционно считается, что разрабатывать скоринговые модели надо на том населении, на котором они будут применяться. В случае FSP это клиентская база, а для кредитных бюро - всё кредитоспособное население.

                                          Сообщение от bantik Посмотреть сообщение
                                          Что такое risk score - это фактически это деление клиентов по "доходности".
                                          Опосредованно: высокий риск -> никто не даёт в долг на выгодных условиях -> клиент готов платить высокие проценты. Кроме того, существуют и активно применяются revenue scores, только математический аппарат там слегка другой (двухуровневые модели, GAM и так далее).

                                          Сообщение от bantik Посмотреть сообщение
                                          А разве патенты на математические методы и программные средства дают? или это по штатовскому патентному праву ?
                                          Получать патенты на очевидные решения - любимое американское развлечение.

                                          Комментарий


                                          • Сообщение от bantik Посмотреть сообщение
                                            ... логарифм сможет "сгладить" краевой шум. Но проблема что он загрубит не большие величины, а как раз малые.
                                            Наборот - логарифм подчеркнёт разницу между относительно малыми доходами и сгладит разницу между большими и очень большими.

                                            В том примере, что я приводил, разница в логарифмах разная:

                                            log(100,000)-log(10,000)=1
                                            log(1,090,000)-log(1,000,000)=0.037

                                            При этом разница в самих доходах такая же:

                                            100,000-10,000=90,000
                                            1,090,000-1,000,000=90,000

                                            Более того, логарифм слишком сильно почеркнёт разницу между малыми значениями. Поэтому обычно используют log(x+c), где c - некая взятая с потолка константа, часто 1.

                                            Сообщение от bantik Посмотреть сообщение
                                            ...отчего бы не отсегментировать входной набор, так чтобы величина дохода из линейной величины превратилась бы в категориальную
                                            Категоризация переменных в последнее время не в моде. Причин несколько. Первая и самая главная - неизбежная потеря информации. Вторая причина - появление более эффективных способов борьбы с нелинейностью, например, MARS (multivariate adaptive regression splines).

                                            Комментарий


                                            • Рано или поздно, но идеи реализуются
                                              Анкетный скоринг

                                              Комментарий


                                              • Сообщение от psch Посмотреть сообщение
                                                Статья, где описываются основные методы построения скоринговых моделей:
                                                коллеги, может у кого-нибудь сохранилась упомянутая статья по методам скоринга:
                                                http://bankir.ru/dom/showpost.php?p=1307797

                                                файл в исходном сообщении недоступен, если он у кого-нибудь есть, выложите на форум, пожалуйста

                                                Комментарий


                                                • Сообщение от dmigma Посмотреть сообщение
                                                  Логистическая модель - это гиперплоскость в многомерном пространстве, которая делит ваших заемщиков на плохих и хороших.
                                                  А теперь внимательно читаем статью http://www.mql5.com/ru/articles/366 про эту самую гиперплоскость и выясняется, что делить то она конечно заемщиков может, но вот на каких именно - это еще вилами писано.

                                                  Комментарий


                                                  • Сообщение от Reshetov Посмотреть сообщение
                                                    А теперь внимательно читаем статью http://www.mql5.com/ru/articles/366 про эту самую гиперплоскость и выясняется, что делить то она конечно заемщиков может, но вот на каких именно - это еще вилами писано.
                                                    Ну не нравится логистическая регрессия - к вашим услугам море прочих математических моделей. На мой взгляд логистическая регрессия пусть не самый точный и эффективный инструмент, зато самый простои и дешёвый, у меня не раз лежали на столе бектесты трёх моделей:
                                                    1) Логистическая
                                                    2) Нейронная сети
                                                    3) Дерево классификаций
                                                    Везде всё по уму было сделано, но Джини у них был практически одинаков. Выводы можете сами сделать.

                                                    Комментарий


                                                    • ссылочка, похоже, не работает
                                                      http://www.slideshare.net/Gewissta

                                                      Комментарий


                                                      • Сообщение от Gewissta Посмотреть сообщение
                                                        ссылочка, похоже, не работает
                                                        Да там стандартная телега насчёт правильности учёта данных, масштаба выборки и точности модели - что типа нереально ничего оценить. В интернетах можете мильон таких статей отыскать, однако реальная альтернатива математическим методам - набор команды экстрасенсов для анализа кредитоспособности.

                                                        Комментарий


                                                        • Здравствуйте всем. Могли бы вы подсказать как рассчитать затраты на внедрение скоринга в банке его эффективность.Очень нужно

                                                          Комментарий


                                                          • Сообщение от ИльяМ Посмотреть сообщение
                                                            Здравствуйте всем. Могли бы вы подсказать как рассчитать затраты на внедрение скоринга в банке его эффективность.Очень нужно
                                                            Очень просто:
                                                            Затраты на внедрение скоринга = цена программного пакета + затраты на его обслуживание + затраты на модернизацию сети + затраты на оплату труда специалистов.
                                                            Эффективность скоринга = Годовое увеличение прибыли в системе розничных кредитов / годовая составляющая затрат.

                                                            Комментарий


                                                            • Meunier, Спасибо за информацию.А не могли бы подсказать может какую нибудь книгу где бы было изложено как всё рассчитать или пример какой нибудь?

                                                              Комментарий

                                                              Пользователи, просматривающие эту тему

                                                              Свернуть

                                                              Присутствует 1. Участников: 0, гостей: 1.

                                                              Обработка...
                                                              X