5 апреля, воскресенье 22:46
Bankir.Ru

Объявление

Свернуть
Пока нет объявлений.

Скоринг частные лица

Свернуть
X
  • Фильтр
  • Время
  • Показать
Очистить всё
новые сообщения

  • Зачем же доводить до 20% Вы не поняли мой вопрос. Я спрашиваю, надо ли искуственно размножать записи до соотношения классов 50 на 50 перед тем, как запускать регрессию.
    Конечно до 20% доводить совсем не нужно. Всё зависит от объёма имеющихся у Вас данных. Я лишь привёл раскладку достаточную для построения очень точной модели : 2000 / 80% / 20%

    А зачем размножать самому ? Обычно всё это учитывается и закладывается в вычислительные процедуры пакетов. Или Вы, в смысле, пишете свой собственный стат. пакет ?

    Комментарий


    • Алгоритмы используемые в некоторых программах являются открытыми и описываются в прилагаемых pdf файлах - если интересно, то можете залезть в технические подробности

      Комментарий


      • Sonny
        DataMining - обнаружение скрытых и полезных закономерностей в данных.
        Анализируя данные о заемщиках для построения скориноговой модели, вы предполагаете что эти закономерности есть и строите модель, которая их выявляет. Предполагая, что условия возникновения закономерностей (т.е. значения признаков, характеризующих классы "плохих" и "хороших" заемщиков) не изменятся в будущем, вы классифицируете новых клиентов.

        Если модель может выявить закономерности в ваших данных и точно классифицировать "плохих" и "хороших" заемщиков по соотношению 80/20%, зачем сводить к 50/50%?

        Здесь важно понимать, что искусственно сводя к 50/50%, вы можете нарушить распределения значений признаков в каждом классе. И тогда, скорее всего, закономерности в текущих данных (т.е. ваша модель) будут неверно классифицировать новых клиентов.

        Вообщем, самое главное, чтобы распределения значений признаков в каждом классе полностью отражало будущее распределение значений этих признаков у новых заемщиков.

        Комментарий


        • Jimmy Ionic
          Вы несколько раз ссылались на статистические пакеты. Какие именно?

          Мне кажется здесь уместнее говорит о dataminig решениях.
          Например, у компании SPSS есть ее известный статистический пакет и есть dataminig решение - Clementine. Тоже и у SAS.

          Комментарий


          • dmigma Вы пытаетесь рассуждать общими категориями над методами, котопые имеют совершенно разный математический аппарат. Для деревьев решений нарушать соотношение классов в обучающей выборке - естественно смерти подобно. Меня же интересуют логит, пробит-регрессии и здесь, возможно, другой подход.
            Эксперт - это человек, совершивший все возможные ошибки в узкой сфере деятельности.

            Комментарий


            • Логистическая модель - это гиперплоскость в многомерном пространстве, которая делит ваших заемщиков на плохих и хороших. Плоскости не важно какое распределение 50/50% или 80/20%. Ее задача разделить так, чтобы ошибка классификации была как можно меньше.
              Скажем, если по модели в группу "плохих" попало из фактических данных 8 плохих и 2 хороших, а в группу "хороших" - 7 хороших и 3 плохих, то ошибка классификации 25%.

              А вероятность отнесения нового заемщика непосредственно не зависит от распределения плохих и хороших заемщиков в обучающей выборке. И расчитывается как P=1/(1+e^-Y(x)), где Y(x)=a+b1X1+b2X2+...+bnXn

              Комментарий


              • Логистическая модель - это гиперплоскость в многомерном пространстве, которая делит ваших заемщиков на плохих и хороших. Плоскости не важно какое распределение 50/50% или 80/20%. Ее задача разделить так, чтобы ошибка классификации была как можно меньше.
                Скажем, если по модели в группу "плохих" попало из фактических данных 8 плохих и 2 хороших, а в группу "хороших" - 7 хороших и 3 плохих, то ошибка классификации 25%.

                А вероятность отнесения нового заемщика непосредственно не зависит от распределения плохих и хороших заемщиков в обучающей выборке. И расчитывается как P=1/(1+e^-Y(x)), где Y(x)=a+b1X1+b2X2+...+bnXn. Xn - соответственно Ваши признаки

                Комментарий


                • Вот поэтому я и считаю, что количество объектов двух классов в обучающей выборке должно быть 50 на 50. Если у вас очень мало объектов класса "плохой" то почти любая гиперплоскость, характеризуемая b-итыми отсечет их c достаточно небольшой ошибкой классификации.
                  Эксперт - это человек, совершивший все возможные ошибки в узкой сфере деятельности.

                  Комментарий


                  • >Зачем же доводить до 20% Вы не поняли мой вопрос. Я спрашиваю, надо ли искуственно размножать записи до соотношения классов 50 на 50 перед тем, как запускать регрессию.

                    Можно и мне добавить свои пять копеек :-) Кратко говоря - нет.
                    Это подробно описано у Хосмера и Лемешева. Там как обыгрывается ситуация выборки из некоей генеральной совокупности минимального размера обучающей выборки. Можно иметь по одной записи хорошего и плохого заемщика и уже получить рабочую модель.
                    Но проблема чуть другая (извиняюсь если это азы)- гипотетически при отборе плохой/хороший нужно доказывать H0,H1 гипотезу - т.е. сличать вероятности "специфичности" и правильно выбрать точку отсечения. Т.е. возможны ситуации когда модель будет "неспецифичной" и клиент будет с высокой вероятностью и хорошим, и плохим _одновременно_. Для того чтобы повысить это различие - нужно обучить модель устойчиво различать эти признаки. Т.е. "плохих" записей тоже должно быть достаточно для обучения модели выделять "плохих". Обычно распределение "плохих" клиентов в выборке определяют по кривой Лоренца (в зависимости опять же от балла отсечения)
                    И во-вторых, про "эффект памяти" - на практике клиенты хотят влить все свои анкеты (штук так 100 тыс) и потом получить что-то работающее. Но получается ерунда - потому что предикаты усредняются и модель может потерять точность. И нужна сегментация на кластеры. Лучше сегментировать исходный набор по каким то характеризирующим признакам при помощи инструментов кластерного анализа и визуализации (например Карты Кохенена) и построить под каждый кластер модель - например своя модель для поля "Есть/нет счет в банке" , недвижимость, диапазоны возрастов и пр. Т.е. рабочий и точный способ - это сделать комплексную скоринговую _политику_ - в которой в зависимости от исходных данных будет делаться переключение (по характеристическим признакам) на _разные_ модели и как-то агрегироваться их результат.
                    Последний раз редактировалось bantik; 29.09.2006, 17:57.

                    Комментарий


                    • Интересно, надо ли при построении логистической регрессии модифицировать переменные, чтобы их распределение становилось более похожим на нормальное.

                      Что - хочется доказать ЦПТ ? :-) Информационная мера от этого не изменится - поэтому смысла нет. Ну как сделать нормальное распределение для пола заемщика или дохода ? Во-вторых - если это не числовое , а категориальное поле - то такой функцией можно размазать одно поле на несколько b-членов - а зачем ?
                      В-третьих все традиционные критерии согласия для лог-регрессии уже учитывают тот факт что функция дихотомическая и исходное распределение не нормальное. На то она и "лог", а не линейная ;-)

                      Комментарий


                      • bantik Браво!

                        Вы очень верное направление отметили - это как бы "углубление и развитие деревьев решений". Если помните - деревья решений с геометрической точки зрания - чтото вроде ломаной (линии) или ступенчатой поверхности в пространстве признаков. Поэтому, в ряде случаев такие нелинейные поверхности точнее, нежели плоскость (пусть даже и "отцентрированная" максимально точно (в пределах методоа типа МНК)). То о чем Вы говорите - предолжение и развитие - т.е. к примеру, берем деревья решений как метод. Оцениваем ошибки 1-го и 2-го рода на всей обучающей выборке. Потом - сегментируем (выявляем кластеры) на обучающей выборке и "запускаем деревья" отдельно на каждом сегменте. Смотрим - что с нашими ошибками - если они меньше, то "ход" сегментирования правильный. Выявляем отдельные кластеры, где локальный уровень ошибок выше (скорее всего - кластеры крайне неоднородны) и, в свою очередь, их разбиваем на кластеры и т.д. Это - своего рода "нелинейные" деревья решений. Интересно. Эх, было бы время ...

                        Комментарий


                        • Вы очень верное направление отметили - это как бы "углубление и развитие деревьев решений"

                          Ну наверное не я - а зарубежный опыт :-) "Классики жанра" Decision Trees (Kolluru, Vennkata, Sreerama, Murthy) тоже говорили - что если у вас сразу выпадает очень сильный характеристический признак (Есть счет/нет счета в банке) - то нужно делать сегментацию. Еще важно - построение дерева с оптимальной "шириной" и "глубиной" является NP-полной задачей (Хайфил, Ривест), а следовательно не имеет эффективного решения. Т.е. по простому - можно конечно сделать дерево - но не факт что оно будет самому понятным и не будут отсечены интересные предикаты. Но самое главное отличие кластера от дерева - что он может быть определен в многомерном пространстве (дерево расщепляется по одному признаку) - т.е. можно выделить сегменты например Возраст >30 лет> & есть счет в банке> & живет в Москве> и вот по ним уже обучать модель. Строго говоря скоринг нужен как раз для таких серых зон ("gray zone") где человек из-за многомерности потеряется. Там где все очевидно - точнее будет экспертная модель .

                          Комментарий


                          • Сообщение от bantik Посмотреть сообщение
                            Ну как сделать нормальное распределение для пола заемщика или дохода?
                            А в чем сложность? Пол вряд ли потребует коррекции - соотношение в заявках этого признака скорее всего будет соответствовать распределению в популяции. А вот доход может и потребовать. Для этого заявки сгруппирую в определенные интервалы по данному признаку и поставлю границы интервалов примерно так, чтобы чрезмерно сильных смещений не происходило.
                            Эксперт - это человек, совершивший все возможные ошибки в узкой сфере деятельности.

                            Комментарий


                            • Сообщение от bantik Посмотреть сообщение
                              Интересно, надо ли при построении логистической регрессии модифицировать переменные, чтобы их распределение становилось более похожим на нормальное.

                              Что - хочется доказать ЦПТ ? :-) Информационная мера от этого не изменится - поэтому смысла нет. Ну как сделать нормальное распределение для пола заемщика или дохода ?
                              Ответ, к сожалению, не так прост. Переменные преобразовывают не для того, чтобы распределение привести к нормальному, а чтобы зависимость между переменной и log odds сделать менее нелинейной. И информационная мера тут не при чём. Например, если зависимость риска от переменной X выглядит как буква U (высокий риск при низких X и высоких X, яма в середине), то добавление такой переменной в модель без предварительного преобразования не поможет совсем.

                              Доход заёмщика - пример прямо из книжки. Готов поспорить, что если в модели использовать логарифм дохода, то работать она будет лучше. Потому что разница в риске между клиентами с годовым доходом в $10,000 и $100,000 есть и очень большая, а разницы в риске между клиентами с годовым доходом в $1,000,000 и $1,090,000 нет никакой. Если в модель запихнуть непреобразованный доход, то коэффициент перед этой переменой будет определён по нескольким клиентам с большим доходом, то есть практически по шуму.

                              Подробнее тут: http://arrowmodel.com/cgi-bin/blosxo...t_quite_normal

                              Комментарий


                              • Сообщение от Jimmy Ionic Посмотреть сообщение
                                Sonny
                                На практике для построения модели можно руководствоваться правилом 80/20 при общем объеме имеющегося портфеля 2000.

                                В этом другое преимущество использхования готовых решений, т.е. стат. пакетов - все необходимые преобразования и "приведение данных под метод" они делают сами.
                                При моделировании есть некоторое количество степеней свободы, ограниченное эффективным размером выборки (грубо говоря, количеством редких событий, которые мы предсказывать собираемся). В данном случае имеем 400 событий. Это даст возможность оценить коэффициенты примерно для 20 независимых переменных. Вроде неплохо, да? Ведь зачастую в моделях используется даже меньше входов? Но ведь надо ещё часть данных оставить в запасе для проверки, и если делать преобразования переменных, на это тоже сколько-то степеней свободы уйдёт. Так что 2000 может оказаться мало. С другой стороны, если мы заранее знаем, что хороших переменных всего три штуки, и их преобразовывать не надо. то 2000 - больше чем достаточно для подгонки модели.

                                Подробнее про степени свободы и Events per Variable можно почитать в литературе, список тут: http://arrowmodel.com/cgi-bin/blosxo...ners_resources
                                Особенно рекомендую книжку Френка Харрела.

                                Комментарий


                                • О кластерах и деревьях. Результат реализации дерева решений - как раз кластеры (терминальные узлы). Мона задавать разные параметры - например - минимальной число элементов в каждой терминальной вершине, "глубину" дерева" и т.д и т.п.
                                  Если мне не изменяет память - основная проблема кластерного анализа - это выбор меры или "расстояния" - т.е. как считать расстояние между двумя элементами выборки - особенно если ряд предикатов - нечисловые. В деревьях это давно решено.

                                  Комментарий


                                  • Сегментацию не обязательно делать по одной независимой переменной. Например, в Vantage Score сегментация производится по risk score. Vantage заявляет, что в этом одно из их преимуществ перед FICO, и вроде даже патентную заявку на этот подход подали.

                                    Комментарий


                                    • Сообщение от Jeff Посмотреть сообщение
                                      Ответ, к сожалению, не так прост. Переменные преобразовывают не для того, чтобы распределение привести к нормальному, а чтобы зависимость между переменной и log odds сделать менее нелинейной.
                                      ..
                                      Доход заёмщика - пример прямо из книжки. Готов поспорить, что если в модели использовать логарифм дохода, то работать она будет лучше
                                      Очень здорово что появились люди, с которыми можно обсудить скоринг (за ссылку спасибо). В данном случае про доход согласен, логарифм сможет "сгладить" краевой шум. Но проблема что он загрубит не большие величины, а как раз малые. Вдобавок - такой "сбой" актуален, если мы индикаторную переменную сразу хотим поставить в полином. С другой стороны - отчего бы не отсегментировать входной набор, так чтобы величина дохода из линейной величины превратилась бы в категориальную (Доход от 0..10000, 10000..100000, выше 100000) (вопрос в пороговых значениях - я бы разбил на равновероятные площади всю выборку ) И все просто. Т.е. логарифм интересен скорее для моделей, основанных на нейронной логике - которые при краевых значениях дают аномальные выбросы, для лог-регрессии и экспертной это удается обойти.

                                      Комментарий


                                      • Сообщение от Jeff Посмотреть сообщение
                                        Сегментацию не обязательно делать по одной независимой переменной. Например, в Vantage Score сегментация производится по risk score. Vantage заявляет, что в этом одно из их преимуществ перед FICO, и вроде даже патентную заявку на этот подход подали.
                                        Ну это старая песня - что сегментировать , клиентскую базу или рынок. Я утверждаю что для FSP (поставщика финансовых услуг (Financial Services Provider) лучше первое. Поскольку рынок уже во многом поделен, и нужно что-то делать с существующими клиентами. Что такое risk score - это фактически это деление клиентов по "доходности" ..

                                        >и вроде даже патентную заявку на этот
                                        А разве патенты на математические методы и программные средства дают ? или это по штатовскому патентному праву ?

                                        Комментарий


                                        • Сообщение от bantik Посмотреть сообщение
                                          Ну это старая песня - что сегментировать, клиентскую базу или рынок. Я утверждаю что для FSP (поставщика финансовых услуг (Financial Services Provider) лучше первое.
                                          Этой песни я не слышал. Традиционно считается, что разрабатывать скоринговые модели надо на том населении, на котором они будут применяться. В случае FSP это клиентская база, а для кредитных бюро - всё кредитоспособное население.

                                          Сообщение от bantik Посмотреть сообщение
                                          Что такое risk score - это фактически это деление клиентов по "доходности".
                                          Опосредованно: высокий риск -> никто не даёт в долг на выгодных условиях -> клиент готов платить высокие проценты. Кроме того, существуют и активно применяются revenue scores, только математический аппарат там слегка другой (двухуровневые модели, GAM и так далее).

                                          Сообщение от bantik Посмотреть сообщение
                                          А разве патенты на математические методы и программные средства дают? или это по штатовскому патентному праву ?
                                          Получать патенты на очевидные решения - любимое американское развлечение.

                                          Комментарий


                                          • Сообщение от bantik Посмотреть сообщение
                                            ... логарифм сможет "сгладить" краевой шум. Но проблема что он загрубит не большие величины, а как раз малые.
                                            Наборот - логарифм подчеркнёт разницу между относительно малыми доходами и сгладит разницу между большими и очень большими.

                                            В том примере, что я приводил, разница в логарифмах разная:

                                            log(100,000)-log(10,000)=1
                                            log(1,090,000)-log(1,000,000)=0.037

                                            При этом разница в самих доходах такая же:

                                            100,000-10,000=90,000
                                            1,090,000-1,000,000=90,000

                                            Более того, логарифм слишком сильно почеркнёт разницу между малыми значениями. Поэтому обычно используют log(x+c), где c - некая взятая с потолка константа, часто 1.

                                            Сообщение от bantik Посмотреть сообщение
                                            ...отчего бы не отсегментировать входной набор, так чтобы величина дохода из линейной величины превратилась бы в категориальную
                                            Категоризация переменных в последнее время не в моде. Причин несколько. Первая и самая главная - неизбежная потеря информации. Вторая причина - появление более эффективных способов борьбы с нелинейностью, например, MARS (multivariate adaptive regression splines).

                                            Комментарий


                                            • Рано или поздно, но идеи реализуются
                                              Анкетный скоринг

                                              Комментарий


                                              • Сообщение от psch Посмотреть сообщение
                                                Статья, где описываются основные методы построения скоринговых моделей:
                                                коллеги, может у кого-нибудь сохранилась упомянутая статья по методам скоринга:
                                                http://bankir.ru/dom/showpost.php?p=1307797

                                                файл в исходном сообщении недоступен, если он у кого-нибудь есть, выложите на форум, пожалуйста

                                                Комментарий


                                                • Сообщение от dmigma Посмотреть сообщение
                                                  Логистическая модель - это гиперплоскость в многомерном пространстве, которая делит ваших заемщиков на плохих и хороших.
                                                  А теперь внимательно читаем статью http://www.mql5.com/ru/articles/366 про эту самую гиперплоскость и выясняется, что делить то она конечно заемщиков может, но вот на каких именно - это еще вилами писано.

                                                  Комментарий


                                                  • Сообщение от Reshetov Посмотреть сообщение
                                                    А теперь внимательно читаем статью http://www.mql5.com/ru/articles/366 про эту самую гиперплоскость и выясняется, что делить то она конечно заемщиков может, но вот на каких именно - это еще вилами писано.
                                                    Ну не нравится логистическая регрессия - к вашим услугам море прочих математических моделей. На мой взгляд логистическая регрессия пусть не самый точный и эффективный инструмент, зато самый простои и дешёвый, у меня не раз лежали на столе бектесты трёх моделей:
                                                    1) Логистическая
                                                    2) Нейронная сети
                                                    3) Дерево классификаций
                                                    Везде всё по уму было сделано, но Джини у них был практически одинаков. Выводы можете сами сделать.

                                                    Комментарий


                                                    • ссылочка, похоже, не работает
                                                      http://www.slideshare.net/Gewissta

                                                      Комментарий


                                                      • Сообщение от Gewissta Посмотреть сообщение
                                                        ссылочка, похоже, не работает
                                                        Да там стандартная телега насчёт правильности учёта данных, масштаба выборки и точности модели - что типа нереально ничего оценить. В интернетах можете мильон таких статей отыскать, однако реальная альтернатива математическим методам - набор команды экстрасенсов для анализа кредитоспособности.

                                                        Комментарий


                                                        • Здравствуйте всем. Могли бы вы подсказать как рассчитать затраты на внедрение скоринга в банке его эффективность.Очень нужно

                                                          Комментарий


                                                          • Сообщение от ИльяМ Посмотреть сообщение
                                                            Здравствуйте всем. Могли бы вы подсказать как рассчитать затраты на внедрение скоринга в банке его эффективность.Очень нужно
                                                            Очень просто:
                                                            Затраты на внедрение скоринга = цена программного пакета + затраты на его обслуживание + затраты на модернизацию сети + затраты на оплату труда специалистов.
                                                            Эффективность скоринга = Годовое увеличение прибыли в системе розничных кредитов / годовая составляющая затрат.

                                                            Комментарий


                                                            • Meunier, Спасибо за информацию.А не могли бы подсказать может какую нибудь книгу где бы было изложено как всё рассчитать или пример какой нибудь?

                                                              Комментарий

                                                              Обработка...
                                                              X