13 ноября, вторник 09:34
Bankir.Ru

Объявление

Свернуть
Пока нет объявлений.

Создание поисковой системы по бумажному архиву

Свернуть
X
  • Фильтр
  • Время
  • Показать
Очистить всё
новые сообщения

  • Создание поисковой системы по бумажному архиву

    Возникла задача создания поисковой системы для бумажного архива.
    Пока чётко не сформулирована.
    Может быть кто занимался чем-то подобным ?
    Буду благодарен за мнения, рекомендации, ссылки...

  • #2
    Лучший вариант -- сканирование документов с хранением отсканированных образов в графическом формате. Сканирование может быть автоматизировано, но это все равно жутко трудоемкая штука, так как каждый документ должен быть проиндексирован (описан) по стандартным правилам, а это обычно можно сделать только "ручками". Есть, правда, вариант потокового ввода со сканера с распознаванием текста, но и здесь требуется ручное редактирование, иначе очень много ошибок. Один из основных поставщиков технологии в России -- Prosoft-M (www.prosoft-m.ru, www.storage.ru).
    Альтернативный вариант -- электронная картотека к бумажному архиву, но это требует очень аккуратного ведения самого архива (все документы должны всегда быть на своих местах) и _значительно_ менее оперативно.

    Комментарий


    • #3
      alexve Сканирование действительно наилучший вариант в данном случае - это облегчает хранение, поиск и доступ к информации. Попробуйте всё-таки начать сканировать поступающие документы, параллельно обрабатывая имеющиеся. Также параллельно можно создавать электронный архив имеющихся (еще не отсканированных), главное, чтобы все ссылки были унифицированы и при добавлении нового документа (будь то давний или же свежий) его регистрация, хранение и доступ к нему были прописаны единообразно. Тогда со временем вы получите удобный и вечный архив! (есть опыт)

      Комментарий


      • #4
        alexve
        У Вас есть практический опыт создания электронного архива ?
        Или, может быть, знаете у кого можно получить более подробную консультацию ...

        Комментарий


        • #5
          Все гениальное просто - FineReader Bank, хотя согласен, что ручная проверка необходимо, ошибок действительно достаточно, хотя очень многое зависит и от того, как настроишь распознавание

          Комментарий


          • #6
            Коллега George,
            я Вам настоятельно советую пообщаться с ПроСофт-М. Они занимаются этим много лет, у них есть типовые решения. Это может стоить довольно дорого, но кто же заставляет Вас покупать -- получите всю необходимую информацию, посмотрите решения, поймите постановку задачи...

            Комментарий


            • #7
              alexve
              Спасибо за рекомендацию.
              Обязательно воспользуюсь.
              Мне хотелось бы получить как можно больше информации о разных системах.
              И лучше - о практическом опыте.
              Рекламы же я промотрел уже порядком...
              Не думаю, что созданных ЭА так уж мало.

              Комментарий


              • #8
                Намекаю: кроме ПроСофт-М есть еще поставщики; а тот же ПроСофт поставляет решения нескольких разных вендоров. Есть смысл у поставщиков спрашивать перечень реализованных проектов -- некоторые дают, и иногда можно получить отзывы.

                Комментарий


                • #9
                  Sun_Lin
                  Это теоретически ?
                  Или есть практический опыт ?

                  Комментарий


                  • #10
                    Значится так!
                    ПроСофт поставляет не столько решения сколько оборудование! И действительно оборудование от различных вендоров!
                    А вот решениями занимаются различные системные интеграторы. Например Ланит, Сервер Аквариус консалтинг и др.
                    Я сам этим занимаюсь. Имею опыт проектирования и внедрения подобных систем. Так что готов помочь конкретными советами.
                    Уважаемый George! Что вас конкретно интересует?

                    Комментарий


                    • #11
                      Anjey
                      У нас есть бумажный архив за довольно большой срок.
                      Необходимо перевести его в электронный вид.
                      Проблема в том, что существует большое количество документов (платёжек, ордеров и т.п.) нестандартной формы (до 1998 г.)
                      Причём, напечатанные на машинке, через копирку, вкривь-вкось, с обведёнными и исправленными реквизитами и т.д. В общем - плохого качества.
                      Как с наименьшими затратами сделать качественное сканирование ?
                      Позволяют ли CunieForm или FineReader обрабатывать такие документы ?
                      Я почитал о Евфрате (CunieForm) - там предлагается для каждого типа документа сделать шаблон для считывания реквизитов. Т.е. только для платёжки может понадобиться не один десяток шаблонов !
                      И как тут, при таком количестве шаблонов, выбирать каким пользоваться для распознования...
                      М.б. существуют какие-то другие способы и системы, позволяющие решать эту задачу ?

                      Комментарий


                      • #12
                        Будем считать это продолжением обсуждения в >Тема: Есть ли автоматизаторы из Газпромбанка ? <

                        Чудес на свете небывает!
                        Во первых сканируются документы не с помощью CunieForm или FineReader , а с помощью скаера и его управляючего софта.
                        Во вторых, по какому шаблону сканировать документы- будет выбирать оператор сканирования.
                        Потому что грамотный оператор не будет все валить в одну кучу, а проведет предварительную сортировку документов по формату, шаблону и пр.
                        Я не думаю что для описания платежки нужно моного шаблонов. И у Когнитива и у АББИ есть уже отработанные на практике технологии "заточенные" сугубо под платежки! Информация в платежке представленна в четко структурированном виде, а некоторые реквизиты - с избытком (сумма цифрами и прописью), наименования организаций, банков и пр. при распознавании сравниваются со справочными базами, номера счетов проверяются по внутренним алгоритмам и т.д.
                        В общем можно сказать что эта частная задача сегодня имеет стандартное "коробочное" решение.
                        Бери и пользуйся.
                        А вот с другими документами все гораздо сложнее.
                        Опыт показывает, что для большинства архивных документов распознавание нецелесообразно (рукописные пометки поверх основного текста, нет строго фиксированного расположения реквизитов на площади листа, низкое качество печатного текста (машинка с грязными литерами, на сухой или слишком свежей ленте, матричный или струйный принтер, фактура бумаги)
                        В тетьих
                        Теперь о собственно сканировании.
                        Качество последующего распознавания очень сильно завистит от качества сканирования.
                        Если ны начнете сравнивать сканеры, то увидите, что между обычными и так называемыми документными сканерами огромная разница в цене.
                        Минимальная цена документного сканера - $1000
                        А средняя цена ~ $5000 - $10000.
                        И это при том, что в подавляющем большинстве эти сканеры черно-белые и относительно низким разрешением (300 т/д)
                        Но качество сканированных документов полученных с таких сканеров гораздо выше чем с простых мыльниц работающих на разрешениях 2400.
                        Почему?
                        Да по тому что как правило в документном сканере есть специальный процессор обработки изображений. (справедливости ради надо отметить, что есть и внешние процессоры, но сегодня ими уже практически не пользуются.
                        Что дает процессор?
                        а) устранение цветного фона
                        б) выравнивание (если лист попал в сканер с перекосом)
                        в) очистка изображения (убирание отдельных точек)
                        г) замыкание контуров букв
                        и многое другое.CunieForm
                        Однаждв мы провели эксперимент: отсканировали несколько страниц документа отпечатанного изначально на матричном принтере, а потом скопированного на ксероксе.
                        Сканировали на простом НР и Fujitsu младшей модели.
                        Полученные TIFFы подсовывали FineReaderу.
                        То что получалось после НР выглядело как ()&(*ДЛЕС╧;

                        А после Fujitsu распознавание было практически 100%.

                        Комментарий


                        • #13
                          Anjey
                          Большое спасибо за столь развёрнутое изложение.
                          Тогда такой ещё вопрос - среднее время обработки одного документа. Т.е. со взятия оператором документа в руки до получения полностью распознанного документа.
                          Понятно, что это зависит от многих факторов.
                          Но - хотя бы порядок.

                          Комментарий


                          • #14
                            Коллеги,
                            все-таки вы сходили бы хоть на сайт Прософта, что ли. Там есть довольно интересный case study: создание системы ввода информации с библиотечных каталожных карточек. Самая та задача! Везде разные форматы и шрифты, то машинка, то типографская печать, то принтер (то вообще от руки)...
                            О времени обработки документа: на потоковых документных сканерах -- доли секунды на сканирование, секунды на распоздавание (часы на коррекцию введенного массива...).
                            Тем не менее, по опыту (пытался в свое время реализовать такую штуку в ТАССе) выявилось, что лучшее решение -- база по описаниям документов (ведомая вручную) с хранением TIFF образов. Кстати, при этом и подписи, и печати сохраняются.

                            И -- слушайте коллегу Anjey, он дело говорит...

                            Комментарий


                            • #15
                              Трудно сказать сколько в среднем.
                              Процесс обработки документа состоит из нескольких групповых операций.
                              первая - собственно сканирование пачки документов, в свою очередь состоящая из нескольких операций (подготовка пачки, закладка пачки в лоток, сканирование пачки, контороль качества, возможное повторное сканирование отдельных документов.
                              Если входной поток достаточно интенсивен, возможно одновременное сканирование на нескольких сканерах.
                              Втроая групповая операция - собственно распознавание. Обычно выполняется одновременно на нескольких компьютерах
                              Третья - самая меделенная и трудоемкая - визуальный контроль и исправление ошибок распознавания.
                              Опять же делается паралельно на нескольких компьютерах.
                              Ну и раз есть несколько операций, значит есть и межоперационные простои.

                              Все вместе называется потоковая система ввода документов.
                              Есть некая эмпирическая формула по которой определяетются параметры этой системы - кол-во постов сканирования, распознавания, контроля.
                              У меня к сожалению под рукой сейчас нет этой формулы. Но если незабуду - в понедельник посмотрю - напишу.

                              Очень грубо можно сказать что при потоковом вводе в серднем документ обрабатывается 20--40 минут чистого времени (зависит от объема документа)
                              А "по жизни" обычно уходит 2-3 часа.
                              Это имеются ввиду обычные управленческие документы (формат А4 размером 3-4 листа)

                              Комментарий

                              Пользователи, просматривающие эту тему

                              Свернуть

                              Присутствует 1. Участников: 0, гостей: 1.

                              Обработка...
                              X