Итак, имеется задача оцифровать все документы во всех архивах нашей страны. Делаем следующее:
- Сводим базу данных "Архивный фонд" со всех регионов и муниципалов в единую базу, представляющую из себя каталог документов с описания, анотация и всякими реквизитами (часть данных можно будет выкинуть, так как они просто не нужны в ЦХД)
- Создаём огромное и надёжное хранилище файлов, способное надёжно сохранять и предоставлять доступ к любому цифровому документу, а так же обеспечивающее надёжное хранение
- Создаём вебсервис, связанный с сводной БД "Архивный фонд" и способный автоматически обрабатывать тысячи запросов в минуту
- Внедряем в каждый архив, заполнивший и сдавший БД "Архивный фонд", сканер, способный создавать качественные цифровые копии любых документов (наверно исключая карты и чертежы на первом этапе)
- Обеспечиваем каждый такой архив надёжным и качественным интернет каналом
- Назначаем в этих архивах людей отвественных за сканирование и заполнение Центрального Цифрового Хранилища Документов (ЦЦХД)
- Начинаем сканировать документы до самого последнего, а затем закрываем архивы
Имеется следующий технической момент, который необходимо пояснить:
- При сканировании документов дела человек будет вводить через панель сканера реквизиты: номера фонда, описи, дела, а так же, возможно, указывать какая сторона документа отсканирована
- Затем сканер созадёт цифровую копию (TIFF+lzma, 600DPI ) документа и заворачивает эти данные вместе с реквизитами и идентификационными данными (возможно даже использовать рутокены выданные на каждый такой архив) в HTTPS пакет который отправляет методом POST на известный ему адрес ЦЦХД
- На ЦЦХД при поступлении такого запроса происходит идентификаци клиента и занесение в ЦЦХД новой записи связывающей полученный цифровой документ с архивом, фондом, опись, делом через полученные реквизиты и идентификационные данные, а так же перемещение цифрового документа в каталог хранилища.
В результате обработки HTTPS::POST запроса скрипт отправляет HTTPS ответ сканеру который ждёт ответа и принимает решение: либо продолжить сканирование либо повторить и обработать ошибку - Скорее всего придётся создать обработчик очереди запросов, так как скорость сканирования может быть выше скорости обмена по сети и выше скорость обработки данных в ЦЦХД
Вот в принципе и всё