Скачать сканированные книги


Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

Год 2009
Формат FB2
Рейтинг книги

0.00

(оценок&nbsp&lt&nbsp5)

0 10

Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать. Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги. Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.  

Книга представляет собой пособие, позволяющее быстро освоить приемы разработки и модификации прикладных решений на платформе "1С:Предприятие 8.2". На примере создания реального прикладного решения показана структура различных объектов системы, их назначения и методика использования. При...

2009 год

56.65 МБ

8.7

скачиваний: 10738

Книга Герберта Шилдта «Java . Полное руководство» (Java SE 7, 8-е издание) предназначена для всех программистов — как для новичков, так и для профессионалов. Начинающий программист найдет в ней подробные пошаговые описания и множество чрезвычайно полезных примеров. А углубленное ра...

2012 год

19.38 МБ

6.3

скачиваний: 6431

"Изучаем Java" - это не просто книга. Она не только научит вас теории языка Java и объектно-ориентированного программирования, она сделает вас программистом. В ее основу положен уникальный метод обучения на практике. В отличие от классических учебников информация дается не в текстовом, а в...

2012 год

132.25 МБ

7.6

скачиваний: 4981

Такие известные компании, как Google и Intel, Cisco и Hewlett-Packard, используют язык Python, выбрав его за гибкость, простоту использования и обеспечиваемую им высокую скорость разработки. Он позволяет создавать эффективные и надежные проекты, которые легко интегрируются с программами и инструмент...

2011 год

12.21 МБ

8.6

скачиваний: 6429

В этой книге описаны все основные средства языка C++ — от элементарных понятий до супервозможностей. После рассмотрения основ программирования на C++ (переменных, операторов, инструкций управления, функций, классов и объектов) читатель освоит такие более сложные средства языка, как механизм об...

2010 год

10.54 МБ

9.6

скачиваний: 10591

Книга является одним из самых популярных в мире учебников по C++. Характерной ее особенностью является "раннее введение" в классы и объекты, т. е. начала объектно-ориентированного программирования вводятся уже в 3-й главе, без предварительного изложения унаследованных от языка C элементов ...

2008 год

18.49 МБ

9.2

скачиваний: 11279

Книга является общепризнанным руководством для изучения языка С, который был в свое время разработан специально как язык реализации операционной системы UNIX. Приводится полное описание языка, ориентированное на его практическое изучение. Кроме того, дополнительно излагается C++ - язык, являющийся л...

2009 год

53.4 МБ

8.8

скачиваний: 5177

В мире постоянно кто-то сталкивается с такими же проблемами программирования, которые возникают и у вас. Многие разработчики решают совершенно идентичные задачи и находят похожие решения. Если вы не хотите изобретать велосипед, используйте готовые шаблоны (паттерны) проектирования, работе с которыми...

2011 год

30.42 МБ

9.7

скачиваний: 5251

Рассмотрена разработка программ для мобильных устройств под управлением операционной системы Google Android. Приведены базовые сведения о платформе Android. Описано программное обеспечение, необходимое для разработки Android-пpилoжeний. Рассмотрены основные компоненты приложений, использование базов...

2011 год

13.47 МБ

8.3

скачиваний: 5352

Первое издание этой книги вышло в свет во время проведения конференции Tech-Ed в 2001 г. в Атланте (шт. Джорджия). На тот момент платформа .NET пребывала в стадии бета-тестирования. Это вовсе не означает, что ранние издания этой книги не приносили пользу – так или иначе, но книга стала финалис...

2010 год

20.7 МБ

9.3

скачиваний: 8141

mexalib.com

Материалы по сканированию и оцифровке бумажных книг

Материалы по сканированию и оцифровке бумажных книг

Вернуться к разделу "Создание книг в электронном виде из бумажных книг".

Материалы по сканированию и оцифровке бумажных книг

(Раздел ещё будет дорабатываться)

В этом разделе будут постепенно собираться ссылки, имеющие отношение к первичному этапу создания электронных версий бумажных книг - получение и обработка сканов (или цифровых фотоснимков) бумажных книг.

I. Основные материалы

Разнообразные инструкциии по созданию сканированных книг:

Как самому сделать DjVu-книгу (Краткая схема)

ScanAndShare v1.061 (Также и в формате Pdf - Здесь (541 КБ) и на Зеркале ) - Мини-инструкция в картинках, описывающая полный цикл создания электронной версии книги в формате DjVu. Автор: VadimirTT. (наиболее простая и популярная инструкция).

ScanAndShare v1.07 (Также и в формате Pdf - Здесь (796 КБ) - Последняя версия этой мини-инструкции.

ScanAndShare v1.07 Eng (PDF, 848 КБ) - Англоязычная версия ScanAndShare v1.07.

ScanAndShare v1.07 Spa (PDF, 945 КБ) - Испаноязычная версия ScanAndShare v1.07. (Перевод: Armando)

ScanAndShare v1.07 ST Eng (PDF, 848 КБ) - Англоязычная версия ScanAndShare v1.07 с описанием Scan Tailor. (Автор: are)

Рекомендации по сканированию книг от botolph  (одна из самых ранних публикаций - есть устаревшие моменты).

Рекомендации по сканированию и дальнейшей обработке научных и прочих книг  (castleofmusic (старое) / pkfrance).

Как подготовить и упаковать книгу. Пособие для начинающих.  (© Александр Лушников. 17.05.2003)

Инструкция по преобразованию книг

Пособие для самостоятельного изготовления djvu книги

Закладки (Bookmarks, Outlines) в Pdf и DjVu файлах  (Rar 1,09 МБ)   (© ging) "Закладки" - это дерево-содержание. Данный пакет содержит небольшие программы. Работа с закладками в DjVu-файлах освещена лишь частично, зато в Pdf-файлах - очень подробно.

Военная литература - Как делать

Краткая инструкция по использованию программ ABBYY FineReader 8.0, Document Express Editor 6 для сканирования книг...   (Также в формате CHM)

Папирусы эпохи

Советы тем, кто собирается перевести документ с бумаги в электронный формат

Инструкция по созданию книг в формате DjVu

Какой должна быть сканированная книга

Очень кратко об электронных книгах

Статья. Изготовление электронных книг при помощи фотоаппарата

Консольная утилита fi_sep (987 КБ) - аналог FSD by manfred. Создаёт DjVu-файлы по методу разделёных сканов.

Пример малоцветного скана  (63 КБ)

VPD-сегментация - Рассуждения о сути сегментации виртуального DjVu-принтера.

Как сделать DJVU-книгу  Роберт Басыров ([email protected])

Унифицированная система обработки сканированных книг Hi-Fi DjVu Версия 0.8

VPD: исследование опции Background quality

Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги (Автор: twdragon)

Перевод шахматной книги в формат ДЕЖАВЮ (Автор: shch_vg)

Celartem Document Express 7 Enterprise (Автор: Rainhaart)

Создание качественных DjVu методом вклейки иллюстраций (Автор: 57an)

Описание формата DjVu и программ для работы с ним (Автор: dmitry_aleshin2) (Формат PDF, 2,71 МБ)

Связь между ppi, lpi и dpi

Работа с цифровым фотоаппаратом:

Оцифровка бумажных книг при помощи бытового цифрового фотоаппарата - очень плохая идея. Возникает масса проблем - фокусировка, экспозиция, неравномерное освещение, геометрические искажения, износ затвора и т.д. Лучше так не делать, а сканировать книги обычным сканером.

Съемка текстов фотоаппаратом   (Сделанная мною выдержка из хелпа к ABBYY FineReader Professional v8.0).

Оцифровка книг с помощью цифрового фотоаппарата   PDF-вариант (183 КБ)   (© Кирилл Шубин)

Пример некачественного цифроснимка  (PDF 1,49 МБ)  (хорошо демонстрирует проблемы оцифровки).

Хакеры взломали одноразовый фотоаппарат  (довольно интересно)

iXBT Общий FAQ по цифровой фотографии  (очень интересно)

Документация по СканКромсатору:

Три способа получить нужную тебе научно-техническую книгу в электронном виде с минимальными затратами. (Статья об использовании Кромсатора. Автор: vadimir).

Пособие по Кромсатору   (Составленное мною (со слов автора) описание работы с программой СканКромсатор).

ScanKromsator v5.6A. The unofficial program reference

Полезные советы от bolega по работе с Кромсатором. (Материалы из форумов, не вошедшие в Пособие. Моя разработка).

СканКромсатор v5.6A. Что нового (What's new). (Автор: bolega).

СканКромсатор v1.0b. Руководство пользователя.  (Вариант в формате PDF 368 КБ). (Автор: bolega).  (Сильно устаревший официальный хелп к первой версии программы).

Примечание: Эти материалы содержат 95-98% всей ранее известной информации по Кромсатору.

Ужирнение трудночитаемого текста в СканКромсаторе. (Сделанное мною исследование одного важнейшего приёма).

О возможности альтернативы СканКромсатору. (Моя аналитическая статья-размышление).

Настройки picture-зон для цветного текста или line-art. (ScanKromsator v5.91). (Автор: Melirius).

Использование ScanKromsator’а (ScanKromsator v5.91) (Автор: Melirius).

Документация по Scan Tailor

Официальная документация к программе

Scan Tailor. Программа для обработки отсканированных книг

Создание DjVu с помощью Scan Tailor

Выбор сканера:

Покупать следует только CCD-сканеры, а не CIS-сканеры (у последних недостаточно хорошая цветопередача и совсем «никакая» глубина резкости).

Как правильно выбрать сканер

Вокруг сканера

Сканер? Это не дорого!

Выбор и покупка «домашнего» сканера

Недорогие планшетные сканеры со слайд-модулем

Хороший и быстрый CIS сканер? - обсуждение, почему не стоит брать СIS-сканеры

Тест на самый быстрый сканер!!!

Выбор сканера

Scanners Consumer Report

Сканеры: недорого и со вкусом

Тестирование планшетных CCD-сканеров начального уровня

Наглядное сравнение сканеров CCD и CIS при сканировании книг

Анатомия сканера: взгляд изнутри

Анатомия сенсоров изображений

Выбираем сканер для дома

Какой сканер на сегодня лучше брать (CIS/LED) или (CCD/CCFL)?

Январь 2007: Наиболее плохой сканер - HP (т.е. Hewlett-Packard) - его ни в коем случае не стоит покупать. Один из самых предпочтительных - Epson. Неплох Canon. Самые дешёвые сканеры (по непроверенным данным - Benq) покупать нежелательно. Желательно покупать сканеры с интерфейсом USB 2.0  - это ощутимо увеличивает скорость сканирования. При необходимости купите также USB 2.0-контроллер, вставляемый в материнскую плату - если в Вашем компьютере его нет.

Данные рекомендации являются приблизительными. Окончательный выбор сканера осуществляйте самостоятельно.

Описание покупки сканера (январь 2007) - моя статья - краткий рассказ о том, как я купил себе новый сканер.

Литература:

1. Айриг С., Айриг Э. «Сканирование: профессиональный подход».

Книга немного устаревшая (в плане описания сканеров) и написана не самым лучшим языком. Полезна тем, что раскрывает новичкам всякие общие моменты и понятия относительно процесса сканирования книг. Эта книга представляет интерес лишь для полных новичков в деле сканирования книг.

Вариант 1  (27 MB) Формат - PDF (RUS)

Вариант 2  (2,48 МБ) Формат - CHM (RUS)

Вариант 3   (HTM - выложена постранично онлайн)

Вариант 4   (3,92 МБ) Формат - HTM (RUS)

2. Айриг С., Айриг Э. «Подготовка цифровых изображений для печати».

В отличие от предыдущей книги, эта книга будет полезна не только новичкам, но также и тем, кто давно сканирует книги, но хотел бы знать больше о базовых понятиях из области обработки получаемых сканов - таких, как коррекция изображения, улучшение чёткости, муар, треппинг, фильтры и т.д.

Вариант 1  (26 MB) Формат - PDF (RUS)

Вариант 2  (2,29 МБ) Формат - CHM (RUS)

Вариант 3 (HTM - выложена постранично онлайн)

3. Дэн Маргулис. Photoshop 6 для профессионалов. Руководство по цветокоррекции.

Это очень серьёзная книга, в чём-то напоминает предыдущую. Вряд ли есть смысл её читать всем подряд, скорее, лишь единичным суперпрофессионалам. Эта книга - более для цветных полиграфистов, чем для книгосканировщиков. Содержит множество цветных картинок, подробно иллюстрирующих разные сложные случаи обработки изображений.

Описание (Это ИМЕННО оно).

Вариант 1 (42,9 МБ) Формат - PDF-векторный (RUS)   Зеркала: 1   2   3   4

Вариант 2 (10,29 МБ) Формат - DjVu 300 dpi OCR (RUS) (получен мною путём прямой конвертации Pdf -> DjVu варианта 1. Имеет оглавление с работающими гиперссылками).

4. Иллюстрированный самоучитель по цифровой графике

Скачать   (7,95 МБ) Формат - HTML (RUS)

Примечание: книга не очень хорошая, много "воды" и мало толку.

5. Иллюстрированный самоучитель по WEB-графике

Скачать   (20,69 МБ) Формат - HTML (RUS)

Примечание: книга хорошая и толковая, только примерно половина её не относится к нашей теме.

6. Леонтьев - Секреты сканирования на ПК

Скачать   (0,99 МБ) Формат - FB2 (RUS)

Вопросы развития электронных библиотек:

Домен – читальня

Похитители книг

Научная литература в России и за рубежом  (© А.Д. Полянин. 02.2001)

Google станет крупнейшей интернет-библиотекой  (Статья от 14.12.2004. С этого проекта практически всё и началось. Однако Гуглу всё-таки пока не дали сделать планируемое)

03.10.2005 Yahoo займется оцифровкой книг, не защищенных авторскими правами

Выставка LIBCOM-2006

«Bookeye», клонирующий книги

The Book Scanning & Digitising Process  (красочное описание сути работы книжного сканера)

Вводная информация по разным типам сканеров

Система для фотографирования документов DigCopy  (пример неудачного решения проблемы сканирования)

Описание книжного сканера Minolta PS3000 (с крупными фотографиями)  (929 КБ) (продавался на eBay за US $2,495.00 - б/у)

Цветной карманный сканер Docupen   (возможно, это наилучший способ сканировать редкие книги прямо в библиотеке)

Гибкий прозрачный сканер для старинных книг

Гибкие пластиковые сканеры - уже через пару-тройку лет

Россия примет участие в создании Мировой цифровой библиотеки

Diglib - Дискуссионный лист рассылки, посвященный проблемам электронных библиотек  (Спасибо Корепановой Г. А. за эту информацию)

Электронные ресурсы в библиотеках  (сайт, посвящённый "электронным" проблемам обычных бумажных библиотек)

Формат PDF стал международным стандартом

В Сеть выложили все дореволюционные российские военные энциклопедии

Копирайт и электронные библиотеки

Путин разобрался с интернет-библиотеками  (С 28.07.2004 вступил в силу новый "Закон об авторских и смежных правах")

...Автора!  (Е. Любарская)  (Очень важная статья - разъяснение текущего состояния эл. копирайта - прочитать обязательно!)

При Минпечати создается группа для решения проблемы электронных библиотек  (статья от 14.12.2004)

На пути к абсолютному знанию - 2  (Общие рассуждения о возможности и необходимости изменения российского копирайтного законодательства с целью учёта существования электронных библиотек)

Lib.Ru: О копирайтах и др.

II. Дополнительные материалы

В этом разделе собрана самая общая информация, не имеющая непосредственного отношения к сканированию и оцифровке бумажных книг. Если у Вас модемный доступ в Интернет - читать все эти материалы не надо.

Учебники по Adobe PhotoShop:

Уроки Фотошоп

Photoshop 4-5. Учебный курс

Анатомия Adobe PhotoShop

Иллюстрированный самоучитель по Adobe Photoshop CS 8

Учебник по Adobe PhotoShop 7.0

Специальные сканеры:

Книжные сканеры

   Ещё

Сканирующий робот

Автоматический книжный сканер   Подробнее

4DigitalBooks - Automatic book scanning solution.

How to Make a Full Auto Book Scanner

- Описание самодельного книжного автосканирующего робота на базе обычного сканера и компьютера.

Домашний планетарный сканер

Google > Инфракрасная подсветка для OCR

Оцифровка бумажных документов

Цветное сканирование:

В этом разделе приведены ссылки на статьи полиграфистов. То есть эти материалы не имеют никакого отношения к созданию DjVu-книг и приведены тут просто на всякий случай. Полиграфисты - это те, кто сканирует цветные картинки и делает из них рекламные буклеты. Исторически полиграфисты появились гораздо раньше книгосканировщиков.

Если Вы сидите на модеме и у Вас малый трафик - читать все эти статьи не надо (!!!)

Scaners.Ru | Статьи и публикации о сканерах и сканировании

Цветокоррекция во время сканирования

Техника сканирования и основы коррекции изображений

Теория и практика сканирования

Сканирование — это так просто...

Техника сканирования изображений (при желаниии, отсканировать можно что угодно... :) )

Сканирование жуков и других членистоногих (опыт Олега Берлова)

Руководства по изготовлению сканов от Jenz

Скан-клуб

Автоматическая коррекция изображений мифы и реальность

Сканирование текста и фотографий

Если враг не сдаётся…

Основы сканирования изображений

Техника сканирования (советы опытных)

Робоскоп

Пример сложной обработки изображения (снимки Венеры)

Сканирование и азы коррекции изображения

Отдых:

451 градус по Фаренгейту

  Рэй Брэдбери - Художественная книга в жанре фантастической антиутопии.

Эта потрясающая книга, прочитанная мною в далёком детстве, произвела на меня неизгладимое впечатление. В этой книге в яркой художественной форме освещаются некоторое фундаментальные философские проблемы, относящиеся к будущему бумажных книг. Не пожалейте 2-3 вечера на прочтение этой книги - она того стоит.

Автор: monday2000.

31 марта 2006 г.

E-Mail  (monday2000 [at] yandex.ru)

djvu-soft.narod.ru

Сканирование бумажной книги

Сканирование бумажной книги

Вернуться к разделу "Как самому сделать DjVu-книгу".

Сканирование бумажной книги

Введение

Предположим, что Вы хотите отсканировать бумажную книгу, и уже купили сканер для этого. Каковы Ваши дальнейшие действия?

Ответ на этот вопрос зависит от того, в какой операционной системе Вы будете сканировать - Windows, Linux или Mac OS?

Под Linux сканирование производится в программе SANE.

В этой статье мы рассмотрим наиболее популярный вариант - сканирование под Windows.

Теоретические основы

Перед тем, как начинать сканирование, Вам необходимо освоить следующие теоретические понятия:

1. Растровая графика

Любой скан - это растровый графический файл - или, иными словами, прямоугольник, наполненный рядами мельчайших квадратных цветных точек - пикселями.

Подробнее:    Растровая графика в Википедии

2. Форматы графических файлов.

Файлы растровых изображений (которые мы будем использовать для сохранения сканов) могут быть разных форматов. Наиболее популярные форматы - это TIF, BMP, JPG, GIF, PNG. Для нас (в данном случае) важно лишь то, что только форматы TIF и BMP обеспечивают беспотерьное сохранение графической информации - поэтому мы будем использовать только их (другие форматы используют "сохранение с потерями" - поэтому они нам не подходят).

Подробнее:   Графические форматы в Википедии

3. Разрешение ( DPI )

Чем мельче пиксели изображения - тем детальней будет наш скан. Разрешение - это и есть степень мелкости пикселей изображения, измеряемая в "DPI" (dots-per-inch - точек на дюйм) - то есть, берём один дюйм длины (или ширины) скана, и смотрим, сколько там уместилось пикселей - получаем величину "DPI".

Подробнее:   Что такое DPI и ресемплинг

Подробнее:   DPI в Википедии

4. Глубина цвета

Глубина цвета показывает, сколько битов в графическом файле занимает каждый пиксель изображения (скана). Для хранения чёрно-белого пикселя достаточно 1 бита, для хранения серого пикселя (256 возможных оттенков серого) нужно 8 битов, для хранения цветного пикселя (16,7 млн. возможных оттенков) нужно 24 бита.

Подробнее:   Глубина цвета в Википедии

Варианты глубины цвета, встречающиеся в данной статье: "Цветной 24 бита", "Серый 8 бит", "Чёрно-белый".

Выбор программы сканирования

Для работы со сканером под Windows Вам, скорее всего, понадобится установить "программу для сканирования" (одну или две - см. далее).

"Скорее всего" - потому, что возможен вариант, что никаких программ устанавливать не потребуется - если Ваш сканер поддерживается WIA (см. далее), и Вас устраивает такой вариант.

В любом случае, установка программ сканирования обеспечит удобство работы со сканером - поэтому ставить такие программы рекомендуется всегда.

Чтобы разобраться с этими программами, рассмотрим схему работы любого сканера. Как сканер взаимодействует с компьютером, при помощи каких программ?

В любом случае, под Windows компьютер использует две (а не одну) программы для работы со сканером:

1. Драйвер сканера.

2. Программа сканирования.

Драйвер сканера

Драйвер сканера - это техническая программа низкого уровня, которая позволяет компьютеру "понять" конкретный сканер. Все сканеры немного отличаются друг от друга по внутреннему "железному" устройству - поэтому и драйвера у них разные. Драйвер сканера - это то, что "превращает" сканер из куска мёртвого металла в понятный данному компьютеру логический объект, с которым можно общаться при помощи простейших программных команд. Драйвер - это своего рода "программная прокладка" между любым сканером и компьютером, это "программная прошивка" для сканера.

Подробнее:   Драйвер в Википедии

Драйвера для сканеров под Windows бывают двух типов:

- TWAIN. Это старейший стандарт, он же и наиболее популярный, привычный и наиболее широко распространённый. Подавляющее большинство сканеров имеют TWAIN-драйвер на компакт-диске в комплекте поставки.

- WIA. Это новомодный стандарт, он появился начиная с Windows XP. Сканеры более старых моделей его не поддерживают. WIA встроена в Windows XP (и старше), поэтому, если Ваш сканер поддерживается им, то ставить WIA-драйвер с компакт-диска, прилагаемого в комплекте сканера, не придётся - сканер определится автоматически при его подключению к компьютеру.

Примечание: также бывают встроенные драйвера - не относящиеся ни к одному из этих двух типов - см. ниже "Программа сканирования со встроенным драйвером".

Драйвер используется для сканера всегда - просто иногда он встроен либо в операционную систему (как WIA), либо в сканирующую программу (SANE в LINUX, VueScan под Windows).

Как правило, драйвер для сканера прилагается на лазерном диске, идущем в комплекте покупки сканера. Поэтому при подключении купленного сканера первое, что Вам нужно сделать - установить с диска драйвер сканера.

ВАЖНО: Рекомендуется всегда устанавливать драйвер сканера с прилагаемого компакт-диска.

Однако, драйвер для сканера бывает в наличии не всегда. Что делать в этом случае? Первое - нужно попробовать поискать драйвер на данный сканер в Интернете. Если же окажется, что для данного сканера по какой-то причине нет драйвера (обычно такого не бывает), то можно попробовать применить программу из раздела "Программа сканирования со встроенным драйвером" (см. далее).

В этой статье мы рассмотрим использование TWAIN-драйверов - как самый простой и популярный случай.

Программа сканирования

Программа сканирования - это та компьютерная программа, при помощи которой пользователь работает со сканером. Эта программа на самом деле взаимодействует с драйвером сканера - а не напрямую со сканером. То есть, если убрать драйвер сканера - то программа сканирования уже ничего не сможет сделать со сканером. Но и с одним только драйвером сканера (без программы сканирования) Вам поработать не удастся - слишком уж драйвер низкоуровневый.

Программа сканирования транслирует команды высокого уровня (типа "отсканировать страницу") в набор команд низкого уровня, непосредственно понятных драйверу сканера ("включить двигатель каретки", "протянуть каретку до конца стекла" и т.п.).

Программ сканирования существует великое множество. Все они отличаются друг от друга в основном степенью удобства и комфорта использования.

Программа сканирования обычно устанавливается после установки драйвера (и она должна "увидеть" установленный драйвер), хотя порядок их взаимной установки не принципиален.

Для тех, кто работает в операционной системе Windows - лучшим выбором для поточного сканирования является программа IrfanView (согласно коллективному мнению сообщества книгосканировщиков). Она свободно-бесплатна для коммерческого использования, и она удобна для массового сканирования страниц книг. Единственный её недостаток - она не умеет автоматически запускать очередной акт сканирования через заданные промежутки времени, т.е. лишена функции автосканирования.

Функция автосканирования есть в такой программе, как VueScan. Это широко известная коммерческая программа для сканирования. Также функция автосканирования есть в некоторых других программах - ABBYY FineReader, AutoScan (673 КБ), PaperCapture (667 КБ). См. подробнее.

Если Вы хотите использовать ABBYY FineReader как средство сканирования - то нужно помнить следующее:

Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг. Она корёжит получаемые скан-изображения страниц книги. Можно использовать программу ABBYY FineReader 9 (или старше) для этого - но перед сканированием сбросьте там в опциях галку "Исправить перекос изображения".

ВАЖНО: Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг.
Программа сканирования со встроенным драйвером

Некоторые программы сканирования уже содержат встроенные драйвера для целого набора сканеров. К ним относятся, например, VueScan и SilverFast. Есть и иные аналогичные программы. Встроенные в них драйвера не относятся ни к типу TWAIN, ни к типу WIA. Все такие известные программы являются коммерческими. Их можно считать исключением из общей схемы сканирования под Windows.

Описание процесса сканирования

После того, как Вы установили драйвер сканера, и поставили сканирующую программу, можно приступать непосредственно к сканированию книги.

Перед началом сканирования обеспечьте на своём жёстком диске свободное пространство порядка 2 Гигабайт - для будущих сканов.

Процесс сканирования очень прост: берёте бумажную книгу, открываете её на первой странице, кладёте этой страницей на стекло сканера, нажимаете кнопку "Сканировать" и ждёте 20-30 секунд, пока сканер не отсканирует страницу. Затем снимаете книгу со стекла сканера, переворачиваете страницу на следующую, снова кладёте на книгу так же на стекло сканера (новой страницей), и снова нажимаете кнопку "Сканировать". И так до конца книги.

Вот и всё - это и есть "сканирование книги".

К сожалению, сканирование книги - это весьма трудоёмкий и длительный процесс. Многим (поначалу) он даже кажется неподъёмным по количеству труда. Зато это очень простая деятельность - не требующая никакой квалификации. Проще говоря - это совершенно "обезьянья" бездумная работа, выполнять которую сможет любой человек.

В результате сканирования Вы получите сканы книги.

Вот как они примерно выглядят:

Рис. 1. Сдвоенный разворот - в исходном повёрнутом на бок виде

Рис. 2. Одиночный скан - с кусочком соседней страницы (крупноформатная книга)

Такие же на вид сканы должны получиться и у Вас. Сканы часто называются "сырыми" - потому что в дальнейшем они проходят облагораживающую обработку.

ВАЖНО: Запомните термин "сырые сканы".

Сканы - это "сырьё" для создания будущей электронной книги (в формате DjVu).

Сканирование при помощи Irfan View

Рассмотрим в деталях процесс сканирования на примере использования свободно-бесплатной программы Irfan View.

Если в комплекте со сканером имеется компакт-диск (скорее всего) - то первое, что Вам нужно сделать - установить с этого диска драйвер Вашего сканера.

Теперь нам нужно настроить Irfan View на работу со сканером (взаимодействие с драйвером сканера).

Открываем Irfan View. В меню Файл выбираем пункт Выбрать TWAIN-источник... . Появляется окно "Выбор источника":

Рис. 5. Окно выбора драйвера сканера

Строчки в этом окне у всех будут разными - в зависимости от сканера. В данном случае сканер даёт выбор из 2-х своих драйверов - TWAIN-драйвер и WIA-драйвер. Выбираем верхний (TWAIN-драйвер) - как наиболее привычный. Можно выбрать и 2-ой - это кому как нравится. Закрываем окно "Выбор источника".

Теперь приступаем к самому сканированию. В меню Файл выбираем пункт Получить изображение/пакетное сканирование... . Появляется окно "Настройка пакетного сканирования":

Рис. 6. Окно настройки пакетного сканирования

Выставляем в этом окне все настройки так, как показано на рисунке. Папку назначения можете выбрать свою. В поле "Сохранить как" можно указать формат BMP вместо TIF. Никакие иные форматы сохранения сканов указывать не допускается.

ВАЖНО: Не сканируйте в формат JPG. Формат JPG "размывает" скан-изображения страниц книги.

Далее нажимаем на кнопку Опции. Появляется окно "Параметры сохранения TIFF":

Рис. 7. Окно параметров сохранения TIFF

Выставляем в этом окне все настройки так, как показано на рисунке. Вместо опции "Без сжатия" допускается указать LZW - но это (предположительно) может увеличить время сканирования (зато вдвое уменьшит размер дискового пространства, необходимого для сохранения создаваемых сканов). Закрываем окно "Параметры сохранения TIFF".

Переходим непосредственно к процессу сканирования. В окне "Настройка пакетного сканирования" нажимаем кнопку OK. Запускается драйвер сканера и загружается окно сканирования. В зависимости от модели сканера и версии его драйвера, это окно будет иметь различный вид. У меня оно выглядит так (сканер Epson Perfection 1270):

Рис. 8. Окно драйвера сканирования сканера Epson Perfection 1270

У Вас это окно будет выглядеть как-то по-другому - но аналогично.

Единственные параметры, которые нам потребуется выставить в этом окне - это Тип изображения и Разрешение. Тип изображения - это та глубина цвета, с которой сканер будет сканировать страницы нашей бумажной книги.

Рис. 9. Возможные значения глубины резкости

Для подавляющего большинства книг это значение нам следует установить в "Серый 8 бит". Такое значение выставляется для всех таких бумажных книг, в которых отсутствуют цветные элементы на страницах - а есть только лишь чёрно-белый текст и (может быть) чёрно-белые (серые) иллюстрации. Под цветными элементами понимается всё что угодно из цветного: цветной текст, цветные иллюстрации, цветной орнамент и т.п.

Если же в бумажной книге есть цветные объекты - тогда глубину цвета мы выставляем как "Цветной 24 бита" - чтобы не потерять при сканировании информацию о цвете.

Если Вы сомневаетесь, какой режим выбрать "Цветной 24 бита" или "Серый 8 бит" - можете всегда, для любой книги, выставлять режим "Цветной 24 бита". В дальнейшем, уже на этапе сканобработки, можно будет для каждого отдельно взятого скана понизить глубину цвета с 24 бит до любого иного значения. Скорость же сканирования одинакова - для обоих режимов - "Цветной 24 бита" и "Серый 8 бит". Разница лишь в том, что при режиме "Цветной 24 бита" полученные сканы будут занимать значительно бОльшее место на Вашем жёстком диске.

Некоторые пользователи спрашивают: "Зачем нужно сканировать в режиме серого - всё равно ведь книга потом приводится к чёрно-белому режиму"?

Ответ прост: режим серого позволяет сохранить на получаемом скане ту полезную избыточность информации, которая при дальнейшей сканобработке даст простор для всевозможных видов улучшающей обработки данного скана.

Аналогичный пример из жизни: на важных мероприятиях любой фотограф старается сделать как можно больше снимков - чтобы потом отобрать из общей массы самые удачные.

ВАЖНО: Не сканируйте в чёрно-белом режиме! Только в сером или цветном! Это принципиально важно - для качества последующей сканобработки.

Параметр Разрешение для подавляющего большинства книг следует установить в 300 (dpi). В отдельных редчайших случаях можно поставить 600 dpi - либо когда требуется высокое качество, либо когда полиграфическое качество бумажной книги крайне низко.

Рис. 10. Возможные значения разрешения

ВАЖНО: Не сканируйте в разрешении ниже 300 dpi! Слишком низкое разрешение при сканировани превратит Ваш труд в полную бессмылицу - потому что читать такую электронную книгу будет крайне неудобно.

Если размер сканируемой книги заметно меньше, чем размер стекла сканера, то тогда для ускорения процесса сканирования можно применить такой приём, как уменьшение сканируемой площади:

Рис. 11. Уменьшение сканируемой площади

Для этого нужно запустить процедуру "Предварительный просмотр" (нажатием одноимённой кнопки). Сканер выполнит предварительное сканирование, и в появившееся окно предварительного просмотра загрузится изображение текущего скана. В этом окне нужно мышкой изменить размер мерцающего пунктирного прямоугольника - так, чтобы он лишь немного превосходил по размеру размер скана. На рис. 11 красной стрелкой показано, на сколько удалось уменьшить сканируемую площадь для данного скана.

Последующие сканы при этом нужно класть на стекло сканера точно так же, как и контрольный скан (на котором мы сделали предварительный просмотр).

Этот приём даёт заметное сокращение времени сканирования.

Ход процедуры сканирования

Сама по себе техника сканирования исключительно проста. Кладём книгу разворотом на стекло сканера, прижимаем сверху грузом (чтобы разворот как можно плотнее прилегал к стеклу сканера - но так, чтобы не выдавить стекло сканера), нажимаем кнопку сканирования (в моём случае - это клавиша "Пробел" на клавиатуре или кнопка "Сканировать" в окне сканера), ждём, пока текущая страница отсканируется, и повторяем процесс заново - пока не отсканируем всю книгу.

Большинство книг помещаются на стекле сканера в виде разворота - т.е. 2 соседние страницы одновременно (см. Рис.1). При этом изображение страниц оказывается повёрнутым набок на 90 градусов - это не страшно, пусть это Вас не смущает. Это будет исправлено на этапе сканобработки.

Однако, бывают книги большого формата - которые не помещаются разворотом на стекле сканера. Такие книги приходится сканировать по одной странице (см. Рис.2). При этом на скан попадает кусочек (полоска) соседней страницы - на это тоже не обращайте внимания. Это также будет исправлено на этапе сканобработки.

В процессе сканирования можно даже выключить монитор (и слушать музыку или смотреть фильм по телевизору) - запуская каждое новое сканирование клавишей "Пробел" на клавиатуре. Это возможно потому, что как только Вы хотя бы один раз нажали кнопку "Сканировать" в окне сканера, программа будет сохранять фокус выделения на этой кнопке - и она будет нажиматься даже от нажатия клавиши "Пробел" на клавиатуре.

Сканирование не требует большого старания. Всё, о чём нужно позаботиться при сканировании - это о том, чтобы книга была достаточно плотно прижата к стеклу сканера (во время сканирования). Остальное неважно. Для плотного прижатия рекомендуется класть на книгу (лежащую на сканере) какой-нибудь увесистый предмет - например, любую тяжёлую книгу (причём класть его всякий раз, когда Вы сканируете очередную страницу).

Отсканированные сканы будут автоматически сохраняться в назначенной папке - в нашем случае это "C:\Scanned". Будьте готовы к тому, что сканы займут на жёстком диске значительное пространство - от 2 до 4 Гигабайт. Это не страшно - при последующей сканобработке размер занимаемого места резко сократится, но на этапе сканирования Вам нужно обеспечить наличие достаточного места на жёстком диске.

Завершение сканирования

Вам не обязательно сразу же сканировать всю книгу. Это можно сделать порциями - за 2-3 вечера, к примеру. Сканировать удобно поздно вечером перед сном - когда усталость не позволяет заниматься каким-либо более интеллектуальным делом.

После того, как Вы отсканируете всю книгу, Вам нужно будет обязательно СРАЗУ ЖЕ просмотреть полученные сканы - и проверить их на предмет следующего:

1. Не было ли заломов уголков страниц при сканировании?

2. Не было ли недостаточно сильно прижатых к стеклу сканера разворотов - таких, у которых буквы в районе корешка книги сильно исказились?

3. Проверьте КОМПЛЕКТНОСТЬ отсканированных страниц. Очень часто многие люди случайно пропускают при сканировании (или дважды сканируют) некоторые страницы.

В случае обнаружения проблемных страниц их нужно сразу же пересканировать заново - и заменить дефектные сканы исправленными.

Напоследок отсканируйте цветную обложку книги (если есть) в режиме "Цветной 24 бита". Обложка - это лицо книги, поэтому не стоит забывать о ней.

Распространённые ошибки сканирования

1. Сканирование в чёрно-белом режиме. Это грубейшая ошибка, которая сводит на нет все возможности последующей сканобработки.

2. Сканируют на низком разрешении - менее 300 dpi - ради скорости и снижения размера (особенно, если делают PDF). Это также грубейшая (преступная) ошибка.

3. Сканирование в формат JPG. Это приводит к "размыванию" сканов. Сканировать надо в форматы TIF или BMP.

4. Сканирование в формат PDF. На некоторых МФУ сохранение в PDF реализовано криво - что потом приводит к проблемам при декодировании PDF -> TIF (для последующей сканобработки).

5. Сканирование посредством ABBYY FineReader 8 или ниже. Это "корёжит" строки текста на сканах.

6. Некоторые стараются при сканировании уложить книгу на стекло сканера максимально параллельно краям сканера. Это абсолютное излишество - угловой перекос скана устраняется автоматически при последующей сканобработке.

7. Забывают проверить комплектность сканов страниц после сканирования (пропуски страниц на сканах).

8. Пытаются сканировать книги на CIS-сканере (из-за малой глубины резкости CIS-сканеров изображение "расплывается" у корешка книги).

9. Игнорируют сканирование обложки книги.

Заключение

Вот и всё - по завершению сканирования бумажная книга сразу же становится совершенно не нужной (для последующего процесса "электронизации"). Поэтому, если Вы взяли бумажную книгу у друга или в библиотеке на 1-2 дня - можете её возвращать.

Я также рекомендую после сканирования отдохнуть 1-2 дня - и только после этого приступать к дальнейшей обработке сканов.

Автор: monday2000.

8 мая 2012 г.

E-Mail: monday2000 [at] yandex.ru

djvu-soft.narod.ru

//

  • • • • • • • •  
X: .: , 1987.- 18 .
3 5 9 1

-

X: .: , 1978.- 14 .
3 5 9 1
X: .: , 1982.- 414 .
3 5 9 1
-
X: .: , 1964.- 14 .
3 5 9 1
X: .: , 1964.- 82 .
3 5 9 1
X: .: -, 1925.- 28 .
3 5 9 1
. 1967. 12

""

X: .: 1967, 72 .
3 5 9 1
. 1967. 11

""

X: .: 1967, 72 .
3 5 9 1
. 1967. 10

""

X: .: 1967, 72 .
3 5 9 1
. 1967. 09

""

X: .: 1967, 72 .
3 5 9 1
. 1967. 08

""

X: .: 1967, 72 .
3 5 9 1
. 1967. 07

""

X: .: 1967, 72 .
3 5 9 1
ظ
X: .: , 1931.- 10 .
3 5 9 1
X: .: , 2007.- 26 .
3 5 9 1
X: .: , 2005.- 144 .
3 5 9 1
X: .: , 1970.- 10 .
3 5 9 1
X: ..: , 1967.- 18 .
3 5 9 1
X: .: , 1950.- 540 .
3 5 9 1
:
X: : , 1987.- 384 .
3 5 9 1
X: .: , 1975.- 24 .
3 5 9 1

-

X: ..: , 1990.- 16 .
3 5 9 1
X: .: , 1976.- 16 .
3 5 9 1
X: .: , 1991.- 16 .
3 5 9 1
.
X: .: , 1961.- 50 .
3 5 9 1
X: .: , 1929.- 16 .
3 5 9 1
X: .: c, 2013.- 82 .
3 5 9 1
. 1953. 12

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 11

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 10

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 09

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 08

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 07

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 06

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 05

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 04

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 03

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 02

""

X: .: , 1953.- 24 .
3 5 9 1
. 1953. 01

""

X: .: , 1953.- 24 .
3 5 9 1
X: .; ..: , 1995.- 18 .
3 5 9 1
X: : , 1981.- 183 .
3 5 9 1
X: ..: , 1950.- 486 .
3 5 9 1
X: ..: , 1983.- 14 .
3 5 9 1
X: ..: , 1962.- 16 .
3 5 9 1
X: ...: , 1961.- 28 .
3 5 9 1
X: ..: , 1984.- 559 .
3 5 9 1

.; .

X: .: , 1969.- 220 .
3 5 9 1
X: .: , 1930.- 22 .
3 5 9 1
X: .: , 1958,- 18 .
3 5 9 1
. , :

, , , , , , , , ,

: 4318

www.barius.ru

Scan Tailor. Программа для обработки отсканированных книг

Попалась мне недавно программка Scan Tailor, которая предназначена для автоматической обработки отсканированных книг. С помощью этой программы можно разрезать страницы, если страницы сканировались не по одной, а целыми разворотами, можно исправить наклоны страниц, если они криво лежали в сканере, и провести еще некоторые полезные обработки.

Программа является бесплатной, да еще и с открытыми кодами, если версия под Винду, а можно из исходников скомпилить и под Линух. Официальный сайт — http://scantailor.sourceforge.net/.

Книжки сканирую я, к счастью, не часто, а вот обрабатывать уже отсканированные кем-то иногда приходится, в основном чтобы разрезать отсканированные развороты страниц на отдельные страницы. Описать программу Scan Tailor я решил на примере такой обработки. Для экспериментов взял первую попавшуюся книжку в формате DJVU с двойными страницами (первой попалась книга Ю.Ю. Ненахова «Чудо-оружие третьего рейха») и для начала преобразовал все страницы в формат TIFF, потому что для Scan Tailor исходными данными являются отсканированные рисунки. Для преобразования DJVU -> TIFF я использовал программу DjvuOCR. В результате у меня получилось 310 файлов TIFF каждый из которых содержал по две страницы.

При запуске Scan Tailor спросил где находится папка с отсканированными файлами, указал на папку с TIFF-ами и создался новый проект. Внешний вид программы видно на следующем скриншоте:

Главное окно программы

Первым этапом обработки идет исправление ориентации страниц. В данном случае этот этап можно пропустить, все страницы расположены в нужной ориентации, но для эксперимента посмотрел сколько по времени программа будет вращать 310 файлов. Оказалось, что на моем компе на AMD 3500+ с гигом оперативки и WinXP + SP2 это заняло пару секунд. Вообще программа за все время работы не занимала больше 50 МБ оперативки.

Вторым этапом идет разрезка страниц. Scan Tailor автоматически пытается определить границы между страницами и в большинстве случаев ей это удается.

Зарзезка страниц

Но даже если она и ошибается, то за ней можно исправить огрехи, перемещая линию, разделяющую страницы. Причем программа даже может разделять страницы, если они отсканированы под углом. На следующем скриншоте это хорошо видно, заодно видно как Scan Tailor немного промахнулся:

Еще парочка промахов:

Разрезка страниц заняла чуть больше двух минут, а если точнее 2 минуты и 18 секунд, и на 310 разворотов программа ошиблась 14 раз, что, ИМХО, не так уж и плохо. На выходе получилось 620 одинарных страниц.

После этого наступает черед компенсации наклона. Программа просматривает все страницы и разворачивает их так, чтобы текст был строго горизонтально. Тоже это происходит автоматически, но при желании можно и вручную повращать страницы. Для удобства на отсканированные страницы при этом накладывается «листик в клеточку».

Компенсация наклона заняла полторы минуты и вмешиваться после автоматической коррекции не пришлось, программа отработала этот этап просто замечательно.

Четвертым этапом обработки идет определение полезной области, чтобы отсечь лишние пустые места. Это довольно долгий процесс, который для 620 страниц занял 22 минуты. Здесь программа тоже сработала без ошибок.

На пятом этапе задается так называемый макет страницы, то есть какого размера должны быть поля у отсканированного текста и выравнивание на странице. На следующем скриншоте я установил слева и справа нулевые поля (все-равно они остались от исходных отсканированных страниц, зачем их еще увеличивать), а по вертикали добавил по 5 мм.

Эта операция заняла несколько секунд.

И, наконец, на последнем, шестом этапе, происходит вывод результирующих файлов. Здесь можно задать некоторые обработки вроде удаления пятен. В результате программа создала папку out, куда сохранила полученные файлы тоже в формате TIFF. Поменять выходной формат нельзя. В результате получились файлы с именами вида XXXX_filename.tiff, где filename.tiff — изначальное имя каждого файла, а XXXX — порядковый номер страницы.

Это была самая долгая операция, она заняла 35 минут.

Итого. Мне программа очень даже понравилась, интерфейс работает шустро, на сколько быстро работают алгоритмы обработки сказать трудно, потому что мне не с чем сравнивать, с подобными программами я сталкиваюсь впервые. Обработать 620 страничную книгу удалось чуть больше, чем за час. Для сравнения закачал в обменник исходную книгу и ее же после обработки. Не обращайте внимания, что там не хватает пары страниц в 20-ых страницах, это не я их вырвал, это так и было. 🙂

Программа активно развивается, последняя на данный момент версия вышла 26 апреля этого года, автор принимает пожелания и сообщения об ошибках, в том числе и на форуме ru-board.

В Scan Tailor удобно, что если во время обработки увидел косяк, пропущенный на предыдущем шаге, то можно вернуться и исправить. Следующие шаги придется переделывать только для измененных страниц. Жаль, что программа сама не понимает формат DJVU, но это не такая уж и проблема преобразовать из/в DJVU сторонними программами. Хотя еще хотелось бы уметь открывать и сохранять PDF. Но, к сожалению, во время работы программа у меня пару раз вылетала, поэтому надо сохранять проект почаще. А в целом очень удобная софтина.

Еще раз напомню ссылку на официальный сайт — http://scantailor.sourceforge.net/.

jenyay.net

Читать Как быстро отсканировать книгу в формат PDF (используя ClearScan) - Кузнецов Иван - Страница 1

И. И. Кузнецов

Как быстро отсканировать книгу в формат PDF (используя ClearScan)

Введение

В этом кратком пособии я бы хотел поделиться своим мыслями о быстром сканировании книг в формат PDF и впечатлениями о технологии ClearScan, доступной в Adobe Acrobat начиная с версии 9.0. На мой взгляд, это замечательная технология, делающая (наконец-то!) формат PDF подходящим для отсканированного текста.

Фактически, при деструктивном сканировании (книга разрывается на листы и используется листовой сканер), процесс сканирования — чистки — перевода в PDF — OCR можно выполнить за тройку часов для книги среднего размера. (Надо сказать что у меня нет опыта в фотографировании книг, очевидно фотографирование тоже можно осуществить быстро, при надлежащем оборудовании, и таким образом избежать уничтожения бумажной книги.) Если же вы «стекольщик», то есть у вас достаточно терпения сканировать книгу на стекле сканера, сканирование, очевидно, займёт дольше.

Как сканирует начинающий

Если есть сканер, то хочется что-нибудь отсканировать! И слава Богу. Посмотрите на обилие электронных библиотек. Спасибо всем кто отсканировал и выложил это для других.

Сканеры сегодня продаются с пакетом программ, среди которых есть и программа по преобразованию в PDF. В теории (и в рекламных проспектах) это выглядит так: заложи в сканер листы, получи их на выходе в электронном виде, в формате PDF!

И это иногда правда. Есть большое количество разных бумаг (количеством 1, 2… 10 листов) с которыми я так и поступаю. А чего с ними чикаться? Видно — будет. А большее и не нужно. Но вот книга… да ещё для тех, кто любит книги… разве можно назвать получившуюся косую дрянь с полосами, пятнами, чёрными точками, с разорванным шрифтом книгой? Где же зарыта собака? Какую опцию надо выставить, какой рычажок покрутить, чтобы всё это стало похоже на оригинал?

В том-то и дело что нет такого одного рычажка. Есть четырёхступенчатый процесс, каждая ступень которого требует некоторых оптимальных решений от оператора. Пакет программ для сканера, работающий по типу «одним махом всех побивахом», скрывает этот четырёхступенчатый процесс, делая из него одну операцию: бумажный лист — электронный эквивалент. Но о том что на самом деле происходит что-то сложное, всё же можно догадаться. Например, сканер уже закончил сканировать, а компьютер ещё не готов продолжать; на нём открываются и закрываются какие-то программы; мигает лампочка доступа к жёсткому диску…

Чтобы отсканировать книгу качественно, надо самому пройтись по ступеням этого процесса: сканирование, чистка, перевод в нужный формат и распознавание текста (OCR).

1. Сканирование

Задача этой ступени перевести бумажные страницы книги в соответствующие им файлы в формате TIFF с разрешением 300dpi. Это разрешение достаточно для книжного текста обычного («читабельного») размера. Мелкий шрифт или желание передать мелкие детали иллюстраций может потребовать большего разрешения. Покопайтесь в настройках своего сканера. На выходе, вам нужно получить графические файлы, в формате TIFF. Один лист — один файл. И никаких многостраничных TIFF-ов (где в одном TIFF файле несколько страниц)! Никаких PDF-ов! Никаких OCR-ов (распознаваний текста)!

На этой ступени также нужно принять решение о сканировании книге в цвете (color) или в оттенках серого (grayscale). Обычно не рекомендуется сканировать книгу в строго чёрно-белом варианте (b&w), так как сканер должен будет тогда решать что делать чёрным, а что белым. Скажем, изгиб на странице может быть передан чёрным и создаст чёрные полосы и пятна, а ещё того хуже, эти пятна закроют чёрный же текст. Вычистить потом такое «чёрное на чёрном» невозможно. Если же пятно (полоса, другой дефект) серого (или другого, при цветном сканировании) цвета, а текст чёрного (отличного от дефекта) цвета, то дефект можно будет убрать на стадии чистки путём удаления из изображения цвета пятна. Бывает также, строго чёрно-белое сканирование утоньшает и разрывает линии и шрифт (то есть когда буква, скажем, «d» выглядит как «cl»). Поэтому, для качественного сканирования, представим что опции (b&w) не существует.

Для моего листового сканера, сканирование начинается с отрезания обложки. Обычный кухонный нож с коротким лезвием и удобной ручкой вполне подойдёт. Для мягкой обложки, нож просовывается между обложкой и первой страницей (при закрытой обложке) и обложка отрезается. Если у книги твёрдая обложка, то при открытой обложке из неё вырезается сама книга. Страницы потом либо отрываются по одной, либо отрезаются. Рваные края потом можно будет удалить с помощью программы на стадии чистки. Главное, чтобы рваные края не залезали на текст.

Пишу эти строки, а в голове звучит стихотворение Маршака:

У Скворцова Гришки

Жили-были книжки —

Грязные, лохматые,

Рваные, горбатые…

У меня есть книжки, ещё из детства, которые я люблю и не буду резать. Но часто приходится сканировать пособия, часто компьютерные, часто толстые, и макулатура — лучшее место для них. И времени своего на сканирование «на стекле» жаль тратить.

Ещё раз о базовых настройках сканера. Разрешение — 300dpi и цветовой режим «оттенки серого» (grayscale) или «цветной» (color). Формат файла — TIFF.

Измерив страницу книги в миллиметрах, можно задать длину и ширину. Конечно, «на стекле» это можно сделать лишь приблизительно, так как точно положить книгу на стекло невозможно. А листовой сканер будет засасывать листы с ровной стороны (либо сверху/снизу либо, если сбоку, надо положить ровной стороной) и тут всё будет точно вплоть до миллиметра. На своём листовом сканере я последнее время, из-за врождённой лени, выбираю опцию «улучшить текст» (text enhancement), которая «ужирняет» и «учерняет» текст и портит цветные иллюстрации (сгущает краски) и опцию «выравнять изображения» (deskew) так как ровные листы легче потом обработать. Но можно вообще никаких других опций кроме dpi и цвета не выбирать, и оставить всё остальное на стадию чистки.

2. Чистка

Задача этой ступени — получить на выходе файлы с чистыми, красивыми страницами в том же формате TIFF и в том же количестве. Это «набор» будущей электронной книги. Нечего и говорить, что обрабатывать нужно все (вернее почти все) изображения по группам, т. е. в «пакетном режиме» (batch processing). Кроме обложек и некоторых других неординарных страниц, возиться с каждым изображением страницы отдельно в графическом редакторе практически невозможно (представьте 700 страниц текста!) да и не нужно.

Для чистки, я пользуюсь программой ScanKromsator v 5.9. Её надо поискать в интернете. Я немного поплевался на пол из за её интерфейса, но это только сначала, пока не привыкнешь. Потом перестаёшь замечать причуды, и даже наоборот, отмечаешь как удобно сделать то или это.

Ссылки на описание этой программы:

• http://ru.wikipedia.org/wiki/ScanKromsator

• http://www.djvu-soft.narod.ru/kromsator/

• http://www.twirpx.com/file/394016/

Программа, особенно для начинающего, сложная, но всё же не такая сложная как, скажем, Photoshop. Есть также ScanTaylor, которая обещает быть проще, но я не пробовал. Какая бы программа не использовалась, нужно

• убрать наклон страниц (deskew)

• отрезать неровные края

• выравнять освещённость (убрать тени от неравномерной освещённости)

• убрать точки и другой мусор (despeckle)

• отдельно проверить/выправить иллюстрации (включая обложку)

online-knigi.com

скачать бесплатно fb2, txt, epub, pdf, rtf и без регистрации

  • Просмотров: 2484

    Отдай мое сердце

    Макс Фрай

    Когда тебя просят отдать чье-то сердце, предполагается, что ты его перед этим похитил. Похитить…

  • Просмотров: 2315

    Садовые чары

    Сара Аллен

    В саду за высокой оградой стоит фамильный дом Уэверли. Среди прочих чудесных растений в этом саду…

  • Просмотров: 2181

    Тайны Апокалипсиса

    Игорь Прокопенко

    Известный телеведущий Игорь Прокопенко в своей новой книге обращается к анализу тех угроз, которые…

  • Просмотров: 2064

    Земля лишних. Побег

    Андрей Круз

    Новый мир – неважно, как ты сюда попадешь, по доброй воле или вот, как Александр Баринов, бежав из…

  • Просмотров: 1657

    Ведьма в шоколаде

    Ольга Пашнина

    Добро пожаловать в лавку «Ведьма в шоколаде»! Желаете чего-нибудь к чаю? Вы пришли по адресу! В…

  • Просмотров: 1654

    Чистильщик

    Евгений Щепетнов

    Никто не знает, кто он такой. Ни приемная мать, ни всемогущая ФСБ. Да и сам он тоже не знает. Его…

  • Просмотров: 1477

    Искупление вины

    Евгений Сухов

    В Вологодскую область заброшена немецкая диверсионная группа. Ее командир, бывший сержант РККА…

  • Просмотров: 1384

    Мертвое море

    Юрий Иванович

    Страшно, когда тебя пытаются убить. Но совсем обидно, когда тебя убивают случайно, с кем-то…

  • Просмотров: 1309

    Тамплиер. На Святой Руси

    Юрий Корчевский

    Продолжение бестселлера «Тамплиер. На святой земле». С боем вырвавшись из осажденного мамелюками…

  • Просмотров: 1132

    Группа крови

    Александр Афанасьев

    30-е годы XXI века. Сбылась мечта патриотов – США больше нет. Еще недавно всесильная сверхдержава…

  • Просмотров: 847

    365 салатов и закусок на каждый день

    Юлия Высоцкая

    Салаты и закуски, приготовленные по рецептам из телепрограмм «Едим Дома!» и «Завтрак с Юлией…

  • Просмотров: 767

    Королевская кровь. Медвежье солнце

    Ирина Котова

    Свадьба – самый счастливый день в жизни каждой девушки. Но станет ли он счастливым для принцессы…

  • Просмотров: 764

    Заклинатель драконов

    Анастасия Вернер

    Они оба живут двойной жизнью. Днем она – Марита Хорвин, дочь разорившегося графа. Ночью – Джон Рут,…

  • Просмотров: 742

    Око разума

    Дуглас Ричардс

    Он пришел в себя в мусорном баке, ничего не помня о том, как попал сюда. Чуть позже он обнаружил,…

  • Просмотров: 729

    Секретарь палача

    Валентина Савенко

    Когда Арлину, осужденную за покушение на жизнь мага, навещает незнакомец и предлагает стать своим…

  • Просмотров: 718

    Демон никогда не спит

    Наталья Александрова

    Долгие века древнее арийское племя таится от людей, ведь ему доверено великое сокровище – кинжал…

  • Просмотров: 693

    S-T-I-K-S. Внешник

    Юрий Уленгов

    Наемник Айвэн летел на очередное задание, а оказался в мире Улья – странном, жутком и смертельно…

  • Просмотров: 683

    Расходный материал

    Олег Орлов

    Две сверхцивилизации ведут между собой непримиримую войну. Но силы равны, и тогда одна из них…

  • Просмотров: 674

    Подземный город Содома

    Гай Орловский

    Настоящая победа, когда противник признает себя побежденным. Но этот не признал, а победитель…

  • Просмотров: 667

    Темное дело

    Лариса Соболева

    Никита Кораблев обожает свою красавицу-невесту Алику и ждет не дождется свадьбы. До счастливого…

  • Просмотров: 656

    Одержимость

    Нора Робертс

    Детство Наоми Боуз закончилось в тот момент, когда однажды ночью она решила узнать, куда отправился…

  • Просмотров: 631

    Волшебные стрелы Робин Гуда

    Наталья Александрова

    Все не то, чем кажется, даже в книгах, любимых с детства, – таких, например, как баллады о Робин…

  • Просмотров: 626

    Calendar Girl. Лучше быть, чем казаться (сборник)

    Одри Карлан

    Все очень просто. Мне нужен миллион долларов. Именно столько я должна заплатить за жизнь своего…

  • Просмотров: 586

    Ответ перед высшим судом

    Ольга Володарская

    Старика-ювелира Абрама Лившица называли Кощеем. Всю жизнь он имел дело с золотом и антиквариатом,…

  • iknigi.net


    Смотрите также