JWforum :: Свидетели Иеговы: открытый диалог • Просмотр темы

Сообщения без ответов | Активные темы

Список форумов » Общение » Болталка » Компьютеры

Часовой пояс: UTC + 3 часа

Сканирование книг

Страница 1 из 2

[ Сообщений: 21 ]

На страницу 1, 2 След.

Пред. тема | След. тема

Автор

Сообщение

lukoie

Заголовок сообщения: Сканирование книг

Добавлено: Пт дек 21, 2012 6:50 am

Аксакал

Зарегистрирован: Пн фев 26, 2007 3:52 am
Сообщения: 9234
Благодарил (а): 535 раз.
Поблагодарили: 1331 раз.
Вера: Иудаизм
Кредо: богомол
Крещен у СИ: Нет
Пол: Муж
skype: lukoie

Хочу поделиться опытом по сканированию книг, как это делаю я, может кому-то информация окажется в итоге полезной.

1. ПОДГОТОВКА
Прежде чем браться за сканирование книги(будем считать что сканер у вас имеется, и оцифровка будет проходить не при помощи фотоаппатара, хотя я иногда и такие фокусы откалываю - зато быстрее - книгу за минут 15 можно отщелкать. К слову, если уж было сделано фотиком - то в помощь пригодится программа Cam to Scan для исправления фоток текста, чтобы больше походили на сканированные), нужно провести предварительную подготовку. Во первых, это касается софта(он должен быть прост в использовании, удобен, желательно бесплатен), продуманного расположения файлов(чтобы через месяц не чезать затылок куда же сканировалась книга, и как назывались файлы). Важно также аккуратно и начисто протереть стекло перед сканированием - лучше заранее избавиться от волосков и песчинок, чем потом редактировать множество файлов, уж поверьте опыту, минута протирания избавит от часа лишних редактирований! Так что если у вас длинные волосы или борода - следите чтобы стекло оставалось чистым - при массовом сканировании сотен страниц лечше выбрать такую позу, чтобы ничего не сыпалось на стекло сканера.

Итак, подготовили книгу, сканер, создали грамотную систематику для книг (у меня книги в директории "j:\!BOOKS", и далее с систематиским рубрикатором), теперь нужно выбрать программу для сканрования. Изучите свою программу на предмет массового сканирования, и если там такой функции не наблюдается(например в стандартной программе от Epson ее нет), то рекомендую потратить еще несколько минут на предварительную подготовку, которая вам в итоге сохранит часы времени.
Итак, речь идет об использовании Линукса. Проще всего скачать программу Unetbootin(мегабайт около 5 занимает), вставить флешку, и выбрать из списка любой дистрибутив Линукса! Он сам скачается и установится прямо на флешку. У меня это занимает минут 10-15. Скорость зависит от качества интернета, откуда программа скачает зачастую около 700Мб, если нормальный дистрибутив, например Дебиан или Федора. Дальше нужно просто загрузить компьютер с флешки, или SD-карты - и вы в Линуксе! Лично я пользуюсь отдельным нетбуком для этих целей, SD и Федорой. Далее вставляем в usb порт шланг сканера - и он уже готов к рабте - не нужно искать/ставить/настраивать драйвера. Достаточно запустить программу по умолчанию для сканера Simple Scan
Вот как выглядит ее интерфейс:

На скриншоте выбран пункт, который нам и нужен - массовое сканирование. Выбрав этот пункт сканер начнет сканировать без остановок раз за разом, нам нужно будет только успевать переворчивать страницы.
Таким образом я сканирую 50 страниц за 7 минут! Несложно посчитать что обычная 400страничная книга будет отсканирована всего за час! Это при условии максимального качества в 300dpi. А ведь при более низком качестве(150, 72) скорость будет еще быстрее, правда и качество тогда будет хуже, но если книга будет оцифровываться без изображений, и только распознаваться на OCR - этого может быть достаточно, зато даст экономию лишних 10-15 минут.

Теперь весьма прогрессивный пункт, для еще бОльшего ускорения работы - создаем виртульный диск. Визуально у нас появится отдельный диск, вроде винчестера, как диск С:\ или D:\, на самом деле данные будут храниться прямо в оперативной памяти. Это называется RAM-drive. Это непостоянное хранилище данных - после перезагрузки данные на таком диске не сохраняются(хотя есть возможность сделать автомаунт исошки, и даже автосохранение периодические и при лог-ауте, но это отдельная тема).
Итак, если у нас достаточно памяти, то часть ее можно использовать как временный диск, для обраттки изображений - т.к. файлы не будут писаться на винчестер, а будут обрабатываться прямо в памяти, то и скорость работы будет максимальной!
Из десятка протестированных и описаных мною программ для создания Рам-дисков я советую ImDisk. Также неплохо себя показала программа OSFMount, ведь она может работать и без установки, и как виртуальный диск, подключая iso образы дисков.
Небольшой совет - сразу запишите на такой Рам-диск портабельную версию XnView - чтобы она не стала предательски писать кеш и превьюшки изображений к себе на винчестер, тем самым погубив преимущество работы на рам-диске.
Не забудьте что создав диск вы тем самым забираете часть памяти, потому если у вас, например, 4Гб оперативной памяти, то создав 1Гб диск вы тем самым сократите себе память на гигабайт. Потому, если у вас всего 1Гб памяти - то рам-диск вам скорей всего не светит. Разве что 100-200 мегабайтный, для небольших обьемов фото к обработке.

2. ПРОГРАММЫ
Отсканированые страницы готовы, но их еще нужно привести к человеческому виду.
Мы можем использовать программы, предназначенные специально для этой цели: программа откорректирует размеры, разрешение, обрежет поля, поправит наклон страниц, уберет тени и артефакты. Вот две программы для этих целей: Scan Tailor и ScanKromsator.
Для этого наилучшим образом подходит программа XnView. Она есть для многих платформ, но версию MP лучше не использовать - ради кроссплатформенности автор пожертвовал функционалом.
Есть и другие удобные программы для работы с изображениями, есть даже Фотошоп, но для наших целей наиболее подходит именно XnView - бесплатный, легковесный и очень многофункциональный.

3. ПОВОРОТ СТРАНИЦ
Итак, если сканы были сделаны под 90 градусным углом - выделяем все такие файлы, и жмем Ctrl+Shift+R или Ctrl+Shift+Л для поворота всех выделенных файлов вправо или влево соответственно.

4. ОБРЕЗКА
Теперь важный момент - нужно создать новую папку, например с именем 01, и туда скопировать все наши файлы - это бекап.
Переходим к обрезке. Откроем любое из изображений, и выделим часть, которая будет рабочей областью. Теперь нам надо записать координаты левой верхней точки(показывается в статусной строке при наведении мыши на нужную точку картинки). Обрезаем картинку по нашему выделению(Shift+X), и записываем кол-во пикселей по ширине и высоте.
Теперь не сохраняясь выделяем снова все файлы, жмем Ctrl+U (Tools/batch processing), и там в закладке Transformation выбираем пункт Crop, в котором вписываем запомненные координаты и размеры в нужные поля. Жмем "Go", и все 400 страниц книги у нас обрезаны и подогнаны под один размер!

Снова создаем папку, теперь с именем "02", и копируем туда результат - это еще один промежуточный бекап.

5. РЕГУЛИРОВКА КОНТРАСТА И ЯРКОСТИ
Открываем один среднестатистический файл, и в меню Image/Adjust/Brightnest-Contrast устанавливаем подходящие параметры. Например по +20, как у меня зачастую оптимально получается. Запоминаем показатели, и снова выделяем все файлы, и идем в Tools/batch processing(Ctrl+U), и там в закладке Transformation выбираем пункт Brightnest и Contrast, в которых вписываем наши показатели. Нажатием "Go" все файлы будут откорректированы по яркости и контрастности.

Снова создаем папку, назвав ее "03", и копируем туда очередной бекап.

6. ТЕНЬ ОТ СГИБА
Теперь открываем любой из файлов, и выделяем тень по центру по всей высоте. Переносим выделение на любой полностью белый участок изображения, и жмем Shitf+X - обрезав изображение. Сохраняем эту картинку под новым именем "сохранить как...", называем ее как-то, например "patch.jpg"
Теперь снова выделяем все файлы, снова Tools/batch processing(Ctrl+U), и там в закладке Transformation выбираем пункт "Watermark", указываем в списке наш файл patch.jpg, и в настройках ставим "по центру". Нажав Go мы применим эту "заплатку" ко всем файлам, прикрыв тень от сгиба белой заплаткой.

7. ПОПРАВКИ
Вот и все - все файлы обработаны. Но если вдруг где-то текст съехал при сканировании, то заплатка могла налезть на текст. Потому нам могут пригодиться те самые бекапы, которые мы делали! Порой мне пригождаются бекапы даже из первой папки!

8. РАЗМЕРЫ ФАЙЛОВ
Отсканированная книга на 400 страниц занимает порядка 450-500Мб. Например, у меня сейчас книга на 447 страниц занимает 495Мб.
Уже на этапе обрезки размер стал 132Мб. Окончательная ПДФка высокого качества - 150Мб. Ее уже можно жать средствами ПДФ до 80Мб, или каким-нибудь ФайнРидером до 5-10Мб.
Если смотреть размеры отдельных файлов, то первичные сканы имеют размер около 1,5-2МБ, после обрезки размер уменьшается в 3 раза, и оконачтельная обработка уменьшает еще на процентов 30, то есть например 2MB / 800kb / 600kb на страницу.

9. ПРИМЕРЫ СТРАНИЦ ИЗ ВЫШЕОПИСАННОГО АЛГОРИТМА ОБРАБОТКИ

Первый столбец - это файл, каким мы его получили со сканера, 2 - обрезка, 3 - регулировка, 4 - убираем тень.
Кстати, картинка с примерами тоже делается в XnView очень просто - выделив нужные файлы жмем на создание панорамного изображения.

Если вы создавали виртуальный Рам-диск, то на пакетную обработку у вас уйдет минут 10-15. Если же обработка проходит на файлах на винчестере, или что еще хуже - на флешке, то время ожидания нужно умножить в несколько раз. Зато можно будет сходить попить чаю.

10. СОЗДАНИЕ ФАЙЛА КНИГИ
Итак, файлы готовы, осталось только создать саму электронную книгу.
Для DJVU все просто - идем на официальный сайт с программами.
А вот если нужно создать pdf, то тут есть множество способов, совершенно разных - платные\бесплатные, програмные\онлайновые, специализированные или просто с побочной функцией. Так, к примеру, вчера я тестировал программу для конвертации видео, в которой зачем-то были также функции работы с pdf - конвертация, обьединение и разбивка.
Файнридер может сделать пдфку с картинок. Если установлен виртуальный пдф-принтер - то картинки можно послать на печать на такой принтер, и получить на выходе пдфку. Можно взять самую специализированную программу - Adobe Acrobat (не Reader!) и прямо в ней создать пдфку из картинок. Или создать файл из всех страниц при помощи бесплатной и маленькой программы IrfanView, которая, к слову, многими рассматривается как прямой конкурент XnView, на уровне как TotalCommander и FAR. Платные ломанные специализированные програмы, вроде "JPG To PDF Converter" не всегда показывают оптимальный результат.
Вопрос компрессии я не рассматриваю потому что это вопрос личный, и далеко не в каждом случае нужно терять качество ради минимизации обьема. Мак и обработку и сборку книги в альтернативных ОС(Линукс, МакОс, и т.п.) тоже пока оставлю в стороне, это совсем отдельная тема для разговора.

_________________
"что ты рассказываешь про законы Мои, и о завете Моем уста твои говорят, а сам ненавидишь повеления Мои и слова Мои выбрасываешь прочь?" - Тегиллим/Псалом 49:16

Последний раз редактировалось lukoie Пн дек 24, 2012 12:29 am, всего редактировалось 10 раз(а).

Вернуться к началу

Старший Брат

Заголовок сообщения: Re: Сканирование книг

Добавлено: Пт дек 21, 2012 7:30 am

Магистр

Зарегистрирован: Сб янв 23, 2010 9:56 pm
Сообщения: 11962
Благодарил (а): 0 раз.
Поблагодарили: 9 раз.
Вера: Православие
Кредо: Инквизитор
Крещен у СИ: Нет
Пол: Муж

Между 3й и 4й разница только в отсутствии тени от сгиба? Я вот что думаю: иногда читаешь электронную книжку, очень аккуратно отсканированную. Но создается такое впечатление, что она вообще не существовала в бумажном варианте. Как бы оставить некоторые ньюансы именно бумажного варианта для чтения на е-инк перле?

_________________
Пусть всегда будет такса, пусть всегда будет с носом!
Пусть всегда будет длинной, пусть всегда будет хвост!

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Пт дек 21, 2012 8:45 am

Аксакал

Да, тот шаг в обработке подразумевает именно прикрыть сгиб, не очень эстетичный. Это пункт 6(немного подредактировал еще текст - добавил пару абзацев текста).
Если же все таки возникает желание чтобы книга выглядела более "книжно" - это сделать просто. Можно либо ту белую полосу накладывать с 80% прозрачностью, либо, что еще лучше, позже сделать еще один шаг: наложить на чистые развороты альфа-канальное изображение с фотошопным сгибом и тенями. Так все страницы будут выглядеть унифицированно и более профессионально. Даже если нет такой заготовки - сделать самому ее несложно - главное выбрать наиболее подходящую страницу, у которой нравятся сгиб и тени, почистить ее от текста и всего ненужного, и потом накладывать водяным знаком с прозрачностью на все страницы. Для лучшего результата фотку надо зафотошопить и там же сохранить альфа-канал с полу-прозрачностью где она будет задумана.

Вернуться к началу

Kudasov

Заголовок сообщения: Re: Сканирование книг

Добавлено: Пт дек 21, 2012 8:57 am

Аксакал

Зарегистрирован: Чт мар 05, 2009 6:00 pm
Сообщения: 5053
Откуда: Таганрог
Благодарил (а): 148 раз.
Поблагодарили: 504 раз.
Блог: Просмотр блога (7)
Вера: Православие
Кредо: Один Господь - одна Церковь
Крещен у СИ: Да
ЛО: Да
Пол: Муж
skype: kudasov46

Так это программа для Линукса. У меня в Убунту сканер определяется, а вот печатать не хочет.

_________________
И зачем нам враги, если у нас такие друзья?

Вернуться к началу

Дядя Фёдор

Заголовок сообщения: Re: Сканирование книг

Добавлено: Сб дек 22, 2012 10:02 am

Старожил

Зарегистрирован: Пн янв 23, 2012 11:28 am
Сообщения: 2460
Благодарил (а): 350 раз.
Поблагодарили: 1068 раз.
Крещен у СИ: Нет
ЛО: Нет
Пол: Муж

Я пользуюсь всегда программой ABBYY FineReader 11

_________________
И если сотня, воя оголтело,
Кого-то бьет,— пусть даже и за дело!—
Сто первым я не буду никогда.

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вс дек 23, 2012 12:44 am

Аксакал

Дядя Фёдор писал(а):

Я пользуюсь всегда программой ABBYY FineReader 11

И сколько времени у Вас уйдет на сканирование 400страничной книги? И получите ли Вы такое же качество готовой электронной книги и в те же сроки, как показано в скринах(последний столбец)?
Это мы не трогаем вопрос что ФайнРидер не дешевый, и только под Виндовс.

Тем более. если Вы ВСЕГДА пользуетесь ФайнРидером 11 - а он вышел только в 2011 году, то я так понимаю опыт у Вас небольшой, тогда как у меня опыт с начала 90х(в т.ч. и ФайнРидера еще с первых версий), используя для профессиональных целей.

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вс дек 23, 2012 9:29 pm

Аксакал

http://en.wikipedia.org/wiki/Book_scanning
тут есть немного теории, и несколько интересных изображения как сканируются книги в промышленных масштабах.
Недавно видел презентацию сканера для гугл.книг, где книги сканируются со скоростью что-тотипа 5000 стр в минуту, переворачивая страницы пылесосом.
вот, нашел: http://hackaday.com/2012/11/16/google-b ... k-scanner/
статья об этом на сайте "книгосканер своими руками": http://www.diybookscanner.org/forum/vie ... =17&t=2720
там есть ссылки на оф.статьи, на планы, на информацию как самому сделатьтакой же - потому что эта разработка сканера для книг - опенсурсная - с открытыми исходниками.

Интересно что тут в википедии в разделе "сканирование без вмешательства" на основе призм дают скорость 500-700стр в час(для справки - у меня в ручном режиме это 400стр/ч )

Последний раз редактировалось lukoie Вс дек 23, 2012 11:46 pm, всего редактировалось 2 раз(а).

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вс дек 23, 2012 9:53 pm

Аксакал

Хотя, тут говорят что на самом деле 1000стр за 90 минут.
90*60/1000=5,4
А у меня страница за 8 секунд. Так что не настолько оно и усовершенствовано - на самом деле можно добиться намного лучших результатов с зеркалами и фотиками, используя тот же пылесос.

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вс дек 23, 2012 9:57 pm

Аксакал

Kudasov писал(а):

Так это программа для Линукса. У меня в Убунту сканер определяется, а вот печатать не хочет.

Да, потому что она предоставляет возможность непрерывного сканирования без ручного учаситя человека. Нужно только переворачивать страницы(что по идее тоже можно автоматизировать, но не в таких медких масштабах как сканирование пары книг месяц).
Если Вы вдруг знаете как добиться того же результата по эфективности скоростив ремени сканирования книги в Виндовсе - пишите.
Только ФайнРидер и сканирование пары страниц - это совсем не то, о чем идет речь в данной статье.

Вернуться к началу

ArtuRus

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вс дек 23, 2012 11:04 pm

Новичок

Зарегистрирован: Вс апр 22, 2012 8:49 pm
Сообщения: 551
Благодарил (а): 489 раз.
Поблагодарили: 225 раз.
Вера: Нетрадиционная
Кредо: Аз Есмь 1
Крещен у СИ: Да
ЛО: Да
Пол: Муж

pdfFactoryPro - ПДФ принтер, которым пользуюсь я. Но заметил, что онлайн конвертеры (http://www.doc2pdf.net/ru/) из doc в pdf делают точную копию практически без снижения качества исходников, только шрифты нужно использовать стандартные, естественно картинок это не касается, они довольно хорошего качества выходят.

_________________
Хватит Спать1 Хватит Есть1
Хватит Пить1 Хватит Дышать1
Ибо БезСмертные в этом не нуждаются1
==>><<==

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Пн дек 24, 2012 12:18 am

Аксакал

К сожалению, у меня ПДФ Фектори неоднократно выдавал неприемлемые результаты. Особенно когда нужно было для обычной почты распечатать квитанции из браузера в пдф, то программа только половину страницы выдавала, остальная половина была пустотой.
Так что пока остановился на doPDF.

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Пн дек 24, 2012 12:38 am

Аксакал

Статья, описывающая сканирование книг: http://www.djvu-soft.narod.ru/scan/scan ... e_1_07.htm
В статье сканируют в полу-ручном режиме, для этого предлагают использовать IrfanView, с его функцией пакетного сканирования, хотя там все-равно придется для каждой страницы жать кнопку "сканировать" в программе, тогда как в моем варианте это делается автоматически, тем самым не теряются лишние телодвижения и секунды на страницу, что на книге даст уже минуты!
Также в статье обрабатывают сканы Сканкромсатором, о котором я писал как о программе для автоматизации обработки сканов, и итог выводят в Дежавю, показывая пошагово как это делать. Тем не менее, там представлено слишком множество шагов, что в итоге не экономит время, а скорей наоборот.
В статье также в разделе PS высказано весьма нелестное отношение к ФайнРидеру.Так и сказано "НЕ НАДО использовать ее - примите это как данность"
Автор отстаивает позицию, что для книги необходимо использовать 600дпи(в самом конце сстатьи в примечаниях), хотя я считаю это вкорне неверным. Ведь даже типографиям макеты для рекламы полноцветку по требованиям дают в 300дпи. Для книг же это ненужный перерасход ресурсов. Даже 300 - это уже с запасом. Ведь книга нужна для использования на экране(а не для типографского использования), а экранное разрешение - 72pdi.

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вт дек 25, 2012 12:16 am

Аксакал

Также у меня в программе для МФУ(принтеро-сканеро-ксерокс) Canon есть пункт для создания пдф. Программа крайне бесполезна - Canon My Image Garden называется.

Последний раз редактировалось lukoie Вт дек 25, 2012 12:48 am, всего редактировалось 2 раз(а).

Вернуться к началу

Ginger

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вт дек 25, 2012 12:33 am

Старожил

Зарегистрирован: Сб май 14, 2011 12:25 am
Сообщения: 3978
Благодарил (а): 259 раз.
Поблагодарили: 1470 раз.
Кредо: Есть только одно благо - знание...
Крещен у СИ: Да
ЛО: Нет
Пол: Муж

У меня возник следующий вопрос.
Я скачал две программки для конвертации из fb2 в другие форматы,это программа "doPDF7",она переводит довольно быстро в PDF,но у меня на E-Reader Sony-300 файл лег только мелким текстом и не поддается увеличению текста на самом устройстве, текст читать нужно с лупой.
Другая программа называется "Calibre",довольно симпатичная и конвертирует заданный файл хоть в rtf,txt,pdf и т.д.
Сконвертировав книжку из формата fb2 в PDF получил вытянутую картинку с текстом,которая выглядит как закладка на книжном листе,с внушительными черными полями с обеих сторон страницы.
Что нужно сделать в настройках,чтобы получить нормальный и читаемый вид страницы в PDF?

_________________
Дискуссия - это обмен знаниями, спор - обмен невежеством.
(Роберт Куиллен)

Вернуться к началу

lukoie

Заголовок сообщения: Re: Сканирование книг

Добавлено: Вт дек 25, 2012 12:52 am

Аксакал

Это нужно смотреть конкретные файлы. Возможно там необходимо точно задавать размеры страниц. Возможно текст передается из фб2 не вектором а растром.

Вернуться к началу

Страница 1 из 2

[ Сообщений: 21 ]

На страницу 1, 2 След.

Список форумов » Общение » Болталка » Компьютеры

Часовой пояс: UTC + 3 часа

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти: