Сканування та створення DjVu-книг

            Скільки не перерив інтернету, жодної універсальної методики сканування і обробки отриманих сканів не знайшлося ніде. Тому буду пробувати висвітлити загальні кроки для отримання електронної книги. 

             Для цього нам потрібно:

-фотоапарат (сканер);

програми:

-Irfan View (якщо все-таки обрали сканер);

-BookRestorer;

-ScanCromsator;

-DjVU Solo (Document Express Editor).  

            Перший етап – сканування:

            Тут є два принципово різні види – сканування сканером і фотоапаратом. Як на мене, другий є більш прийнятливим і в багатьох відношеннях виносить сканер. Всі проекти по оцифруванню літератури проводять саме за його допомогою. В домашніх умовах це має певні складнощі, однак якщо їх подолати, можна досягнути значного вихлопу на фініші.

            Для цього потрібно:

            -фотоапарат (не важливо який, головне, щоб не плівковий);

-скло (від вікна, із поличок в меблях і т.д. за розміром такими, щоб книга могла розворотом поміститися на ньому);

            -штатив (можуть бути як маленькі, так і великі – головне, щоб була невелика робоча висота, або хоча б можливість її максимально зменшити);Ось деякі з них для кращого орієнтування: фото , або фото  

            -настольні лампи (1, бажано 2);

-противага (будь-що важке).

            Береться скло, ставиться його на край стола (будь-якої поверхні), на частину скла, що є на столі ставимо противагу – я наприклад ставлю важкі книги. На звисаючу частину скла кладемо розворотом книгу, яку скануємо. Знизу під склом на підлогу розміщуємо штатив разом із фотоапаратом. Назагал це виглядає десь так:

             фото

            В інтернеті можна знайти ще таку схему:

             фото

            От по ній і варта орієнтуватися. Як ви бачите, тут важливий самий принцип, а не точність виконання схеми.  

          Далі важливо зручно відкалібрувати положення фотоапарата та книги, щоб у об’єктив фотика розворот попадав повністю, і при наступному перегортуванні не потрібно було заново налаштовувати фотоапарат. Найкраще зіставити краї книги і скла, щоб легко було орієнтуватися як ставити книгу надалі. Уже по відношенню до цього положення книги розміщуємо фотоапарат на штативі.

            Настройки фотоапарата:

            1)якщо це проста мильниця,  то ставимо авто режим і виключаємо спалах.

            2)якщо це дзеркальний, або такий, який має manual-режим, то ставимо наступне:

            -діафрагма від 2.8 до 5.6

            -витримка бажана в діапазоні від 1/30 і менше. Великі не бажані, крайня межа, при якій якість залишається доброю – 1/13.

            -якщо є можливість – ставиться ручний фокус, вибирається найбільш можливе число зон фокусування і також при нагоді – фіксується його.

            -спалах звичайно відключений.

            За таких параметрів якість найкраща.

            Обов’язково потрібно освітити поверхню розвороту. Можна починати роботу.

            Тепер щодо недоліків і переваг обох методів. Варто віддати належне – сканування дає дещо краще якість. Однак це неймовірно довгий і малопродуктивний процес. Далеко не всі книжки можна сканувати розворотами, а сканування кольорових триває просто вічність. До цифр – за годину я сканував 80 сторінок (розворотом йшло 160) за годину. Фотоапарат дає цінну можливість сканувати розворотом не залежно від розміру книги, за годину в мене виходив показник у 600 сторінок (в середньому 100 / 10 хвилин), тобто для середньостатистичної книги фотоапарат у 7,5 разів сканує швидше. Якість після повної обробки фотосканів не сильно відрізняється від сканерських сканів. Тому зараз ми бачимо, чому провідні бібліотеки використовують фотоапарати.

            Примітка: важливо накидати чим побільше вагу на противагу – це знерухомлює саме скло і таким чином зменшується вірогідність його зрушити, а відтак – розкалібрувати фотоапарат. Тому ставте томи поважче і побільше.

            Другий етап – обробка сканів

            Тут нам потрібні такі програми:

            -BookRestorer.

            Відкриваємо програму. Там знаходимо у верхній панелі інструментів меню Book і там вибираємо New. Називаємо і вибираємо директорію, куди будемо зберігати. Тиснемо Ok.


            Наступним нашим кроком пивенне бути перенесення сканів у програму. Тут ми маємо можливість попакового переносу файлу – Automated Import у меню Insert. У стрічці Source Folder вибираємо потрібну папку, всі фотографії якої будуть автоматично перенесені у програму,  а також вибираємо формат файлів – у випадку фотографій-сканів – ставимо JPEG-JFF. Знов тиснем Ok і чекаємо, поки всі файли перенесуться. Це займає деякий час, тому не варто дивуватися. Якщо потрібно внести тільки деякі скани із папки, то у меню Insert вибираємо Import files, де вже в одиничному режимі тикаємо на потрібні фото.

 

         Тепер починаємо саму роботу із власне обробки файлів. Для цього нам потрібне меню Restoration, панель якого переважно з’являється разом із запуском програми. Якщо ж цього не сталося, то обираємо у строці зверху кнопочку Restore tool (вона у виглядів пензля). Далі шукаємо найбільш типове зображення із списку і тиснемо на нього (виділяємо). Починаємо гратися із вмістимим Restoration`a:

1)      вибираємо опцію Lighting correction. У вікні, що з’явилося тиснемо на другу вкладку (Lighting correction 2D), заводські настройки не чіпаємо (повинно стояти Threshold: Automatic; Sensivity of the processing: 5) і тиснемо Ok. Із другим параметром в принципі можна експериментувати, це потрібно, коли скани поганої якості, і це може допомогти покращити контасність. Однак у переважній більшості випадків ці заводські параметри ідеально виконують свою роль. Взагалі, цей етап обробки дуже часто є непотрібний. В ідеї він повинен вирівнювати освітленість вихідної фотографії і запобігати надто чорному і надто світлому тексту. Однак досвід підказує, що у більшості випадків цей етап є зайвим і навіть більше того - без нього кінцеве зображення навіть якісніше. Експериментуйте, як вам більше довподоби.

2)      зараз нам потрібна опція Geometrical correction. Там нам потрібно натиснути на наступні кнопочки: text line detection, Horizontal linearities detection, Vertical linearities detection. Це вирівнює нерівності під час сканування та природнє викривлення через оптику фотоапарату. 

3)      далі у меню вибираємо Binarization, де появляються два повзунки – Details і Depth. Вони чи не найважливіші у всій подальшій обробці сканів. За їх допомогою ми переводимо зображення у двоколірне і через це досягаємо великих результатів у об’єми кінцевих djvu-файлів. Я ставлю Details в районі 8 поділки, а Depth – 6. Цей параметр також піддається варіації – можна міняти у всяких напрямках, однак для досягнення якісної картинки достатньо ставити на такі позиції. Це спричинене наступними чинниками: нерівномірність освітлення та фокусу зображення, дефектами в ньому. Це дає більшу більшу чіткість зобрження і забирає зайві шуми із нього. Також добру якість дає положення, зображене на картиці нижче. Знов ж таки - експериментуйте і у вас все чудово вийде. У цьому вам допоможе кнопка Preview - натискаючи її на фоні появляється вже ніби оброблений скан, а ви відповідно по ньому орієнтуєтеся, чи задовільняє вас якість такого чорно-білого перетворення. Далі тиснене Ок. 

4)      ще раз клікаємо на Geometrical correction щоб виключити можливість погано зроблених сторінок.

Зараз ми маємо зображення в яке потім перетворяться всі інші. Варто придивитися, чи воно підходить під критерії якості. При відсутності білих плям посеред тексту, випадінь букв, великої кількості шумів можна йти дальше. Для цього ми натискаємо у меню Restoration кнопочку Original (у вигляді пензлика і хрестика). Зараз ми отримали вихідне зображення. Поряд із Original вибираємо New script, знаходимо у списку інструментів знизу Scripts, а там – New script 1. Дальше тиснемо зверху Start script recording. Зараз всі наші кроки записуються у пам’ять дій. Повторюємо вище вказані кроки. Як ми завершили перетворення зображення, тиснемо Stop script recording. Цим ми вказали програмі сукупність дій, які вона повинна зробити із усіма іншими фотографіями. Для цього ми виділяємо їх всіх – тиснемо Ctrl+A і далi New script 1. Йдемо питикаву-пиво-чай-спати-бухати-чищещось, поки програма все зробить. Для повністю чорно-білої книги на 500-600 сторінок цей етап займе десь 30хв.

По завершенні обробки вибираємо у меню Book опцію Publish. Вибираємо директорію куди будемо записувати скани, потім ставимо Type of filesTIFF LZW compressed і збоку від цього – Color range – Binary. Якщо потрібно потрібно зберегти тільки виділені зображення, то ставимо круг навпроти опції Selection.

Для сканів із чорно-білими і кольоровими картинками:

1) міняється порядок дій для пакетного оброблення фоток і додається ще одна операція:

-Geometrical correction;

-Areas detection;

-Lighting correction (дуже часто не обов'язковий);

-Binarization;

-Geometrical correction.

Далі детільніше:

2) при підборі параметрів для Geometrical correction також вибираємо Vertical linearities detection. Це вирівнює малюнки і полегшує наступний етап.

3) у меню Restoration вибираємо Areas detection, де ставимо галочку коло manual editing, не забираючи її при цьому від Automatic detection, тиснемо Ok. Перед нами з’являється вікно із виділеними автоматично зонами зображення. Якщо вони нас не влашовують, ми їх редагуємо, або ставимо свої власні (збоку на панелі тиснемо на квадрат, той що поряд із курсором мишки і тоді можна ставити). Тиснемо Ok.

4) зберігати одночасно і чорно-білі скани і скани із картинками категорично не можна – вони перетворяться також у чорно-білі якщо у меню Publish ставити Binary. Для того, щоб не було проблем із зобрежнням, ставимо замість Binary – RGB colors у строці Color range. Також можна спробувати Gray Scale, але при умові, що малюнки у книжці являють собою градації сірого.

            Примітки:

1) якщо виділяти зони при роботі із одним зображенням (коли ми підбираємо параметри наприклад), то при наступних кроках дії можуть поширюватися і на виділені картинки або навпаки – тільки на картинки. Щоб цьому запобігти – профілактично тикніть мишкою на саме зображення і після цього продовжуйте роботу.

            2) найкраще створювати дві робочі програми для пакетної роботи програми – одна для чорно-білих сторінок, інша – для таких, які містять малюнки. Для цього варто створити script аналогічно, як це робилося для простої обробки (через New script у меню Restoration). Потім виділити окремо малюнки із зображеннями і обробити їх за відповідною програмою. Потім проробити це із рештою малюнків. Це економить час.

Все решта аналогічно.

            Третій етап – розрізання розворотів

            Не люблю цей етап. Тут є деякі проблеми із програмами, а щоб ці пробеми нейтралізувати потрібно багато самому копатися. Тут нам потрібна програма ScanKromsator, а також для кольорових картинок може бути потрібний Photoshop, де часто доводиться кадрувати зображення вручну. Переносимо туди вже оброблені скани із попереднього етапу. Нам вибиває віконце в якому ми вибираємо у Sort new files – smart.

Далі все за наступним планом:

1) знаходимо зверху у строці меню Edit і в ньому вибираємо Draft kromsate. Простіше цю опцію можна знати на панелі інстурментів – там кнопочка, на якій ножиці на фоні сторінки. Там ми ставимо ставимо галку навпроти Split pages, потім у вкладці Advanced ставимо максимум на Text vert. sensivity. Все решта залишаємо як є, тиснемо Ok і чекаємо. Власне за допомогою цього процему програма розставляє різаки – лінії, по яких в результаті пройде розрізання розвороту на 2 сторінки і обрізання непотрібних білих полів довкола самого тексту.  Ця операція триває досить недовго – із попередньо обробленими у BookRestorer`і сканими це займає до 3-5 хвилин.

 

2) зараз наше завдання – розставити правильно опції у самому ScanKromsatori. У зліва ми бачимо велику кількість вкладок. Почнаємо з першої (Page): галка навпроти Split (обов’язково утримуючи при цьому Ctrlтак ця дія автоматично пошириться на всі скани, надалі завжди про це не забувати, бо через це може бути багато возні); ще у цій вкладці треба поставити Page h. align у обох колонках на С (утримуючи Ctrl). Наступна вкладка – Book тут нам потрібно змінити такі параметри: H.Gap value: від 100 до 180це кому як більше подобається, воно відповідає за величину білих полів на кінцевому результаті. Мені напр. подобається 100. Продовжуємо – вкладка Files: у строці Оutput folder вибираємо потрібну для нас директорію, куди будуть зберігатися кінцеві скани; тут же при бажанні їм можна надати префіксу (напр.: історія006); Output format теж важливе місце у цьому всьому – обов’язково мусить стояти TIFF LZW Compress або TIFF G4FAX Compress; DPIпо нашому – кількість точок на дюйм (dots per inch по їхньому). Фотки із фотоапарату виходять із DPI 72. Сканер переважно настроюють на 300. Тому ми тут можемо поставити із Original у 300, однак це займе потім уйму часу при обробці. Теоретично воно повинне підвищити якість зображення, однак я цього ніколи не роблю, так як прийдеться чекати десь із 1-1,5 поки обробляться скани (в середньому десь 300). Потім буде ще один етап, на якому це зробити простіше і при цьому часу йде набагато менше. Color лишаємо B/W. Наступна вкладка – Options: тут Despeckle потрібно виставити на Safe. Ця опція відповідає за усунення шумів (чорні крапки і все таке). Однак якщо поставити на Fine, то дуже часто витираються і крапки над буквою і. Тому не рекомендується ставити більше, ніж Fine. Ще у цій вкладці треба поставити на максимум Text vert.sensivity і Text horiz.sensivity. Наступною нас цікавить вкладка Binarization – там повинно стояти у Left pageNormal. Ну і в кінці – Quality: галка навпроти Enhance image (утримуючи Ctrl), галки навпроти Smooth, Blur, Sharpen (також всі утримуючи Ctrl). Тут же ми можемо глянути, як будуть виглядати наші скани в результаті (тиснем Preview), в нормі зображення практично  не повинні суттєво розірзнятися.

Примітки: при виборі папки, в яку будемо зберігати файли, важливо пам’ятати, що не можна, щоб у назві папки кирилецею було буква «і». Тоді воно відмовляєтся працювати і довго шукається причину такій поведінці програми.

Далі наше завдання полягає в наступному: переглянути всі скани, щоб перевірити, чи правильно розставлені різаки і виділити картинки (про це зараз). Дуже часто ScanKromsator тупить із різаками. Буває, що захоче відрізати текст, або навпаки – взагалі мимо. Тут треба акуратно все розставити. При високій контрасності тексту і фону проблеми виникають досить рідко, однак завжди на кілька десятків розворотів потрібно виправляти. Якщо ми знаємо, що всі скани мають одинакові краї, то можна застосувати таке положення різака для всіх сканів, які знаходяться у списку нижче за нього (клікаєте 2 рази правою кнопкою миші по кореню різака і вам випадає у вікні наводите Copy current position to, а далі – all down, і таке положення різака збережеться для всіх сканів донизу від цього.       

Що ж до виділення картинок, то тут варто робити так: виділяється мишкою саму картинку, тиснемо праву кнопку миші і вибираємо із списку Exclude and Mark as a dither zone це вбереже малюнок від впливу програми. Причому такий спосіб виділення картинок виправданий тільки для сірих та чорно-білих картинок. Скани із кольоровими малюнками краще кадрувати у фотошопі.

Примітка: деколи при розставлянні різаків система допускається помилки - не ставляться різаки для розділення розворотів. У такому випадку вам потрібно збоку у меню натиснути у віконечко Split, що в результаті дасть появу цих різаків, однак вони будуть стояти не на своєму місці, а збоку. Той різак, чий повзунок знаходиться вище ставите з правої сторони поділу розвороту, а той, що має менший повзунок - зліва. Щод надалі не було з цим проблем ставите цей параметр для всіх сканів, що йдуть донизу від нього (як на малюнку вище).  

Зробивши всі ці речі можемо тиснути на кнопку Process!, яка знаходиться у панелі інстрементів поряд із Draft Kromsate. Якщо ми змінювали DPI, то кажемо програмі так у вікні, що виринуло, і чекаємо, поки програма все зробить. Переважно це займає не більше 5-10 хвилин. По завершенні процесу нам викидається перегляд всіх новосторених сторінок. Милуємося і заодно чистимо від сильних чорних полос, великих чорних плям і т.д. (для цього вибираємо інструмент у панелі зверху, на кнопці зображено гумку). 

 

   

      Примітки 1: для зручного перегляду як у першому випадку (для розставляння різаків і виділенні фоток) зручно використовувати клавіші Q і W – назад-вперед по списку сканів відповідно.

Примітка 2: кольорові скани у ScanKromsator`і ніфіга не обробляються. Принаймні при їх збреженні в результаті все рівно виходять чорно білі. Тому розрізати розвороти із кольоровими малюнками у нас не вийде. У цьому полягає найбільша проблема цього процесу – потрібно це робити вручну за допомогою Phortoshop`a або Lihgtroom`a. Завантажуємо туди всі фотки із кольоровими малюнками, у панелі інструментів вибираємо Crop, що забезпечує кадрування фотографій. Тоді беремо фото і виділяємо одну сторінку із розвороту. Виділивши натискаємо Shift-Ctrl-S, у вінкі що виринуло тиснемо Crop і далі появляється вікно збереження файлу. Тут вибираємо папку, куди будемо закидувати файл і формат (вибираємо із списку TIFF). Потім виринає вінко TIFF Options, де ми ставимо LZW і тиснемо Ok. Щоб два рази не закидувати один і той самий розворот для обрізання, натискаємо Alt-Ctrl-Z (повернення дії назад у Photoshop`і) і пророблюємо це для іншої частини розвороту. Файли після кадрування (обрізання) зручно називати їхніми порядковими сторінками, потім це серйозно полегшить роботу.

Примітка 3: скани, які мають в собі сірі малюнки і ми їх виділяли у попередньому етапі в обох програмах, мають одну особливість – програми для строворення Djvu-книг їх не читають, з’їжджаючи на те, що то там формат не той. Насправді, в них просто формат зберігаєтсья не TIFF LZW compress, а простий TIFF. Щоб це виправити, знов ж таки треба використати фотошоп – перенести туди необхідні файли, натиснути Shift-Ctrl-S (зберегти як), там вибираємо формат TIFF, а в меню, яке виринуло – LZW. Це недолік самого ScanKromsator`а і на жаль з ним нічого не поробиш.

Четвертий етап – складання сторінок у DjVU-книгу

Найпростіший у плані виконання. Для цього відкриваємо програму DjVU Solo, там у меню File обираємо Open. У вікні ми міняємо формат файлів із DjVu File на tiff File. Тоді шукаємо папку із сканами і вибираємо перший із них. (це важливо – спочатку потрібно вибрати тільки один файл). Він відкривається вже у програмі, ми тиснемо на нього правою кнопою миші і вибираємо Insert Page(s) After і додаємо вже всі решта сторінок, включно і з тими, що мають в собі сірі малюнки. Далі тиснемо на File і вибираємо Encode As DjVu. Далі вибираємо папку, куди зберігати djvu-файл, тиснемо Зберегти, виринає вікно, в якому ми ставимо круг навпроти Bitonal і виставляємо замість 72 у Resolution на 300. Чекаємо поки воно закодовує у DjVu-файл і вуаля – перед нами перший із потрібниз нам дежавю. Далі – створюємо за цим принципом  дежа-файл із зображень, які містять кольорові малюнки. Схема та ж, тільки в кінці при кодуванні у дежавю ми вибираємо не Bitonal, a Photo. Після заврешення кодування до сторінки із цього дежавю (кольорового) тиснемо Insert Pages After і вибираємо вже формат DjVu та із списку знаходимо створений нами перед цим дежавю. Зараз розставляємо сторінки попорядку (це трохи займає часу, однак перемога вже близько) і тиснемо на File і там на Save as. Вибираємо директорія, потім виринає вінко, в якому ставимо круг навпроти Bunded і книга ГОТОВА!

          

         

           Назагал створення однієї DjVU книги на 600-700 сторінок разом із сканування займає від 1,5 до 2,5 годин приблизно. Однак це із скануванням і повною обробкую. При скануванні сканером стільки в мене займала одна обробка. сканів. 

           Надіюся ця методика стане вам у пригоді і ми нею розумно скористаємося!

 

 

Хороша стаття. Мені сподобалась..

>>Скільки не перерив інтернету, жодної універсальної методики сканування і обробки отриманих сканів не знайшлося ніде. Тому буду пробувати висвітлити загальні кроки для отримання електронної книги. Як це немає універсальної методики - http://www.djvu-scan.ru/forum/index.php А технологія ScanAndShare v1.07 - http://www.djvu-soft.narod.ru/scan/scan_and_share_1_07.htm

 з них я починав. По-перше, із кольоровими картинками в мене завжди кромсатор лагав, а сірі потрібно було позначати як dither zone, а не picture zone - теж лагало... По-дурге - час який то займало, мій сканер видавав максимум 80ст за годину, і то тіки сірим. По-третє, жодна методика не показувала як правильно поводитися із кольоровими книгами, а якщо і обговорювалося це питання, то тіки загально...

але на жаль при цьому способі, якщо я вірно прочитав, у форматі djvu не буде вбудовано текстового шару, а все буде у вигляді малюнків?

 в принципі ocr можна спробувати зробити через Document Express Professional Editor - там якщо не помиляюся повинна бути ця функція. Ця програма може при потребі повністю замінити DjVU Solo. 

Краще для кодування використовувати DjVu Small, а ніж DjVU Solo, т.я. в останньому дуже старий алгоритм кодування. OCR після кодування прикріплюється до файлу програмою DjVu OCR. Потім ще можна додати гіпертекстовий зміст. Як виглядає при цьому кінцевий результат можете глянути тут - http://www.raslab.info/MEEBrary/Item/ehKniga/Shifrin_G_A_Posobie_po_inte... моя остання праця.

Чи можна плоди своєї праці потім завантажити на цей сайт і як?

Відповідь можете переглянути на форумі тут

Нормально

що саме?