![]() | ![]() ![]() |
Molbiol.ru | О проекте | Справочник | Методы | Растворы | Расчёты | Литература | Орг.вопросы Web | Фирмы | Coffee break | Картинки | Работы и услуги | Биржа труда | ![]() NG SEQUENCING · ЖИЗНЬ РАСТЕНИЙ · БИОХИМИЯ · ГОРОДСКИЕ КОМАРЫ · А.А.ЛЮБИЩЕВ · ЗООМУЗЕЙ Темы за 24 часа [ Вход* | Регистрация* ] Форум: | |
![]() ![]() ![]() |
![]() Постоянный участник ![]() |
Учиться лучше на чужих ошибках. Например, я уверен, что мало кто знает как юзать сканкромсатор, вставить в DjVu разпознаный русский текст из FineReader и т.д. и т.п. Пишите. |
![]() admin. Берлин, Германия ![]() |
Автор Sergeant (регистр. номер # 193) on 01.11.2003, 20:17: Какой должна быть сканированная книга Автор Redactor (регистр. номер # 183) on 03.11.2003, 20:25: Здесь я решил собрать те показатели, которые отличают хорошую сканированную книгу от плохой и которым можно стремится при сканировании книг. Эта страница не является требованием к обязательному исполнению, но было бы значительно лучше, если бы выполнялись хотя бы какие-то из нижеприведенных пунктов. Для электронной книги наилучшим форматом является doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру (формулы я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом), но в связи с трудностью преобразования в этот формат из графики рекомендуется использовать djvu-формат как наиболее компактный. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu. Дальнейшие рекомендации даются для djvu-книг. Разрешение сканированной книги должно быть 300-400. Это связано с тем, что при меньшем разрешении книга плохо читается (особенно при дефектах текста), а при большем - размер книги сильно возрастает Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок. Это сильно уменьшает объем книги. Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание. Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу. Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден. взято с http://chemister.fannet.ru/Books/best.htm Sergeant - максималист. Это видно и из качества книг, которые оцифровывал он. По моему мнению, в большинстве случаев достаточно хорошего скана без распознавания символов. Остальные оптимизации (соответствие номеров страниц, обложка, одна страница на лист и т.п.) действительно удобны и не требуют слишком много усилий. Автор Abd (регистр. номер # 652) on 15.11.2003, 12:36: Bolega любезно выложил свою программу для обработки сканированных страниц книг (ScanKromsator 1.0 beta).
Описание (SKdoc.zip) , пример и собственно софт (sk.zip+dlls.zip) лежат здесь: http://bolega.hotmail.ru/ Некоторые функции программы (подробнее в руководстве): - автоматическое исправление наклона страниц; - разрезание разворотов страниц на две отдельные страницы; - автоматическое определение ширины книги и приведение размеров всех ее страниц к единому значению, автоматическое исправление полей страниц; - убирание лишних или «грязных» полей; - убирание черных полос на развороте страниц; 24.11.03: Выложена новая версия (2.1) программы, улучшенная и дополненная (файл sk.zip). Документации к ней пока нет. |
![]() Постоянный участник ![]() |
Добавлено масса новых функций. Gencho выпустил 1.07 версию программы FRFGrab для вытаскивания распознаного текста из файлов FineReader. |
![]() ![]() |
|
![]() Постоянный участник ![]() |
и создания файла с OCR информации для DJVU files. ----------------------------------------------------------------- Рабочее название: FRFGrab.exe, именуемое как СРЕДСТВО ![]() Версия: 1.03 Автор: gencho Платформа: Windows 9x/ME/NT/2000/XP, console application Обратная связь: gencho@yourwap.com Версия FineReader для тестирования: - FineReader 7.0 PE Build 7.0.0.543 part# 3648 - FineReader 5.0 Office try&buy Build 5.0.0.276 product ID: ВНИМАНИЕ: Продукт не содержить сам FineReader. Потребитель должен иметь собственный FineReader, хоть и try&buy версия. Текущее состояние проекта: 25.01.2004 - протестован на болле 12000 сканов для Finereader 7.0 (100%) и 1220 для FineReader 5.x (100%). --------------------------------------------------------------- Парень из Софии поэтому и русский немного странный. Интерфейса у проги нет. Командная строка в стиле UNIX. Но работает исправно. Идея проста. Сохраняем в FineReader проект в графический файл (или файлы) и генерим из этого DjVu. Распознаем в FR текст (например на русском языке). Натравливаем на файлы проекта FRFGrab и извлекаем распознаный текст. В каком промежуточном формате это все хранится - одному богу (ну и gencho тоже) это известно. Другой утилиткой загоняем этот текст в DjVu. Результат- файл DjVu в котором работает поиск и возможность copy/paste русских (и не только) текстов. |
![]() Постоянный участник ![]() |
Вот, что пишет автор: У меня возникла следующая идея. Я ползуюсь dtSearch для создания CD с полнотекстовый search. Так как DJVU не обрабативаются dtSearch-ом, я сделал утилита, которая с результата FRFGrab.EXE делает HTML-версия распознанного, которая можно хранить в ZIP вместе с книгой (dtSearch ищеть в ZIP-files). Так можно организоват большая колекция DJVU и полнотекстовый search. Когда dtSearch найдет что-то в каком нибудь ZIP, то надо загрузить соответствующее DJVU при соответствующая конвенция файлових имен, например: myfile.djvu mydile.djvu.zip ------------------------------------------------------------ Для математиков и физиков это актуально. Они уже насканировали и перевели в DjVu более тысячи книг, которые они закатали на 31 DVD (!!!) |
![]() Постоянный участник ![]() |
<Читатель> - гость - 13.02.2004 13:07 IP: Logged -------------------------------------------------------------------------------- To модераторам форума Уважаемые модераторы, мы хотим читать умные книги. Не отнимайте у нас права на бесплатное образование! Не могли бы Вы новые скаченные книги пересылать musand-у или кому-то еще, чтобы он рассылал их нуждающимся по почте и клал на свой сервер для скачивания? Sergeant - модератор - регистр. номер # 193 13.02.2004 15:04 IP: Logged -------------------------------------------------------------------------------- 2 <Читатель> Я считаю, что подобная дискуссия не уместна в разделе “поиск книг” . Я вам отвечу, но удалю свой пост через 48 часов. >>>Уважаемые модераторы, мы хотим читать умные книги. Читайте. Никто на ваше право читать книги не покушается. >>> Не отнимайте у нас права на бесплатное образование! Так у Вас уже давно нет такого права. Back in USSR !!! >>>Не могли бы Вы новые скаченные книги пересылать musand-у или кому-то еще, чтобы он рассылал их нуждающимся по почте и клал на свой сервер для скачивания? Мы и так делимся книгами по мере возможности. Вот только зарегистрированных юзеров на форуме более 4 тысяч. А Musand один. На долго ли его хватит? Да и Redactoru хватает дел , кроме книг. Если вы хотите читать книги, то %E Sergeant - модератор - регистр. номер # 193 13.02.2004 15:12 IP: Logged -------------------------------------------------------------------------------- Форум глючит Если вы хотите читать книги, то было бы неплохо и самим вносить вклад в общую копилку. Если бы каждый зарегистрированный на форуме отсканировал и прислал хотя бы ОДНУ книгу, то литературы по биологии вам бы хватило до пенсии. musand - постоянный участник - регистр. номер # 3597 14.02.2004 02:11 IP: Logged -------------------------------------------------------------------------------- В дополнение к посту [#Sergeant#], с кот. я согласен: Кста, мне интересно, набереться тут хоть 10-ка сканнеров? [#by the way#] я сканирую на [#Canon#] самом простом за 60 евротугров-1 страница черно-белая=45 сеk. или , б/. в лом самим сканировать и с народом делиться???? а то хорошо бляHAX коммунизм устраивать на чужих горбах... уже страна великая пала из-за повального преобладания прохвостов и паразитов. коммунизм реальнiи , таварисчи-еHто када без указки сам делиться лезiшь с близким ептнах. [Текст переведён с транслита] [Текст переведён с транслита] Cold2 - постоянный участник - регистр. номер # 1484 14.02.2004 14:46 IP: Logged -------------------------------------------------------------------------------- У меня EPSON 2400 Сканирует очень быстро. Но сейчас пока нет времени . И книги почти закончились. Почти все перевел в тиф. Как освобожусь начну переводить. |
![]() Постоянный участник ![]() |
Muzhiki, rastolkuite kraten'ko plz, kak otzifrovivat' DjVu, chtob navigatzionnoe menju, v chastnosti, prit4epit'. Попробую ответить: Используем Document Express. Во второй линии меню можно выбрать различные инструменты рисования, прямоугольник, овал, и т.д. Что вам больше нравится. Мне например импонирует маркер. Выбираем маркер и мажем по строчке в оглавлении. Правым кликом мыши вызываем свойства (самая нижняя строчка в контестном меню) Hyperlink. Далее линкуем с нужной страницей или если DjVu сляпан из глав, то можно и с нужной главой. Результат - гипертекстовое меню. А цафровать DjVu совсем не обязательно, хотя и бывает полезно. |
![]() ![]() |
|
![]() Постоянный участник Сантьяго де Куба ![]() |
DjVu IFilter Quickly find information deep inside DjVu documents with the DjVu IFilter. The DjVu IFilter lets you search DjVu document collections by keyword using Microsoft SharePoint, or standard MS Windows search. |
![]() Постоянный участник Сантьяго де Куба ![]() |
ладно, я не об этом, я о том как я гемороюсь со сканами: 1. сканирую Цаносцаном Н6700 2. софт: ПхотоСтудио, одна из последних версии: в неи быстренько устанавливаю шаблон и все послед. страницы идут лего-страницы перевернул, кнопку нажал-сохранил-нечетные, затем четные в другую сторону, чтоб книжку не вертеть и стереотип динамическии выработался ![]() 3. затем все JПЕГ или ТИФФ прроганяю через UniDream прога представитель watermarkerов, т.е. выставляет автоматом на куче картинок в директории водные знаки, те, кто видел мои сканы-ето Not For Sale и прочая лабуда, а то, как , однажды, заметил Сержант , есть народец, которыи наши сканы людям за бабки всучить пытается. 4. Когда все картинки проштампованы водным знаком-импортирую все дело в DjVu Pro по 150 страниц зараз. 5. отдельная история-ето навигация-времени занимает столько же сколько скан, муторное дело-страшно, т.к. номера страниц в книге не соответ. номерам актуальным в документе DjVu, но зато потом врема економиться значительно, да и народ в kурсе, что от меня продукт не левосканныи идет, чему я рад, марку держу, такои вот я маладец и иду пить томатныи сок. [Текст переведён с транслита] |
![]() Постоянный участник ![]() |
Ну не стоит так драматизировать. 1. Сканирую в зависимости от оригинала: простые книги в сером на HP5470 C. Сканер убогий в настройках драйвера, но обладает двумя неоспоримыми преимуществами. Сканирует достаточно быстро. А главное его преимущество - он казенный и его не жалко. У любого сканера есть ресурс проходов каретки. В России некоторые специалисты успевают убить сканер даже в гарантийный период. Насколько я знаю, такие сканеры по гарантии не чинят. Сложные цветные книги на замечательном Epson Perfectscan 3200. Сканер просто сказка. Очень быстрый, прекрасно сканирует, масса настроек в драйвере. Сначала трачу минут 30 на подбор настроек сканера. Обычно выставляю среднее значение в усилении четкости, фильтр борьбы с линеатурой растра и вручную подбираю точку белого. Все очень индивидуально. У сканера единственный недостаток – цена. Запредельная для сканера. Поэтому использую его только для МЕГАПРОЕКТОВ. 2. Сканирую и делаю первичную обработку в FineReder 7.0 . В нем удобно переворачивать страницы. Отмечаем с control нужные страницы и запускаем переворачивание. Пьем кофе. Проект в FR у меня стандарт для хранения. 3 Импортируем все страницы в отдельный каталог и запускаем Scancromsator. Большую цветную книгу кромсает долго. Обычно ставлю на ночь. 4. Ставим как уже писал musand дополнительные надписи. Конечно, это не остановит хитрож***х коммерсантов, но даст понять людям, которые платят за это деньги, как их накалывают. 5. Загружает покромсаные сканы в Doc Express и опять идем пить кофе или работать. Если я хочу вставить навигацию в файле- заглатываю опять уже покомсаные сканы в FR и сохраняем каждую главу в многостраничный TIFF файл. Каждую главу жмем отдельно в DjVu. Когда все главы готовы- собираем книгу в один файл. Оглавление делает по линкам не на страницы, а на главы. Так гораздо быстрей. |
![]() Постоянный участник Сантьяго де Куба ![]() |
[ 11.03.2004, 21:51: Сообщение отредактировано: musand ] |
![]() Постоянный участник ![]() |
У меня по плану подарок женщинам к 8 марта. Седьмого числа выдет в свет книга из серии "МЕГАПРОЕКТОВ". Тебе тоже понравится. Планка качества будет сильно поднята. |
![]() Постоянный участник Сантьяго де Куба ![]() |
[ 11.03.2004, 21:51: Сообщение отредактировано: musand ] |
![]() Постоянный участник Сантьяго де Куба ![]() |
[ 11.03.2004, 21:50: Сообщение отредактировано: musand ] |
![]() Постоянный участник ![]() |
>>>вверху, несколько неясны моменты, да и где эти проги скачать, к генчо чтоль обратиться.. Можно и ко мне. Мне не жалко. >>>ето будет OCR? Нет. Но DjVu будет с OCR. Сделать полный OCR, а затем правку в FR не хватит и 3 месяцев упорного труда. Овчинка не стоит выделки. |
![]() Постоянный участник Сантьяго де Куба ![]() |
[ 11.03.2004, 21:48: Сообщение отредактировано: musand ] |
![]() ![]() |
![]() Если есть вопросы о FRFGrab (для ввода OCR в DJVU), буду рад ответит. Для размишление: есть уже довольно хорошо работающая версия 1.09. Рассылка только по мыло, попробуите на gencho_(@)_yourwap_.com (убрать '_' и '()') Готовится версия с интерфейсом. |
![]() Постоянный участник ![]() |
Спасибо за Вашу программу. Круто!!! Дайте знать, когда будет готова GUI версия. PS Я с Вами уже и раньше пересекался, но это было на другом форуме. ![]() |
![]() Постоянный участник Сантьяго де Куба ![]() |
У меня задумка, впредь сканированные книги в формате ДйВу снабжать with fully OCRed content, может я велосипед изобретаю, вы скажите, ака более опытные комарады |
![]() Постоянный участник ![]() |
Вопрос индексирования дежавюки остается открытым. Слишком много дополнительной работы. В принципе было бы полезно выкладывать одновременно файл джавюки и распознанную версию. У меня есть набор утилит, позволяющий экспортировать джавюку в разнообразные графические форматы, например TIFF или JPG из командной строки. Далее эти страницы можно заглотить в файнридер и автоматически распознать. Качество распознавания будет ниже плинтуса, но для поиска и индексирования вполне сойдет. |
![]() ![]() |
а) Книга, содержащая только текст (даже если он цветной) или текст со схематическими рисунками: 1. скан 300 dpi в ч-б режиме в файлы bmp формата; 2. кромсатор и, если необходимо, дополнительная расчистка (особенно центральной и краевых полос) в каком-нибудь графическом редакторе (PhotoShop, например); 3. перегон в дежавю в режиме "bitonal". B) Книга, содержащая небольшое количество актуальных серых (15-20%) рисунков или черно-белые неактуальные фотовставки: 1. см. 1а; 2. дополнительный скан 300 dpi в gray-scale режиме в другие файлы bmp-формата страниц с серыми рисунками и ч-б фото; 3. см. 2а; 4. загружаете gray-scale страницы в PhotoShop, выделяете рисунок, переводите режим в ч-б и подбираете яркость, контраст, если нужно, перегоняете через фильтр обострения или како-либо другой, позволяющий наиболее реалистично представить картинку и подогнать ее к книжному варианту, в пункте меню "редактирование" задаете команду "копировать", и, загрузив аналогичную ч-б страницу и выделив сообветствующий фрагмент, из того же пункта меню "редактирование" задаете команду "вставить в", ч-б страницу запоминаете - последовательность повторяете для остальных страниц с серыми картинками; 5. попробуйте проделать 4b с фотовставками и, если ничего хорошего не получается, тогда страницы с фото, прогнав через кромсатор, сконвертируйте в отдельный djvu-файл в режиме "clean"; 6. см. 3а; 7. в DjvuEditor-е вставляете отдельно сконвертированные файлы (в случае 5b). с) Книга, насыщенная актуальными серыми рисунками или/и черно-белыми фото: 1. скан 300 dpi в gray-scale режиме желательно на сканере, для которого регулируется яркость и контраст изображения, что позволит избавиться от серых неинформативных полей, существенно увеличивающих размер конечного результата; 2. при необходимости можно обрезать лишние поля в кромсаторе, а, если сканы получились почти как черно-белые, то убрать центральную полосу; 3. перегон в дежавю в режиме "clean". d) Книга с ч-б текстом и рисунками, а также с цветными вклейками: 1. с ч-б и серым - см. вышеизложенное; 2. цветные вклейки сканируются отдельно в цветном режиме и, учитывая, что цветовая гамма в научной полиграфии, как правило, небогатая, можно подобрать режим сканирования в цвете см. меньшим количеством цветов (например, Web-палитра или 256); 3. конвертируете ч-б, серые и цветные в отдельные djvu-файлы; 4. вставляете-склеиваете в DjvuEditor-е. е) Наиболее тяжелый случай (в смысле для дальнейшей пересылки) - фотокнига или полноцвет: 1. сканируете как есть в том разрешении, в котором не утрачиваюся детали, но желательно не переусердствовать (1200 dpi в любом случае было бы "перебором"); 2. откромсайте, убрав все лишнее; 3. попробуйте сдежавюжить в режиме "clean" - если очень плохо, то в режиме "foto" или "scanned" (последний режим почти не влияет на размер результата относительно суммы исходных); Извиняюсь за конспективность. Вопросы? Please! |
![]() Участник ![]() |
А как вы обычно решаете эту проблему? Буду благодарна, если поделитесь, а если ещё расскажете на какие кнопочки понажимать надо, вообще будет замечательно ![]() [ 13.05.2004, 02:52: Сообщение отредактировано: vera2000 ] |
![]() Участник Москва ![]() |
1. В Fine Reader можно включить опцию разделения разворотов книги на две отдельные страницы (в опциях сканирования). Это иногда бывает весьма полезно, ибо сокращает время сканирования. 2. Если оный Fine Reader глючит, или нет желания/возможности заниматься распознаванием,- можно выделить все изображения и сохранить их в графический файл(файлы). Итого: можно использовать этим микроскопом гвозди... |
![]() Постоянный участник Москва ![]() |
|
![]() ![]() |
|
![]() Постоянный участник Москва ![]() |
Или это рабочий файл? |
![]() Постоянный участник ![]() |
Мне помнится, что полгода назад вы обещали руководство по кромсатору. Как движутся дела в этом направлении? |
![]() Участник Москва ![]() |
|
![]() ![]() |
|
![]() Постоянный участник Москва ![]() |
|
![]() ![]() |
|
![]() Постоянный участник Сантьяго де Куба ![]() |
|
![]() Постоянный участник Сантьяго де Куба ![]() |
h--p://www.prosoft-m.ru/scanners/bookscanners.shtml h--p://www.pirit.com.ua/scanners/zeutschel/os6000.htm XA4Y --------- а эта я васче тасчусь: h--p://www.dialektika.com/books/5-8459-0617-2.html |
![]() Постоянный участник Москва ![]() |
У меня старенький Agfa 1212p, для LPT машинкм скорость у него не плохая, только вот глюков много, под ХР вообще не работает (дров нема), приходится специально для него держать на машине урезанную WIN2000 . Качество по цветопередаче не самое плохое. Вообще я давно не видел в продаже бытовых агфовских сканеров, хотя профессионального оборудования они делают и продают много. Текст сканирую я обычно в 300dpi, контрастность подбираю в зависимости от качества оригинала. Если текст мелкий то сканирую в 600dpi и уже при последующей обработке понижаю разрешение. Иллюстрации всегда 600dpi. Если на странице фотография занимает небольшую площадь, то выделяю две зоны сканирования и для основного прохода делаю малое разрешение, а для фотографии максимально необходимое+режим серого или цвет (результат склеиватся в любом редакторе. В любом случае я придерживаюсь мнения, что лучше получить при сканировании здоровенный файл, а затем его уменьшать, чем несколько раз пересканировать. |
Dual IP-штамп: fr0a5qO1lbcQA гость ![]() |
взялся сделать анонсы (в виде маленьких текстовых файликов) к книгам в DjVu. Пересканировать анонсы книг или набирать вручную - просто лень, а SnagIt - не получается. Подскажите, как сделать текстовые (txt) анонсы дешево и сердито, "выдрав" их из DjVu? |
ууу IP-штамп: freXGxlcEBFoQ гость ![]() |
Если нет, то сохраняем нужную страницу в BMP (правый кноп, Export to file..) - открываем FineReader-ом - распознаем |
guest: Олег IP-штамп: frR4I8sraJiOM гость ![]() |
![]() Для сканирования рукописного одноцветного текста в Linux удобно использовать сканер с автоматической подачей бумаги, сканировать в .pdf, а напоследок --> для начала -- разбираем нужный файл на странички: pdftoppm -gray file.pdf tmp mkdir new for i in *.pgm ; do convert $i -white-threshold 60000 -black-threshold 50000 -monochrome new/$i ; done <-- для чётких записей (ручкой) или: for i in *.pgm ; do convert $i -white-threshold 71000 -black-threshold 60000 -monochrome new/$i ; done <-- для карандашных записей Потом выполняем cd new for i in *.pgm ; do cjb2 -lossy $i $(basename $i .pgm).djvu ; done djvm -c ../file.djvu *.djvu Результат: file.djvu занимает по 14 кбайт на страничку. Для эстетов: всё-таки лучше записи от руки выглядят в векторном формате. Возьмём для примера одностраничный file.djvu (полученный путём вышеописанных манипуляций) и перекодируем его в векторный file.pdf: ddjvu -format=ppm -page=1 -size=1756x1343 file.djvu file.pbm convert file.pbm -monochrome file-1.pbm potrace --opttolerance 1 --unit .5 -b pdf file.pbm Да, file.pdf получился в 3 раза больше file.djvu, но распечатайте и сравните... |
guest: даша IP-штамп: frXA1qexW1MRI гость ![]() |
скажите,плиз!,.. мне нужно книгу отсканить и в дежавю сделать...а как?...где скачать программу?,. очень нужно. |
![]() moderator Україна ![]() |
Например В минимуме нужна DjVu Solo Оптимально еще для разрезки, автоматических подворотов и очистки - ScanKromsator от Bolego для распознавания и наложения текстового слоя DjvuOCR от Генчо + Finereader |
scan IP-штамп: fr.xhxKG0LvkM гость ![]() |
|
![]() ![]() |
|
![]() moderator Україна ![]() |
Вносите книгу в "Каталог" |
« Предыдущая тема · Литература -- архив · Следующая тема » |
![]() ![]() ![]() |