Jump to content

    

Создание Электронной Библиотеки

Есть некоторое количество книг в pdf, djvu, chm и др. Упарило бегить по каталогам и искать нужную. Подскажите какими программами пользуетесь для создания электронной библиотеки. Создание простого списка файлов - это не то. А так чтобы красиво было да с поиском и т.п. В нете посмотрел. Есть, есть разные. А хорошие то какие?

 

Ссылки на программы приветствуются.

Share this post


Link to post
Share on other sites

BOOKSEER но не очень даволен

Share this post


Link to post
Share on other sites
пользую

dtSearch от

www.dtsearch.com

доволен...

Скачал... Посмотрел... Жалею потраченного времени dialup'а... Не то , что требовалось...

 

google desktop с плагинами.

 

Посмотрел... Если не секрет с какими именно плагинами, а то их, блин, целая куча, и почте все полезные какие-то, аж противно.

 

BOOKSEER но не очень даволен

 

Посмотрел... Зародыш того, что требуется. Функционал слабоват...

Share this post


Link to post
Share on other sites

Мы пользуемся Sharepoint . Для группы разработчиков удобно обмениваться ссылками на документы, можно устанавливать права доступа к различным библиотекам документов..

Share this post


Link to post
Share on other sites
Посмотрел... Если не секрет с какими именно плагинами, а то их, блин, целая куча, и почте все полезные какие-то, аж противно.

Archives Plugin for Google Desktop Search - для расширения списка поддерживаемых форматов архивов (в основном из-за .rar)

и еще некоторые форматные.

Share this post


Link to post
Share on other sites

А что, "поиск" в проводнике или total commander не работает ?

 

Я делал двумя методами :

 

- простой - переименовывал файлы в соответствии с их полным названием, автором, годом и т.д. и раскидывал по подпапкам в соответствии с темой книги;

- более сложный (когда книг очень много) - каждую книгу или набор файлов - в архив, в архив - файл XML с информацией о книге/авторе/дате и т.д., потом программкой на Питоне генерируется HTML со списком книг, отсортированном по темам и алфавиту. По сравнению с BOOKSEER или базами данных преимущество в переносимости и кроссплатформенности - вся информация о книге содержится вместе с ней, работает на любых системах.

Share this post


Link to post
Share on other sites
переименовывал файлы в соответствии с их полным названием, автором, годом и т.д. и раскидывал по подпапкам в соответствии с темой книги
Собственно говоря, при таком вот переименовании вся информация, необходимая для однозначной идентификации книги, оказывается приведённой в имени файла. И вот какой вопрос возникает: если книги уже правильно названы и распределены по каталогам в соответствии с тематикой - что мешает сгенерерировать, скажем, htlm-файл, в котором и прописать название книги и путь к ней? Ибо ежели вся необходимая информация о книге уже содержится в имени файла, её представляющего, так зачем ещё создавать архив, дублируя в него эту информацию? И, по мере пополнения библиотеки, повотрять процедуру генерации.

Более подробно о характеристиках такого html-файла уже было говорено, вроде даже ссылка с примером ещё жива.

 

Удачи!

Share this post


Link to post
Share on other sites
А что, "поиск" в проводнике или total commander не работает ?

 

Если у Вас книги в *.txt, то тогда конечно. А если DJVU? А если книг 20 имеют одинаковое название, например: Цифровая обработка сигналов, Справочник по ЦОС, ЦОС речевых сигналов и т.д? А если нужно найти не название книги, а конкретную тему Ваш способ поможет? А если книг несколько тысяч?

 

Зачем нужен total чтобы найти книгу, название которой и так знаешь, а по содержимому в djvu пролет полный

Share this post


Link to post
Share on other sites

Пользуюсь Архивариусом 3000 для поиска по книжкам, статьям и документации

www.likasoft.com/ru/document-search/index.shtm

поддерживает все языки и форматы, какие только можно выдумать ;-)

Share this post


Link to post
Share on other sites
А если нужно найти не название книги, а конкретную тему Ваш способ поможет? А если книг несколько тысяч?
а по содержимому в djvu пролет полный
Как-то плохо представляю алгоритм поиска, скажем, конкретной темы, в djvu файле, который получен со стороны и не содержит ни OCR-слоя, ни закладок. Не, можно, конечно, и оцифровку сделать, и букмарки расставить. Можно, в конце-концов, листая книгу, и запись в какой-либо базе данных заполнить - дабы её использованием поиск по нужным параметрам обеспечить. Да вот только небольшая мелочь: делать-то всё это придётся исключительно самому, да ещё и практически для всех книг. Напр., коллективно примерно таким вот образом подшивку журнала "Наука и жизнь" за 1990-2005 гг создали: там и полнотекстовой поиск работает; и букмарки, по которым можно навигацию и по рубрикам, и по авторам, и по номерам организовать, имеются. Но журналов-то этих пока что менее двух сотен. А если книг таких действительно несколько тысяч окажется? И, если работать в одиночку, то останется ли после завершения всей этой черновой работы время, чтобы её плодами воспользоваться?

Извиняйте за оффтоп, но - в вышеприведённом аспекте - вопрос, IMHO, разумно и несколько шире, и, возможно, в отдельном топике, рассмотреть. А именно: не кто какими программами для создания/сопровождения своей личной электронной библиотеки пользуется, а какие из них выбрать (а возможно, необходимые и разработать придётся), чтобы совместное их использование было бы и максимально эффективно, и суммарные затраты ручного (ввод данных) труда минимизировало. В последнем случае я имею в виду, что всю необходимую информацию достаточно будет ввести всего лишь только один раз на каком-то определённом этапе создания электронной книги - и результатом можно пользоваться всем участникам проекта, независимо, скажем, от ОС.

 

Удачи!

Share this post


Link to post
Share on other sites
Как-то плохо представляю алгоритм поиска, скажем, конкретной темы, в djvu файле, который получен со стороны и не содержит ни OCR-слоя, ни закладок.

 

В нете есть програмки и командные файлы к ним, которые

1. сохраняют некоторые страницы djvu в tiff

2. добавляют текстовый файл в файлу djvu (типа OCR).

 

Делаем следующее:

1. переименовываем файлы по определенному закону

2. переписываем соответствующим образом батники (командные файлы) для работы не с одним файлом, а группой файлов

3. Делаем с помощью finereader'а OCR

4. Запихиваем *.txt в *.djvu

 

Ручная работы - п.3, отстальное более-менее автоматизировано.

Делал так. Если честно, то подзае...., есть определенные подводные камни. Может что по-лучше посоветуете, плз.

Share this post


Link to post
Share on other sites

shasik, ну так и я об этом же тяжком труде говорил, а Вы конкретизировали. Беда в том, что в такой ситуации, пользуясь словами автора известных первоисточников, посоветовать можно, IMHO, только одно - лучше меньше, да лучше. Т.е., ежели что выкладывать, так луше одну-две книги до нормального товарного вида довести, чем за этот же срок десяток сырцов вывалить, с которыми затем другие мучаться будут. Конечно, бывают ситуации, когда материал позарез срочно нужен - и здесь уж не до товарного вида: лишь бы разобрать можно было. Тут вот ещё какой фактор вмешивается: преобразование tiff в djvu народ почти всегда выполняет с потерями, т.е., со снижением качества. В то время как материал со сканера можно непосредственно в tiff'ах получить - и безо всяких потерь. Поэтому, за редким исключением, всю обработку лучше выполнять с оригинальных tiff'ов, а не с тех, кои из djvu выгнаны. К величайшему сожалению, на практике делать книгу в электронном виде от начала до конца выполнимо далеко не всегда: у кого-то просто нет доступа к сканеру или нужным книгам, кто-то не может свои отсканированные материалы в djvu перегнать, кто-то в принципе не применяет OCR, ибо все равно оцифровка с ошибками выполняется, а делать полную вычитку - на это времени нет. Можно, конечно, пытаться усилия объединить, однако это получается даже гораздо реже, чем одному весь процесс вести.

Относительно ручной работы. Что-то мне кажется, что и по п.3 уже должны быть наработаны методы автоматизации. Вопросы сканирования, обработки и сборки применительно к создаю электронных книг обсуждаются на многих форумах, так что если есть желание и силы заниматься этим регулярно, то, наверное, имеет смысл там потолкаться: и к уже достигнутым технологиям можно будет приобщиться, и чужие ошибки учесть.

 

А вот на счёт посоветовать что-нибудь получше - вопрос спорный, ибо субьективизма в нём много. Лично я использую имя файла как записи базы данных: автор(ы), название, издательство, год издания, формат/качество, количество страниц, ISBN, рубрика. Достоинства: получил файл, переименовал по форме, положил в нужный каталог - вот и вся ручная работа, ибо всё остальное можно выполнить при помощи разного рода автоматических примочек. Явный недостаток: при очень большом количестве книг, особенно незнакомых, всё ж таки желательно иметь что-нибудь типа краткого содержания или аннотации. К счастью, в последнее время стало признаком хорошего тона: если выкладываешь книгу - приведи и её характеристику. Поэтому, скачивая книгу, имеет смысл сохранить рядом и эту информацию - возможно, когда-либо это позволит не набивать её заново - т.е., примерно так, как это делает ув. umup в случае, когда книг много. Материал, так сказать, для книжного обозрения.

 

Удачи!

Share this post


Link to post
Share on other sites

А может кто знает программу которая является универсальным контейнером для документов формата htm, pdf, doc, xls и т.д. и интегрируется в браузер?

 

Например, понравилась страничка, нажал кнопку и ее содержимое сохранилось во внутренней базе данных программы в соответствующей рубрике, и чтобы программа понимала большинство популярных форматов.

 

Сейчас для этих целей используем сервер mediaWiki с хранением файлов на фтп. Но там пока ссылку на хранилище сделаешь, 100 лет пройдет. Хочется больше драг-n-дропа. :05:

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now