Jump to content

    

Создание Электронной Библиотеки

Escorial, так ведь, IMHO, и сам файл в формате html довольно прилично может выполнять функции оболочки-контейнера. Ежели работать под Win, так там некоторые просмоторщики, напр., для djvu или pdf, могут быть интегрированы в браузер; в случае же отсутствия таковой интерации просто запускается программа, обслуживающая нужный формат, и единственное отличие второго варианта от первого - так открытие документа в новом окне. В то же время сам формат html достаточно хорошо документирован, что позволяет при минимальных навыках программирования (ну хоть на старинном Бэйсике) самостоятельно написАть программу, вполне прилично генерирующую нужный html-файл с каким-либо описанием материала и ссылкой на него на основе любых текстовых файлов, напр., в простейшем случае - на основе файла, полученного командой dir /s >Spicok_knig.txt. Т.е., сохранили Вы что-то нужное - применили вышеупомянутую команду dir - запустили этот генератор - и получили готовый к употреблению html-контейнер, в который уже внесены все свежескачанные новые материалы, разложенные по разделам. Лень проделывать все эти процедуры - приписали их в командном файле и вытащили его на ярлык или кнопку - ну, типа ОБНОВИТЬ СПИСОК.

Едиственная сложность: чтобы ссылки какой-либо информацией снабдить - эту информацию необходимо где-то взять, ибо никакой генератор самостоятельно её не создаст. Однако функцию получения подобой информации о книге из нормального имени файла или из html-файла, сопровождающего выкладку, поручить такому генератору вполне возможно. Ну, м.б., с минимальным ручным редактированием, напр., если аннотация слишком большая - указать, что из неё надо включить в описание линка.

 

Удачи!

Share this post


Link to post
Share on other sites
google desktop с плагинами.

 

Никсон, вы за GDS ничего странного не замечали, типа сброс информации в инет или адваре ?

Share this post


Link to post
Share on other sites

Крайне прискорбно но следует отметить факт что pdftotext от GDS индексирует всего 10 тыс слов считая с начала документа. (кстати он должен отдельно сгружаться с гугл, внутри инсталяционки его нет).

 

Линк - http://desktop.google.com/support/bin/answ...amp;topic=11603

 

Господа товарищи , кто может привести параметры на другие search енДжины?

Share this post


Link to post
Share on other sites

Вопрос в тему. Может кто занимался составлением классификатора по электронике?

И второй вопрос, при сортировки статей и книжек довольно часто трудно определить куда их запихнуть, поддерживает ли какой-нибудь софт создание и обработку ссылок?

Share this post


Link to post
Share on other sites
Например, понравилась страничка, нажал кнопку и ее содержимое сохранилось во внутренней базе данных

 

может подойдет ScrapBook (плагин для FireFox) ?

сохраняет в локальной папке страницы с любой вложенностью и содержимым, управление скачанными страницами как закладками - организованы в виде дерева, страницы можно редактировать прямо в броузере - удалять ненужные блоки, картинки и т.п.

Share this post


Link to post
Share on other sites

Спасибо за ссылки .

Архивариус вроде бы есть на аваксе - 3.88. Проверю как работает. DTsearch не понравился - у меня с rar'ом проблемы вышли.

Share this post


Link to post
Share on other sites
Пользуюсь Greenstone http://www.greenstone.org/

после прочтения статьи http://itc.ua/print.phtml?ID=4548

 

После прочтения восторженных отзывов про GreenStone, восхитился. Не терпелось, решил не ждать и скачать... Скачал... Теперь сижу и жалею времени моего домашнего dial-up'а, потраченного на загрузку куска г%#на размером 46 МБ. Полный отстой!!!

 

Подробности нужны?

- Интерфейс сделан в стиле antiuser. Впрочем, это мелочь. Спасибо уже за то, что хоть с командной строки километровые команды вводить не надо. А то что все медленно отрисовывается, так это дело привычки.

- Индексирование. На некоторых html'ах подвисает (в логе что-то вроде "out of bounds"). Такая же история с pdf'ами: на некоторых просто клина ловит. Rar'ы не ест. Подумал, что, наверное, я дурак и просто пользоваться не умею. Решил потренироваться. Создал папку, в которую поместил 14 простых текстовых файлов. Общим объемом 7 метров. Попробовал создать свою электронную коллекцию. У меня двухядерный Pen'4 3ГГц, когда перегоняю фильмы, могу комфортно продолжать работать. Но если GreenStone обрабатывает тектовый файл, то об этом можно забыть. Проц загружен под завязку, даже окошки переключаются с ох$&%ной задержкой. А общее время обработки!!! За это время, что обрабатывались эти 14 файлов, я бы успел в ручную(!) (не говоря уже про метод Ctrl+C/Ctrl+V) создать на каждый файл описание в несколько абзацев. А ведь это были простые тесктовики! Проводник, Far, Total Commander и др. - все умеют искать текст в файлах, некоторые ищут и в архивах, причем делают это гораздо быстрее. В чем же смысл тогда? Конечно, если занурнуть в глубины настроек, подредактировать исходники этой программулины, разогнать Java'у и т.д., то возможно когда-нибудь что-нибудь получится, если повезет...

 

К слову, попробовал Архивариус 3000. Хотел сначала тоже обхаять, но потом познакомился с GreenStone...

В Архивариусе не понравилось следующее: обрабатывать тектовые файлы в Rar'ах отказался (unsupported format), пришлось поставить галочку "Извлекать файлы из архивов". В результате "индекс" для папки, в которой были 3814 архивов с тектовыми файлами весом 471 МБ, завесил на 1,5ГБ, т.е. 3 раза больше исходного. Зато представление результата поиска радует, понравился морфологический поиск. А инсталяшка всего то - 3,4 МБ!

Так вот, при настройках по умолчанию Архивариус обработал 3814 архивов быстрее, чем GreenStone 14 уже извлеченных из этих архивов текстовых документа. Вот такое вот быстродействие. Похоже, что новозеландцы это наши чукчи только в южном полушарии. Австралийцы про них тоже анектоды сочиняют.

 

Для себя сделал такой вывод: для текстовых файлов в архивах, если искать что-нибудь в них нужно часто, то заюзаю Архивариус, если не часто - то Total Commander с его поиском в архивах по содержимому. Но GreenStone не буду есть даже в "блокадном Ленинграде". IMHO. Ну, а для pdf'ов и djvu'шек буду продолжать пользовать файловой системой: логичная структура катологов и "ставящее все на свои места" имя файла. Достаточно удобно и не так уж и трудоемко. Сначала, конечно, сложно, а потом, когда необходимо добавить всего несколько новых файлов, как два байта переслать..

 

P.S. Попробовал GreenStone еще раз. Ведь так хвалят... Взял теперь 6 текстовиков общим размером 6,7 МБ. GreenStone работал чуть больше 5 минут (вот это скорость!), при этом я в IDE продолжал параллельно ковырять исходник. Размер получившейся my_lib составил 40,8 МБ (всего в 6 раз больше). Попробовал поиск: нашел не все знаки зодиака (в папке была книга на астрологии:) - вот она вероятная разгадка скорости! И попробуйте меня теперь переубедить, что ето есть крутая вестчь.

 

А ведь счастье есть, его не может не быть...

Share this post


Link to post
Share on other sites

Возникла другая проблема.

 

Я теперь просто раскладываю книги по тематическим папкам. А проблема в том, что у меня они хранятся дома и на работе. Пополнения могут прийти и туда, и туда.

Вопрос: как их синхронизировать? А точнее чем? Т.е. я взял очередное пополнение раскидал его по папкам. Программа-синхронизатор сделала "снимок", создала update, я принес его домой/на работу, запустил такую же программу, которая подхватила этот update и сама(!) раскидала пополнение по тем же папкам. Подскажите?

Share this post


Link to post
Share on other sites

У меня куча даташитов, документов Оффиса, Аcad, - все разложено по проектам. Искать вручную нужный элемент нереально. Давно пользуюсь Copernic Desktop Search. Поиск занимает секунды. Прога индексирует файлы указанных типов по содержанию. Я очень доволен. Только djvu не знаю, а PDF - очень классно обрабатывает.

 

Вопрос: как их синхронизировать? А точнее чем?

 

Total Commander хорошо синхронизирует. Только на флэшке нужно носить весь архив. Дома и на работе запускаю синхронизацию и по списку несовпадений выбираю, что удалить, что скопировать.

Share this post


Link to post
Share on other sites
Total Commander хорошо синхронизирует. Только на флэшке нужно носить весь архив. Дома и на работе запускаю синхронизацию и по списку несовпадений выбираю, что удалить, что скопировать.

Что значит "носит весь архив"? Архив с новыми поступлениями или вообще весь? Просто у меня того, что называется "книга" около 20 ГБ, более 10000 файлов. Носить все на флэшке - это круто. А пополнения примерно раз в неделю, примерно по одной-две сотни файлов. Отсортировав все дома/на работе, не хочется еще раз в ручную(!) сортировать по папкам.

Share this post


Link to post
Share on other sites
А пополнения примерно раз в неделю, примерно по одной-две сотни файлов. Отсортировав все дома/на работе, не хочется еще раз в ручную(!) сортировать по папкам.

Уже года два пользую вот это:

http://soft.softodrom.ru/ap/p2599.shtml

Синхронизирует в разы быстрее чем TotalCommander

оффсайт лежит почему-то но в кэше гугля инфа есть.

Share this post


Link to post
Share on other sites
Уже года два пользую вот это:

http://soft.softodrom.ru/ap/p2599.shtml

Синхронизирует в разы быстрее чем TotalCommander

оффсайт лежит почему-то но в кэше гугля инфа есть.

 

VuBrief 5.3 - то, что доктор прописал. Попробовал - понравилось!

Большое Спасибо За Наводку!

Share this post


Link to post
Share on other sites

а нет ли под эти задачи какого-нить _уже_придуманного_ стандарта, на основе XML ? (чтобы не выдумывать велосипед)

 

как я себе это представляю: каждый файл комплектуется файлом формата XML (метаданные) с идентичным названием, в котором описано всё, начиная от УДК или ISBN и MD5sum файла, заканчивая ключевыми тэгами книги (для быстрого поиска) и фото обложки в Base64.

такая децентрализованность может облегчить распространение электронных документов, каждый из которых комплектуется файлом XML (метаданные).

а для поиска/индексации использовать простую утилитку (благо сейчас XML подерживается на очень высоком уровне), которая бы просто лазила по каталогам и парсила все XML-файлы со стандартным и известным заголовком/структурой.

если библиотека _очень_большая - то как опция - сливать это в единый XML (кэш), а переиндексацию запускать оп прибытии новых документов.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now