Перейти к содержанию
    

Создание Электронной Библиотеки

Escorial, так ведь, IMHO, и сам файл в формате html довольно прилично может выполнять функции оболочки-контейнера. Ежели работать под Win, так там некоторые просмоторщики, напр., для djvu или pdf, могут быть интегрированы в браузер; в случае же отсутствия таковой интерации просто запускается программа, обслуживающая нужный формат, и единственное отличие второго варианта от первого - так открытие документа в новом окне. В то же время сам формат html достаточно хорошо документирован, что позволяет при минимальных навыках программирования (ну хоть на старинном Бэйсике) самостоятельно написАть программу, вполне прилично генерирующую нужный html-файл с каким-либо описанием материала и ссылкой на него на основе любых текстовых файлов, напр., в простейшем случае - на основе файла, полученного командой dir /s >Spicok_knig.txt. Т.е., сохранили Вы что-то нужное - применили вышеупомянутую команду dir - запустили этот генератор - и получили готовый к употреблению html-контейнер, в который уже внесены все свежескачанные новые материалы, разложенные по разделам. Лень проделывать все эти процедуры - приписали их в командном файле и вытащили его на ярлык или кнопку - ну, типа ОБНОВИТЬ СПИСОК.

Едиственная сложность: чтобы ссылки какой-либо информацией снабдить - эту информацию необходимо где-то взять, ибо никакой генератор самостоятельно её не создаст. Однако функцию получения подобой информации о книге из нормального имени файла или из html-файла, сопровождающего выкладку, поручить такому генератору вполне возможно. Ну, м.б., с минимальным ручным редактированием, напр., если аннотация слишком большая - указать, что из неё надо включить в описание линка.

 

Удачи!

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

google desktop с плагинами.

 

Никсон, вы за GDS ничего странного не замечали, типа сброс информации в инет или адваре ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Крайне прискорбно но следует отметить факт что pdftotext от GDS индексирует всего 10 тыс слов считая с начала документа. (кстати он должен отдельно сгружаться с гугл, внутри инсталяционки его нет).

 

Линк - http://desktop.google.com/support/bin/answ...amp;topic=11603

 

Господа товарищи , кто может привести параметры на другие search енДжины?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Вопрос в тему. Может кто занимался составлением классификатора по электронике?

И второй вопрос, при сортировки статей и книжек довольно часто трудно определить куда их запихнуть, поддерживает ли какой-нибудь софт создание и обработку ссылок?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Господа товарищи , кто может привести параметры на другие search енДжины?

http://www.likasoft.com/ru/document-search/

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Например, понравилась страничка, нажал кнопку и ее содержимое сохранилось во внутренней базе данных

 

может подойдет ScrapBook (плагин для FireFox) ?

сохраняет в локальной папке страницы с любой вложенностью и содержимым, управление скачанными страницами как закладками - организованы в виде дерева, страницы можно редактировать прямо в броузере - удалять ненужные блоки, картинки и т.п.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Спасибо за ссылки .

Архивариус вроде бы есть на аваксе - 3.88. Проверю как работает. DTsearch не понравился - у меня с rar'ом проблемы вышли.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Пользуюсь Greenstone http://www.greenstone.org/

после прочтения статьи http://itc.ua/print.phtml?ID=4548

 

После прочтения восторженных отзывов про GreenStone, восхитился. Не терпелось, решил не ждать и скачать... Скачал... Теперь сижу и жалею времени моего домашнего dial-up'а, потраченного на загрузку куска г%#на размером 46 МБ. Полный отстой!!!

 

Подробности нужны?

- Интерфейс сделан в стиле antiuser. Впрочем, это мелочь. Спасибо уже за то, что хоть с командной строки километровые команды вводить не надо. А то что все медленно отрисовывается, так это дело привычки.

- Индексирование. На некоторых html'ах подвисает (в логе что-то вроде "out of bounds"). Такая же история с pdf'ами: на некоторых просто клина ловит. Rar'ы не ест. Подумал, что, наверное, я дурак и просто пользоваться не умею. Решил потренироваться. Создал папку, в которую поместил 14 простых текстовых файлов. Общим объемом 7 метров. Попробовал создать свою электронную коллекцию. У меня двухядерный Pen'4 3ГГц, когда перегоняю фильмы, могу комфортно продолжать работать. Но если GreenStone обрабатывает тектовый файл, то об этом можно забыть. Проц загружен под завязку, даже окошки переключаются с ох$&%ной задержкой. А общее время обработки!!! За это время, что обрабатывались эти 14 файлов, я бы успел в ручную(!) (не говоря уже про метод Ctrl+C/Ctrl+V) создать на каждый файл описание в несколько абзацев. А ведь это были простые тесктовики! Проводник, Far, Total Commander и др. - все умеют искать текст в файлах, некоторые ищут и в архивах, причем делают это гораздо быстрее. В чем же смысл тогда? Конечно, если занурнуть в глубины настроек, подредактировать исходники этой программулины, разогнать Java'у и т.д., то возможно когда-нибудь что-нибудь получится, если повезет...

 

К слову, попробовал Архивариус 3000. Хотел сначала тоже обхаять, но потом познакомился с GreenStone...

В Архивариусе не понравилось следующее: обрабатывать тектовые файлы в Rar'ах отказался (unsupported format), пришлось поставить галочку "Извлекать файлы из архивов". В результате "индекс" для папки, в которой были 3814 архивов с тектовыми файлами весом 471 МБ, завесил на 1,5ГБ, т.е. 3 раза больше исходного. Зато представление результата поиска радует, понравился морфологический поиск. А инсталяшка всего то - 3,4 МБ!

Так вот, при настройках по умолчанию Архивариус обработал 3814 архивов быстрее, чем GreenStone 14 уже извлеченных из этих архивов текстовых документа. Вот такое вот быстродействие. Похоже, что новозеландцы это наши чукчи только в южном полушарии. Австралийцы про них тоже анектоды сочиняют.

 

Для себя сделал такой вывод: для текстовых файлов в архивах, если искать что-нибудь в них нужно часто, то заюзаю Архивариус, если не часто - то Total Commander с его поиском в архивах по содержимому. Но GreenStone не буду есть даже в "блокадном Ленинграде". IMHO. Ну, а для pdf'ов и djvu'шек буду продолжать пользовать файловой системой: логичная структура катологов и "ставящее все на свои места" имя файла. Достаточно удобно и не так уж и трудоемко. Сначала, конечно, сложно, а потом, когда необходимо добавить всего несколько новых файлов, как два байта переслать..

 

P.S. Попробовал GreenStone еще раз. Ведь так хвалят... Взял теперь 6 текстовиков общим размером 6,7 МБ. GreenStone работал чуть больше 5 минут (вот это скорость!), при этом я в IDE продолжал параллельно ковырять исходник. Размер получившейся my_lib составил 40,8 МБ (всего в 6 раз больше). Попробовал поиск: нашел не все знаки зодиака (в папке была книга на астрологии:) - вот она вероятная разгадка скорости! И попробуйте меня теперь переубедить, что ето есть крутая вестчь.

 

А ведь счастье есть, его не может не быть...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Возникла другая проблема.

 

Я теперь просто раскладываю книги по тематическим папкам. А проблема в том, что у меня они хранятся дома и на работе. Пополнения могут прийти и туда, и туда.

Вопрос: как их синхронизировать? А точнее чем? Т.е. я взял очередное пополнение раскидал его по папкам. Программа-синхронизатор сделала "снимок", создала update, я принес его домой/на работу, запустил такую же программу, которая подхватила этот update и сама(!) раскидала пополнение по тем же папкам. Подскажите?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

У меня куча даташитов, документов Оффиса, Аcad, - все разложено по проектам. Искать вручную нужный элемент нереально. Давно пользуюсь Copernic Desktop Search. Поиск занимает секунды. Прога индексирует файлы указанных типов по содержанию. Я очень доволен. Только djvu не знаю, а PDF - очень классно обрабатывает.

 

Вопрос: как их синхронизировать? А точнее чем?

 

Total Commander хорошо синхронизирует. Только на флэшке нужно носить весь архив. Дома и на работе запускаю синхронизацию и по списку несовпадений выбираю, что удалить, что скопировать.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Total Commander хорошо синхронизирует. Только на флэшке нужно носить весь архив. Дома и на работе запускаю синхронизацию и по списку несовпадений выбираю, что удалить, что скопировать.

Что значит "носит весь архив"? Архив с новыми поступлениями или вообще весь? Просто у меня того, что называется "книга" около 20 ГБ, более 10000 файлов. Носить все на флэшке - это круто. А пополнения примерно раз в неделю, примерно по одной-две сотни файлов. Отсортировав все дома/на работе, не хочется еще раз в ручную(!) сортировать по папкам.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

А пополнения примерно раз в неделю, примерно по одной-две сотни файлов. Отсортировав все дома/на работе, не хочется еще раз в ручную(!) сортировать по папкам.

Уже года два пользую вот это:

http://soft.softodrom.ru/ap/p2599.shtml

Синхронизирует в разы быстрее чем TotalCommander

оффсайт лежит почему-то но в кэше гугля инфа есть.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Уже года два пользую вот это:

http://soft.softodrom.ru/ap/p2599.shtml

Синхронизирует в разы быстрее чем TotalCommander

оффсайт лежит почему-то но в кэше гугля инфа есть.

 

VuBrief 5.3 - то, что доктор прописал. Попробовал - понравилось!

Большое Спасибо За Наводку!

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

а нет ли под эти задачи какого-нить _уже_придуманного_ стандарта, на основе XML ? (чтобы не выдумывать велосипед)

 

как я себе это представляю: каждый файл комплектуется файлом формата XML (метаданные) с идентичным названием, в котором описано всё, начиная от УДК или ISBN и MD5sum файла, заканчивая ключевыми тэгами книги (для быстрого поиска) и фото обложки в Base64.

такая децентрализованность может облегчить распространение электронных документов, каждый из которых комплектуется файлом XML (метаданные).

а для поиска/индексации использовать простую утилитку (благо сейчас XML подерживается на очень высоком уровне), которая бы просто лазила по каталогам и парсила все XML-файлы со стандартным и известным заголовком/структурой.

если библиотека _очень_большая - то как опция - сливать это в единый XML (кэш), а переиндексацию запускать оп прибытии новых документов.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...