Читаем Бизнес-разведка полностью

2. Программное обеспечение Greenstone предназначено для создания «цифровых библиотек», что подразумевает нечто большее, чем просто поиск с предварительным индексированием по документам DOC, PDF и пр. Этот программный продукт создает каталог документов, конвертирует их в HTML-формат, обеспечивает к библиотеке удаленный доступ посредством броузера. Распространяется бесплатно, с исходными текстами. Правда, работает довольно медленно.

3. Поисковик dtSearchDesktop ( автоматически распознает различные кодировки, в том числе и кириллические (за исключением KOI-8), а также пару десятков форматов файлов, среди которых стоит выделить DOC, XLS, RTF, PDF, DBX (Outlook Express), XML, плюс популярные базы данных (через ODBC). В БД и гипертекстовых документах возможен поиск по содержимому конкретных полей и тегов. Даже защищенные PDF индексируются, но получить их названия и другие атрибуты программа не может. Несомненным достоинством программы является поиск в архивах ZIP.

По виду поиска используются: морфологический, фонетический, поиск синонимов, а также поиск в словах с орфографическими ошибками. Помимо этого, dtSearch Desktop предлагает пользователю словарь (построенный в процессе создания индекса) и при вводе запроса выполняет в нем автоматический поиск.

В качестве недостатка можно отметить только английский интерфейс программы. Стоит dtSearch Desktop около $200.

Российское программное обеспечение. По своим поисковым возможностям отечественные разработки имеют определенное преимущество перед западными, поскольку их разработчики априори лучше иностранцев разбираются во всевозможных лингвистических нюансах нашего государственного языка.

1. Поисковик "Ищейка" www.isleuthhound.com или http://www.isleuthhound.ru) (iSleuthHound Technologies).

«Ищейка» — это полнотекстовая персональная поисковая система, работа с которой напоминает работу в поисковых системах Интернета, таких как AltaVista, Yahoo, Rambler. При первом запуске она создает базу данных по имеющимся документам и индексирует ее. Каждая база данных представляет собой зону поиска — пространство на жестком диске, состоящее из каталогов, в пределах которого программа мгновенно находит документы и файлы. Тест-версия программы поддерживает возможность создания лишь двух зон поиска с индексированием в каждой максимально 500 файлов. Перед проведением поиска документов «Ищейке» необходимо указать зону поиска или создать новую, после чего ввести в окошке диалогового окна ключевые слова, которые должен содержать документ, и нажать кнопку Ищи!

Бесплатная версия «Ищейки» работает только с текстовыми и DOC-файлами, профессиональная ($15) еще с RTF и HTML. Помимо этого для профессиональной версии имеется набор дополнительных подключаемых фильтров — для текста во всех кодировках, документов других приложений Microsoft Office и PDF.

Поддержка PDF появилась в программе недавно, и пока этот модуль «не понимает» русского языка, хотя представители компании обещают устранить этот недостаток в самое ближайшее время. Зато модуль великолепно работает с защищенными документами — не только индексирует их содержимое, но и способен корректно определить название и даже извлечь текст.

2. Интеллектуальная поисковая система «Следопыт» ((«МедиаЛингва»). Последняя версия программы для хранения информации использует Microsoft SQL Server Desktop Edition. В ней устранены практически все замечания и вопросы, которые возникали прежде.

По своей функциональности «Следопыт» напоминает dtSearch. В распоряжении пользователей несколько вариантов поиска: нечеткий, т.е. «на естественном языке», система сама отбросит «шумовые» слова, а остальные приведет к морфологической основе; строгий, при котором ищутся в точности те слова, что указаны в запросе; формальный — с логическими и другими операторами и возможностью комбинирования двух предыдущих.

Поддерживаются текстовые файлы в самых разных кодировках, документы основных приложений Microsoft Office, PDF-файлы, в том числе и упакованные в zip-архивы, а также папки (как сами сообщения, так и вложения) Microsoft Outlook. Следует отметить, что используемые фильтры достаточно «честные», они работают с DOC-файлами именно как с документами Word, не индексируют PDF-файлы, защищенные от копирования информации, и т. д. — естественно, это может быть расценено двояко. Тем не менее PDF-фильтр из «Следопыта» показался одним из лучших при работе с русским языком.

Интерфейс программы достаточно удобен, за исключением нескольких нюансов. Например, окно просмотра найденных документов необходимо вызывать специально, при этом оно все время остается самым «верхним» и в некоторых случаях мешает работать с программой. Зато очень корректно извлекается текст из документов всех поддерживаемых форматов и подсвечиваются слова запроса.

Перейти на страницу:

Похожие книги

Я забыл умереть
Я забыл умереть

«Я забыл умереть» — это история невероятных взлетов и ужасающих падений Халила Рафати. Сейчас он — миллионер, владелец преуспевающего бизнеса, роскошного дома на Калифорнийском побережье и обладатель частного самолета. Среди его друзей — голливудские знаменитости, да и сам Рафати — настоящая знаменитость, жизнь которой достойна экранизации. Глядя на этого цветущего 46-летнего мужчину, построившего свою империю здорового питания Sunlife Organic, невозможно поверить, что этот человек был законченным наркоманом, жил на улице и пережил целых девять передозировок. В свои 33 года он весил всего 49 килограммов и выглядел так, как будто болен всеми самыми страшными болезнями одновременно. «Я забыл умереть» — поразительная реальная история боли, страдания, зависимости и возрождения, биография человека, который одержал окончательную победу над своими демонами и переписал жизнь с чистого листа. «Его книга обладает даром исцеления, потому что раскрывает темы несбывшихся надежд детства, детских травм, примирения с собой, освобождения, дружбы и поисков смысла жизни», — считают те, кто уже познакомился с историей Халила.

Халил Рафати

Деловая литература / Самосовершенствование / Финансы и бизнес