XQuery и/или full-text search

Gold
Дата: 11.03.2005 16:13:07
Привет. Нужна информация:
1) Есть ли в CACHE средства для эффектиной работы с XML-документами. Нужен поиск в документах. Желательна поддержка XQuery

2) Нужен полнотекстный поиск. Искать надо слова и/или части слов, причём быстро.

Собственно всё.
VadimF
Дата: 11.03.2005 21:09:39
Добрый день,

Поддержка XML есть.
Идея состоит в том, что Cache' поддерживает объектную модель, которая лучше чем реляционная соответствует XML.

Есть двусторонний интерфейс классы объектов - схема или DTD и объекты XML-документы.
Еще есть SAX-parcer, поддержка SOAP и т.д.

Вот ссылка на документацию http://platinum.intersystems.com/csp/docbook/DocBook.UI.Page.cls?KEY=GXML.

Только сначала стоит какую-нибудь обзорную статью прочитать про Cache'.
Для того чтобы понять, что такое поддержка объектной модели, единой архитектуры данных и т.д.

Теперь о полнотекстовом поиске в Cache'.
В Cache' можно работать с данными, напрямую обращаясь к многомерным массивам глобалам (где хранятся данные), что позволяет улучшить производительность и реализовать сложные стратегии индексирования.

На базе Cache' созданы поисковые системы в Интернет http://www.scoutmaster.de/, базы знаний с различными видами поиска (информационное агентсво Информтел www.informtel.ru), система документооборота Летограф с полнотекстовым поиском (с поддержкой морфологии www.letograph.com) и т.д.
Есть примеры реализации полнотекстового поиска с открытым кодом.

Могу рассказать подробнее, если интереснее.
Звоните или пишите.

Вадим

vadim@intersystems.ru
Телефон: +7 (095) 967-0088
http://www.intersystems.ru
ну я
Дата: 12.03.2005 23:45:35
VadimF
http://www.scoutmaster.de
Могу рассказать подробнее, если интереснее.

Конечно, интересно.
1) Во сколько им обошлась лицензия на 8000 процессов?
2) Почему они ограничились этой величиной, если для их нагрузки это иногда заметно недостаточно?
3) Почему они применили WebLink а не CSP?
Я не пью спрайт ;-)
VadimF
Дата: 14.03.2005 10:04:24
http://www.scoutmaster.de

1) Во сколько им обошлась лицензия на 8000 процессов?

Откуда взялась цифра 8000? Я посмотрел описание системы, ограничение в 8000 не нашел.

Не готов обсуждать в конференции стоимость лицензии.
Единственный момент, который стоит отметить - для систем в Internet, где нельзя заранее определить количество пользователей, есть специальный тип лицензий.

Уверен, что обе строноны остались довольны.

Кроме этого они продают свою систему в другие организации, а там не нужна такая большая лицензия.

2) Почему они ограничились этой величиной, если для их нагрузки это иногда заметно недостаточно?

Не могу прокомментировать. Думаю, что было бы недостаточно - расширили бы лицензию.

3) Почему они применили WebLink а не CSP?
Система разрабатывалась достаточно давно и отлично работает. Так что пока не переводят. Но через некоторое время, я думаю начнут миграцию.

Давайте лучше какие-то российские систем обсудим.
В этом случае, можно российских разработчиков к дискуссии привлечь!

Вадим
Gold
Дата: 14.03.2005 14:13:21
Нам надо хранить в базе XML-документы и делать поиск по содержимому документов, причём поиск возможен по ЛЮБОЙ части слова. Поэтому нам не подходят MSSQL Ful-text search, MySQL Full text search, lucene и т.п. :-(
Есть ли у Cache технологии, позволяющие эффективно выполнять подобные запросы?
GentleHint
Дата: 15.03.2005 15:22:25
а разве lucene не позволяет искать по ЛЮБОЙ части слова? Есть мнение, что еще как позволяет. Кстати, что значит по любой части слова?
Gold
Дата: 15.03.2005 16:20:26
Люцена позволяет ичкать по части слова если задано начало слова. Если начало неизвестно, то она не может искать.
aou
Дата: 15.03.2005 22:47:46
Знаю в России как минимум два проекта на Cache' в которых реализован поиск по подстроке.

Оба реализуют концепцию нестандартных индексов, реализованных как набор библиотечных класов.

В первом случае используется индекс типа "лесенка" (успешно работает в ГАИ), во втором используется Open Source расширение к Cache' - HyperIndex (bitmap индексы на стероидах).

Обратитесь в московский офис IS - там ребята помогут.