МегаПредмет


ПОЗНАВАТЕЛЬНОЕ

Оси и плоскости тела человека Оси и плоскости тела человека - Тело человека состоит из определенных топографических частей и участков, в которых расположены органы, мышцы, сосуды, нервы и т.д.


Отёска стен и прирубка косяков Отёска стен и прирубка косяков - Когда на доме не достаёт окон и дверей, красивое высокое крыльцо ещё только в воображении, приходится подниматься с улицы в дом по трапу.


Дифференциальные уравнения второго порядка (модель рынка с прогнозируемыми ценами) Дифференциальные уравнения второго порядка (модель рынка с прогнозируемыми ценами) - В простых моделях рынка спрос и предложение обычно полагают зависящими только от текущей цены на товар.

лев м 1a (денежная единица)





Стричь нсв 8b (-г-)

Прихожая ж (п 4a)

По первому элементу словарной информации определяется грамматический класс (спрягаемое слово, слово субстантивного, адъективного или местоименного склонения – эти термины будут разъяснены позже), для слов субстантивного склонения также одушевленность и род, для спрягаемых слов – вид. Если, например, этот элемент «п», то слово относится к словам адъективного склонения; «ж» – к словам субстантивного склонения, женского рода, неодушевленным; «мо» – к словам субстантивного склонения, мужского рода, одушевленным; «нсв» – к спрягаемым словам (глаголам) несовершенного вида.

Если второй элемент – не цифра, то это означает, что слово изменяется по необычной модели (существительное прихожая изменяется по модели слов адъективного склонения). Остальные элементы словарной статьи либо уточняют тип склонения/спряжения, либо свидетельствуют о наличии в слове чередований (символ *), об отсутствии у слова некоторых форм или о других частных особенностях словоизменения. Буквенный индекс после цифры (или после символа *) характеризует схему ударения во всех формах описываемого слова; эта информация полезна при построении фонетического словаря.

Разработчики компьютерных словарей, базирующихся на словаре Зализняка, выбирают обычно один из трех путей:

- генерация на основе словаря Зализняка словаря русских словоформ;

- использование электронного «Словаря» в исходной форме и разработка (достаточно сложных) алгоритмов, моделирующих работу с «Грамматическими сведениями»;

- создание на основе словаря Зализняка формальной модели словоизменения и необходимое переструктурирование словарной части (явное введение в словарную статью некоторой информации из «Грамматических сведений»), позволяющее существенно упростить алгоритмы.

После подобных преобразований компьютерный словарь может использоваться для решения двух практически важных задач:

1. задача морфологического анализа – определения начальной формы слова по произвольной

словоформе (и, возможно, грамматических признаков словоформы);

2. задача синтеза – построения всех форм (или указанной формы) слова по начальной форме.

 

24.​ Документальные базы данных. Тезаурус.

 

Поиск информации ведется в поисковом массиве, который формируется (и по мере необходимости обновляется) разработчиками или администраторами системы. Элементы поискового массива вводятся в информационно-поисковую систему на естественном (или близком к нему) языке, а затем обычно подвергаются индексированию, т.е. переводу на формальный информационно-поисковый язык.

Индексирование - выражение центральной темы или предмета какого-либо текста или описание какого-либо объекта на информационно-поисковом языке.

Возможны два способа индексирования:

· свободное, когда непосредственно из текста документа извлекаются ключевые слова без учета всех видоизменений их форм и отношений между ними;

· контролируемое, когда в поисковый образ документа включаются только те слова, которые зафиксированы в информационно-поисковом тезаурусе, где указаны их синонимические, морфологические и ассоциативные отношения.

Тезаурус - специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Лексическими единицами информационно-поискового языка являются дескрипторы. Дескриптор ставится в однозначное соответствие группе ключевых слов естественного языка, отобранных из текста определенной предметной области.

Тезаурус и грамматика составляют информационно-поисковый язык. Грамматика содержит правила образования производных единиц языка (семантических кодов, синтагм, предложений) и регламентирует использование средств обозначения синтаксических отношений (например, указателей связи).

На основании тезауруса и правил грамматики формируются поисковые образы документа и запроса (поисковое предписание). Поисковое предписание - текст на информационно-поисковом языке, содержащий признаки документов, затребованных пользователем в запросе.





©2015 megapredmet.ru Все права принадлежат авторам размещенных материалов.