mbla: (Default)
[personal profile] mbla
После запуска спутника в 1957-ом году американский National Research Council начал финансировать группу, которая должна была заниматься машинным переводом на английский русских научных статей - просто при помощи электронного словаря. Слово за слово!

Вот тут я отпала - я была уверена, что грамматики context free - дело давнее, что столь же давно известно, что живой язык - не context free. Но они-то даже какую-нибудь слабенькую context-free грамматику не попытались придумать. Уму непостижимо.

Представить себе, что кто-нибудь в здравом уме и твёрдой памяти начнёт переводить слово за слово...

Я, конечно, знаю, что примерно в это же время астроном Дрейк придумал, как разговаривать с марсианами. Очень просто - посылаешь им рисунок человечка и формулу Эйнштейна. При этом число сигналов должно равняться произвелению двух простых чисел.

Догадливый марсианин раскладывает число на два простых множителя, рисует сетку - и получает картинку из единичек и нулей.

За неимением марсиан Дрейк посылал сигналы коллегам...

Но по-моему, про перевод - круче!

Так вот денежки на этот проект National Research Council давал до 66-года, лет, соответственно, восемь.

Date: 2005-12-20 07:25 pm (UTC)
From: [identity profile] mbla.livejournal.com
Чрезвычайно интересно. Я-то автоматически считала, что с живым языком далеко на context-free не уйдёшь. Есть ведь даже компьютерные конструкции не context-free. Классический пример - anbncn, где n - число повторов предыдущей буквы.

Date: 2005-12-20 07:36 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Ну так разница с компьютерными конструкциями очевидна -- сравните на глаз допустимую "длину" зависимости в компьютерном языке и в естественном. Ну и есть такое общее правило Grammars don't count.

Просто сложность (моделирования) естественного языка -- она как бы не там (не в ту сторону от чистого context-free). Вообще, один из главных шоков последних лет -- насколько самая тупая и прямолинейная статистика справляется с классическими задачами автоматического анализа текста лучше, чем детальные и "умные" формальные грамматики. Т.е. люди, настроенные на приложения, в генеративные модели уже не играют, насколько я понимаю.

Date: 2005-12-20 08:39 pm (UTC)
From: [identity profile] bgmt.livejournal.com
А Вы не могли бы подробнее про Grammars don't count? Я вот спросил у Ленки, понимает ли она, где длиннее, и она без уверенности как-то.

Date: 2005-12-20 09:18 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Я не уверена, на самом деле, что это на самом деле так. Имеется в виду, например, что грамматике все равно сколько рекурсии накрутить в предложении (например, сколько генитивов в одну цепочку) -- в частности, нельзя указать максимум -- где дальнейшая рекурсия невозможна. Какие ограничения есть -- они вне грамматики (по этой теории). У этого идеи и более технические инстанциации в разных теориях.

Где длиннее -- я имела в виду вполне тривиальный взгляд. Ну, например, связывание переменных в естественном языке возможно только очень локальное.

Date: 2005-12-20 11:33 pm (UTC)
From: [identity profile] mbla.livejournal.com
Про грамматику и рекурсии - безусловно так, на этом и стоит.

Date: 2005-12-20 11:43 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Про формальные грамматики -- да, про естественные -- на самом деле не факт, что грамматика без накапливающегося "штрафа" за рекурсию имеет хоть какой-нибудь смысл. Традиционный подход просто выводит этот штраф за пределы "грамматики" (типа грамматике дай волю -- сколько угодно накрутит, но пределы человеческой рабочей памяти не пускают) и, соответственно, считает это не вопросом лингвистики.

Date: 2005-12-20 11:57 pm (UTC)
From: [identity profile] mbla.livejournal.com
А, понятно.

February 2026

S M T W T F S
12345 67
89 1011121314
151617 18192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 21st, 2026 06:09 pm
Powered by Dreamwidth Studios