mbla: (Default)
[personal profile] mbla
После запуска спутника в 1957-ом году американский National Research Council начал финансировать группу, которая должна была заниматься машинным переводом на английский русских научных статей - просто при помощи электронного словаря. Слово за слово!

Вот тут я отпала - я была уверена, что грамматики context free - дело давнее, что столь же давно известно, что живой язык - не context free. Но они-то даже какую-нибудь слабенькую context-free грамматику не попытались придумать. Уму непостижимо.

Представить себе, что кто-нибудь в здравом уме и твёрдой памяти начнёт переводить слово за слово...

Я, конечно, знаю, что примерно в это же время астроном Дрейк придумал, как разговаривать с марсианами. Очень просто - посылаешь им рисунок человечка и формулу Эйнштейна. При этом число сигналов должно равняться произвелению двух простых чисел.

Догадливый марсианин раскладывает число на два простых множителя, рисует сетку - и получает картинку из единичек и нулей.

За неимением марсиан Дрейк посылал сигналы коллегам...

Но по-моему, про перевод - круче!

Так вот денежки на этот проект National Research Council давал до 66-года, лет, соответственно, восемь.

Date: 2005-12-20 07:02 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
То ли у меня ум за разум заехал, то ли context-free это не слово за слово. Правило типа xABCy --> xADCy оно тоже context-free (считая большие буквы не переменными, а фиксированными). Запрещен только дальний контекст.

Date: 2005-12-20 07:15 pm (UTC)
From: [identity profile] mbla.livejournal.com
Конечно же, context-free - не слово за слово! Просто это я выразилась неточно. Сейчас исправлю - они ведь даже не попытались context-free какую-нибудь придумать. Они просто - тупо, слово за слово. Не то, чтоб context-free сильно помогла, конечно.

Date: 2005-12-20 07:21 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Ну, с этим у занимающихся этим длинные разборки. Потому что нарушений context-free по существу довольно мало, а если это ограничение убрать, то грамматика сразу становится намного более мощной, чем нужно. По сути дела, этот факт можно рассматривать как доказательство того, что естественный язык не является дедуктивной системой, но соответствующих теоретиков так просто не прошибешь. Maybe now that Chomsky has retired... как здесь говорят.

Date: 2005-12-20 07:25 pm (UTC)
From: [identity profile] mbla.livejournal.com
Чрезвычайно интересно. Я-то автоматически считала, что с живым языком далеко на context-free не уйдёшь. Есть ведь даже компьютерные конструкции не context-free. Классический пример - anbncn, где n - число повторов предыдущей буквы.

Date: 2005-12-20 07:36 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Ну так разница с компьютерными конструкциями очевидна -- сравните на глаз допустимую "длину" зависимости в компьютерном языке и в естественном. Ну и есть такое общее правило Grammars don't count.

Просто сложность (моделирования) естественного языка -- она как бы не там (не в ту сторону от чистого context-free). Вообще, один из главных шоков последних лет -- насколько самая тупая и прямолинейная статистика справляется с классическими задачами автоматического анализа текста лучше, чем детальные и "умные" формальные грамматики. Т.е. люди, настроенные на приложения, в генеративные модели уже не играют, насколько я понимаю.

Date: 2005-12-20 08:39 pm (UTC)
From: [identity profile] bgmt.livejournal.com
А Вы не могли бы подробнее про Grammars don't count? Я вот спросил у Ленки, понимает ли она, где длиннее, и она без уверенности как-то.

Date: 2005-12-20 09:18 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Я не уверена, на самом деле, что это на самом деле так. Имеется в виду, например, что грамматике все равно сколько рекурсии накрутить в предложении (например, сколько генитивов в одну цепочку) -- в частности, нельзя указать максимум -- где дальнейшая рекурсия невозможна. Какие ограничения есть -- они вне грамматики (по этой теории). У этого идеи и более технические инстанциации в разных теориях.

Где длиннее -- я имела в виду вполне тривиальный взгляд. Ну, например, связывание переменных в естественном языке возможно только очень локальное.

Date: 2005-12-20 11:33 pm (UTC)
From: [identity profile] mbla.livejournal.com
Про грамматику и рекурсии - безусловно так, на этом и стоит.

Date: 2005-12-20 11:43 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Про формальные грамматики -- да, про естественные -- на самом деле не факт, что грамматика без накапливающегося "штрафа" за рекурсию имеет хоть какой-нибудь смысл. Традиционный подход просто выводит этот штраф за пределы "грамматики" (типа грамматике дай волю -- сколько угодно накрутит, но пределы человеческой рабочей памяти не пускают) и, соответственно, считает это не вопросом лингвистики.

Date: 2005-12-20 11:57 pm (UTC)
From: [identity profile] mbla.livejournal.com
А, понятно.

Date: 2005-12-21 10:19 am (UTC)
From: [identity profile] the-bliu-rabbit.livejournal.com
А я всегда считал, что context-free - это строго A -> \alpha, где A - нетерминальный символ, а \alpha - конечная последовательность символов (терминальных и нетерминальных), а ваш пример я считал уже не context-free...

Date: 2005-12-21 10:28 am (UTC)
From: [identity profile] mbla.livejournal.com
Строго говоря, конечно. Но, видимо, в лингвистике расширили пределы. Ну фишка-то в том, что даже в информатическом смысле A-->alpha они не сделали - просто тупо по словам переводили. Право, не понимаю, как такое быть могло.

Date: 2005-12-21 10:31 am (UTC)
From: [identity profile] the-bliu-rabbit.livejournal.com
Ну у меня в молодые годы был проект переводчика с Паскаля на С не совсем, конечно, но почти слово в слово... масштаб, впрочем, не тот, что здесь.

Date: 2005-12-21 10:36 am (UTC)
From: [identity profile] mbla.livejournal.com
Не, немасштабно. Если б хоть с Паскаля на Лисп - тады да!

А ты к нам в субботу собираешься под ёлку?

А ещё мы сегодня с Каплуновским, который вот-вот прилетит, с Сасмок и с Грином устрицы будем есть. Не соблазняет?

Date: 2005-12-21 10:41 am (UTC)
From: [identity profile] the-bliu-rabbit.livejournal.com
В субботу да, а вот сегодня к сожалению нет, хоть и очень заманчиво.

Date: 2005-12-21 07:52 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Нет-нет (это к [livejournal.com profile] mbla, Вы правы, а лингвистика в целом непричем, это у одного конкретного лингвиста, как и было предположено, ум за разум заехал.

Date: 2005-12-20 08:15 pm (UTC)
From: [identity profile] mrka.livejournal.com
Я для тебе пост написала. Иди почитай!

Date: 2005-12-20 09:56 pm (UTC)
From: [identity profile] moonshee.livejournal.com
Бородатая история про то, почему в 66-м году прикрыли эти исследования.
(Уж не знаю, насколько это правда, но вполне верится.)
Машине предложили перевести предложение из Библии:
The flesh is weak, but the spirit is strong.
В результате получили что-то вроде «Мясо протухло, а спирт крепкий».

Date: 2005-12-20 10:12 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Чистая правда. Я думаю, что этот эксперимент можно с таким же успехом повторить на современных машинных переводчиках.

Date: 2005-12-20 10:54 pm (UTC)
From: [identity profile] moonshee.livejournal.com
У меня один студент есть (если этого молодого человека можно так назвать:(), который домашние переводы с помощью какой-то программы делает. Результат феерический - невозможно понять, на каком языке это написано. Тушите свет:(

Date: 2005-12-20 11:01 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Вот-вот, с тех пор как Пентагон в шестидесятые годы финансирование прекратил, мы никуда особо сильно в этом направлении не ушли. А тест-то был, прямо скажем, дурацкий -- не Библию же Пентагон транслировать собирался. В узких технических областях (так, чтобы мясо с плотью не путать) прогресс вполне возможен.

Date: 2005-12-20 11:36 pm (UTC)
From: [identity profile] mbla.livejournal.com
В общем, да.

Date: 2005-12-20 11:36 pm (UTC)
From: [identity profile] mbla.livejournal.com
Вот я только что выше мой любимый пример привела.

Date: 2005-12-21 10:29 am (UTC)
From: [identity profile] mbla.livejournal.com
Ой, не выше, а непосредственно ниже http://www.livejournal.com/users/mbla/161527.html?replyto=5180407

Date: 2005-12-20 11:35 pm (UTC)
From: [identity profile] mbla.livejournal.com
Мой любимый перевод - это протащенный два раза через машинного переводчика "Сижу за решёткой в темнице сырой" - там кровавое продовольствие появляется.

Date: 2005-12-21 10:38 am (UTC)
From: [identity profile] moonshee.livejournal.com
Что-то жуткое там выходит, а точно не помню.

Была такая серия книжек - "Язык и мышление", в одном из выпусков я всё это и читала. Другой был про разницу языковой картины мира у разных народов.

Date: 2005-12-21 11:33 am (UTC)
From: [identity profile] mbla.livejournal.com
Это там где про термины для снега?

Date: 2005-12-21 11:53 am (UTC)
From: [identity profile] moonshee.livejournal.com
Да, про снег и песок там точно было, но это затёртый пример. Книги, кажется, начала 90-х.

Date: 2005-12-21 12:26 pm (UTC)
From: [identity profile] mbla.livejournal.com
Угу. Этот пример, кажется, даже в "Науку и жизнь" попадал.

Date: 2005-12-20 11:34 pm (UTC)
From: [identity profile] mbla.livejournal.com
Историю знаю, но не уверена, что есть прямая связь - там всё же с русского переводили, хотя, в общем, один чёрт.

Date: 2005-12-20 11:44 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Нет, там был двойной перевод -- второй для проверки (генерал-то русский оценить не мог).

Date: 2005-12-20 11:56 pm (UTC)
From: [identity profile] mbla.livejournal.com
Ну да, конечно.

Ещё одно давнее: Когда шголый кондуктор входит в трамвай, происходит короткое замыкание.

Date: 2005-12-21 08:01 pm (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Сколь я помню, это было "Голый кондуктор бегает над трамваем"....

Date: 2005-12-22 12:26 am (UTC)
From: [identity profile] mbla.livejournal.com
Вообще-то он, конечно, бегает над трамваем, трудно отрицать.

Date: 2005-12-22 08:50 am (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Конечно, бегает. Какие такие претензии к честной компушке, которая старалась, переводила, я лично не понимаю.

Date: 2005-12-22 10:29 pm (UTC)
From: [identity profile] mbla.livejournal.com
Вечно люди несправедливы и к тому же невнимательны.

Date: 2005-12-21 10:34 am (UTC)
From: [identity profile] the-bliu-rabbit.livejournal.com
Babelfish.altavista.com: Плоть слаба, но дух сильн.
(отдельно правило небось написали для этой фразы)

Date: 2005-12-21 10:39 am (UTC)
From: [identity profile] the-bliu-rabbit.livejournal.com
Перевод на английский фразы "мясо протухло" темже babelfish: Meat protukhlo

Date: 2005-12-21 07:53 pm (UTC)
From: [identity profile] lena-shagina.livejournal.com
Блеск...

Date: 2005-12-21 07:32 pm (UTC)
From: [identity profile] syarzhuk.livejournal.com
Lost in Translation (http://www.tashian.com/multibabel/) говорит: The meat is weak person, but the alcohol is strong

С добавкой дальневосточных языков получается The meat is weak person, but the brains are strong

Date: 2005-12-22 12:28 am (UTC)
From: [identity profile] mbla.livejournal.com
Хорошо! :-)

Date: 2005-12-22 09:10 am (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Я эту историю слышал (от аспиранта CS в Berkeley, вполне внушающего доверие) в несколько другой редакции и вот решил нагуглить как это было на самом деле. Какое разочарование: "The whisky was invisible", or Persistent myths of MT...

Date: 2005-12-22 09:48 am (UTC)
From: [identity profile] moonshee.livejournal.com
Эх:( Не зря я сомневалась.
Сразу странным показалось, что это они из Библии фразу взяли - для космических-то технологий.

Date: 2005-12-22 10:40 pm (UTC)
From: [identity profile] mbla.livejournal.com
Да, разочарование :-))

February 2026

S M T W T F S
12345 67
89 1011121314
151617 18192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 21st, 2026 11:20 am
Powered by Dreamwidth Studios