mbla: (Default)
Helen Kassel ([personal profile] mbla) wrote2005-12-20 07:57 pm

Опять из истории AI (ИИ уж совсем несолидно звучит)

После запуска спутника в 1957-ом году американский National Research Council начал финансировать группу, которая должна была заниматься машинным переводом на английский русских научных статей - просто при помощи электронного словаря. Слово за слово!

Вот тут я отпала - я была уверена, что грамматики context free - дело давнее, что столь же давно известно, что живой язык - не context free. Но они-то даже какую-нибудь слабенькую context-free грамматику не попытались придумать. Уму непостижимо.

Представить себе, что кто-нибудь в здравом уме и твёрдой памяти начнёт переводить слово за слово...

Я, конечно, знаю, что примерно в это же время астроном Дрейк придумал, как разговаривать с марсианами. Очень просто - посылаешь им рисунок человечка и формулу Эйнштейна. При этом число сигналов должно равняться произвелению двух простых чисел.

Догадливый марсианин раскладывает число на два простых множителя, рисует сетку - и получает картинку из единичек и нулей.

За неимением марсиан Дрейк посылал сигналы коллегам...

Но по-моему, про перевод - круче!

Так вот денежки на этот проект National Research Council давал до 66-года, лет, соответственно, восемь.

[identity profile] lena-shagina.livejournal.com 2005-12-20 07:02 pm (UTC)(link)
То ли у меня ум за разум заехал, то ли context-free это не слово за слово. Правило типа xABCy --> xADCy оно тоже context-free (считая большие буквы не переменными, а фиксированными). Запрещен только дальний контекст.

[identity profile] mbla.livejournal.com 2005-12-20 07:15 pm (UTC)(link)
Конечно же, context-free - не слово за слово! Просто это я выразилась неточно. Сейчас исправлю - они ведь даже не попытались context-free какую-нибудь придумать. Они просто - тупо, слово за слово. Не то, чтоб context-free сильно помогла, конечно.

[identity profile] lena-shagina.livejournal.com 2005-12-20 07:21 pm (UTC)(link)
Ну, с этим у занимающихся этим длинные разборки. Потому что нарушений context-free по существу довольно мало, а если это ограничение убрать, то грамматика сразу становится намного более мощной, чем нужно. По сути дела, этот факт можно рассматривать как доказательство того, что естественный язык не является дедуктивной системой, но соответствующих теоретиков так просто не прошибешь. Maybe now that Chomsky has retired... как здесь говорят.

[identity profile] mbla.livejournal.com 2005-12-20 07:25 pm (UTC)(link)
Чрезвычайно интересно. Я-то автоматически считала, что с живым языком далеко на context-free не уйдёшь. Есть ведь даже компьютерные конструкции не context-free. Классический пример - anbncn, где n - число повторов предыдущей буквы.

[identity profile] lena-shagina.livejournal.com 2005-12-20 07:36 pm (UTC)(link)
Ну так разница с компьютерными конструкциями очевидна -- сравните на глаз допустимую "длину" зависимости в компьютерном языке и в естественном. Ну и есть такое общее правило Grammars don't count.

Просто сложность (моделирования) естественного языка -- она как бы не там (не в ту сторону от чистого context-free). Вообще, один из главных шоков последних лет -- насколько самая тупая и прямолинейная статистика справляется с классическими задачами автоматического анализа текста лучше, чем детальные и "умные" формальные грамматики. Т.е. люди, настроенные на приложения, в генеративные модели уже не играют, насколько я понимаю.

[identity profile] bgmt.livejournal.com 2005-12-20 08:39 pm (UTC)(link)
А Вы не могли бы подробнее про Grammars don't count? Я вот спросил у Ленки, понимает ли она, где длиннее, и она без уверенности как-то.

[identity profile] lena-shagina.livejournal.com 2005-12-20 09:18 pm (UTC)(link)
Я не уверена, на самом деле, что это на самом деле так. Имеется в виду, например, что грамматике все равно сколько рекурсии накрутить в предложении (например, сколько генитивов в одну цепочку) -- в частности, нельзя указать максимум -- где дальнейшая рекурсия невозможна. Какие ограничения есть -- они вне грамматики (по этой теории). У этого идеи и более технические инстанциации в разных теориях.

Где длиннее -- я имела в виду вполне тривиальный взгляд. Ну, например, связывание переменных в естественном языке возможно только очень локальное.

[identity profile] mbla.livejournal.com 2005-12-20 11:33 pm (UTC)(link)
Про грамматику и рекурсии - безусловно так, на этом и стоит.

[identity profile] lena-shagina.livejournal.com 2005-12-20 11:43 pm (UTC)(link)
Про формальные грамматики -- да, про естественные -- на самом деле не факт, что грамматика без накапливающегося "штрафа" за рекурсию имеет хоть какой-нибудь смысл. Традиционный подход просто выводит этот штраф за пределы "грамматики" (типа грамматике дай волю -- сколько угодно накрутит, но пределы человеческой рабочей памяти не пускают) и, соответственно, считает это не вопросом лингвистики.

[identity profile] mbla.livejournal.com 2005-12-20 11:57 pm (UTC)(link)
А, понятно.

[identity profile] the-bliu-rabbit.livejournal.com 2005-12-21 10:19 am (UTC)(link)
А я всегда считал, что context-free - это строго A -> \alpha, где A - нетерминальный символ, а \alpha - конечная последовательность символов (терминальных и нетерминальных), а ваш пример я считал уже не context-free...

[identity profile] mbla.livejournal.com 2005-12-21 10:28 am (UTC)(link)
Строго говоря, конечно. Но, видимо, в лингвистике расширили пределы. Ну фишка-то в том, что даже в информатическом смысле A-->alpha они не сделали - просто тупо по словам переводили. Право, не понимаю, как такое быть могло.

[identity profile] the-bliu-rabbit.livejournal.com 2005-12-21 10:31 am (UTC)(link)
Ну у меня в молодые годы был проект переводчика с Паскаля на С не совсем, конечно, но почти слово в слово... масштаб, впрочем, не тот, что здесь.

[identity profile] mbla.livejournal.com 2005-12-21 10:36 am (UTC)(link)
Не, немасштабно. Если б хоть с Паскаля на Лисп - тады да!

А ты к нам в субботу собираешься под ёлку?

А ещё мы сегодня с Каплуновским, который вот-вот прилетит, с Сасмок и с Грином устрицы будем есть. Не соблазняет?

[identity profile] the-bliu-rabbit.livejournal.com 2005-12-21 10:41 am (UTC)(link)
В субботу да, а вот сегодня к сожалению нет, хоть и очень заманчиво.

[identity profile] lena-shagina.livejournal.com 2005-12-21 07:52 pm (UTC)(link)
Нет-нет (это к [livejournal.com profile] mbla, Вы правы, а лингвистика в целом непричем, это у одного конкретного лингвиста, как и было предположено, ум за разум заехал.

[identity profile] mrka.livejournal.com 2005-12-20 08:15 pm (UTC)(link)
Я для тебе пост написала. Иди почитай!

[identity profile] moonshee.livejournal.com 2005-12-20 09:56 pm (UTC)(link)
Бородатая история про то, почему в 66-м году прикрыли эти исследования.
(Уж не знаю, насколько это правда, но вполне верится.)
Машине предложили перевести предложение из Библии:
The flesh is weak, but the spirit is strong.
В результате получили что-то вроде «Мясо протухло, а спирт крепкий».

[identity profile] lena-shagina.livejournal.com 2005-12-20 10:12 pm (UTC)(link)
Чистая правда. Я думаю, что этот эксперимент можно с таким же успехом повторить на современных машинных переводчиках.

[identity profile] moonshee.livejournal.com 2005-12-20 10:54 pm (UTC)(link)
У меня один студент есть (если этого молодого человека можно так назвать:(), который домашние переводы с помощью какой-то программы делает. Результат феерический - невозможно понять, на каком языке это написано. Тушите свет:(

[identity profile] lena-shagina.livejournal.com 2005-12-20 11:01 pm (UTC)(link)
Вот-вот, с тех пор как Пентагон в шестидесятые годы финансирование прекратил, мы никуда особо сильно в этом направлении не ушли. А тест-то был, прямо скажем, дурацкий -- не Библию же Пентагон транслировать собирался. В узких технических областях (так, чтобы мясо с плотью не путать) прогресс вполне возможен.

[identity profile] mbla.livejournal.com 2005-12-20 11:36 pm (UTC)(link)
В общем, да.

[identity profile] mbla.livejournal.com 2005-12-20 11:36 pm (UTC)(link)
Вот я только что выше мой любимый пример привела.

[identity profile] mbla.livejournal.com 2005-12-21 10:29 am (UTC)(link)
Ой, не выше, а непосредственно ниже http://www.livejournal.com/users/mbla/161527.html?replyto=5180407

[identity profile] mbla.livejournal.com 2005-12-20 11:35 pm (UTC)(link)
Мой любимый перевод - это протащенный два раза через машинного переводчика "Сижу за решёткой в темнице сырой" - там кровавое продовольствие появляется.

[identity profile] moonshee.livejournal.com 2005-12-21 10:38 am (UTC)(link)
Что-то жуткое там выходит, а точно не помню.

Была такая серия книжек - "Язык и мышление", в одном из выпусков я всё это и читала. Другой был про разницу языковой картины мира у разных народов.

[identity profile] mbla.livejournal.com 2005-12-21 11:33 am (UTC)(link)
Это там где про термины для снега?

[identity profile] moonshee.livejournal.com 2005-12-21 11:53 am (UTC)(link)
Да, про снег и песок там точно было, но это затёртый пример. Книги, кажется, начала 90-х.

[identity profile] mbla.livejournal.com 2005-12-21 12:26 pm (UTC)(link)
Угу. Этот пример, кажется, даже в "Науку и жизнь" попадал.

[identity profile] mbla.livejournal.com 2005-12-20 11:34 pm (UTC)(link)
Историю знаю, но не уверена, что есть прямая связь - там всё же с русского переводили, хотя, в общем, один чёрт.

[identity profile] lena-shagina.livejournal.com 2005-12-20 11:44 pm (UTC)(link)
Нет, там был двойной перевод -- второй для проверки (генерал-то русский оценить не мог).

[identity profile] mbla.livejournal.com 2005-12-20 11:56 pm (UTC)(link)
Ну да, конечно.

Ещё одно давнее: Когда шголый кондуктор входит в трамвай, происходит короткое замыкание.

[identity profile] kot-ivanovich.livejournal.com 2005-12-21 08:01 pm (UTC)(link)
Сколь я помню, это было "Голый кондуктор бегает над трамваем"....

[identity profile] mbla.livejournal.com 2005-12-22 12:26 am (UTC)(link)
Вообще-то он, конечно, бегает над трамваем, трудно отрицать.

[identity profile] kot-ivanovich.livejournal.com 2005-12-22 08:50 am (UTC)(link)
Конечно, бегает. Какие такие претензии к честной компушке, которая старалась, переводила, я лично не понимаю.

[identity profile] mbla.livejournal.com 2005-12-22 10:29 pm (UTC)(link)
Вечно люди несправедливы и к тому же невнимательны.

[identity profile] the-bliu-rabbit.livejournal.com 2005-12-21 10:34 am (UTC)(link)
Babelfish.altavista.com: Плоть слаба, но дух сильн.
(отдельно правило небось написали для этой фразы)

[identity profile] the-bliu-rabbit.livejournal.com 2005-12-21 10:39 am (UTC)(link)
Перевод на английский фразы "мясо протухло" темже babelfish: Meat protukhlo

[identity profile] lena-shagina.livejournal.com 2005-12-21 07:53 pm (UTC)(link)
Блеск...

[identity profile] syarzhuk.livejournal.com 2005-12-21 07:32 pm (UTC)(link)
Lost in Translation (http://www.tashian.com/multibabel/) говорит: The meat is weak person, but the alcohol is strong

С добавкой дальневосточных языков получается The meat is weak person, but the brains are strong

[identity profile] mbla.livejournal.com 2005-12-22 12:28 am (UTC)(link)
Хорошо! :-)

[identity profile] kot-ivanovich.livejournal.com 2005-12-22 09:10 am (UTC)(link)
Я эту историю слышал (от аспиранта CS в Berkeley, вполне внушающего доверие) в несколько другой редакции и вот решил нагуглить как это было на самом деле. Какое разочарование: "The whisky was invisible", or Persistent myths of MT...

[identity profile] moonshee.livejournal.com 2005-12-22 09:48 am (UTC)(link)
Эх:( Не зря я сомневалась.
Сразу странным показалось, что это они из Библии фразу взяли - для космических-то технологий.

[identity profile] mbla.livejournal.com 2005-12-22 10:40 pm (UTC)(link)
Да, разочарование :-))