Институт лингвистики Публичные лингвистические лекции Публичные лекции: сезон 2012/2013. «Компьютерная лингвистика»

Публичные лекции: сезон 2012/2013. «Компьютерная лингвистика»

Компьютерная лингвистика существует уже полвека, но только теперь её плодами готовы пользоваться миллиарды. Задачи автоматического анализа текста, такие как машинный перевод,  распознавание речи, информационный поиск стали актуальными с момента появления компьютера, но только технологическая революция, связавшая нашу жизнь с интернетом и многочисленными мобильными коммуникационными устройствами, сформировала всеобщую потребность в языковых технологиях. Готова ли компьютерная лингвистика к этому вызову?

В третьем цикле лекций, организованном Институтом лингвистики РГГУ совместно с Политехническим музеем при информационной поддержке сайта Полит.ру, о задачах компьютерной лингвистики расскажут те, кто уже достиг серьёзных успехов в их решении: представители исследовательских и коммерческих проектов в области автоматической обработки естественного языка.

Лекции проходят с октября по декабрь по вторникам в 19:00 в Лектории Политехнического музея (Политехнический музей, Новая Площадь 3/4, 9-й подъезд, ст.м. «Лубянка», «Китай-город»). Стоимость билета – 200 р. (полный)/100 р. (льготный).

Расписание цикла (аннотации лекций ниже):

Дата Лектор Тема лекции
9 октября Владимир Селегей Компьютерная лингвистика сегодня: от автоматической обработки текста до машинного понимания
16 октября Андрей Плахов Cистемы поиска в Интернете: как обрабатывается запрос пользователя
23 октября Екатерина Рахилина Национальный корпус русского языка: новые компьютерные ресурсы для лингвистов и нелингвистов
30 октября Екатерина Фроловичева,
Артём Семенихин
IBM Watson: может ли компьютер отвечать на вопросы лучше человека
6 ноября Сергей Шаров Компьютерный анализ жанра и характеристик автора текста
13 ноября Леонид Иомдин Машинный перевод: успехи, неудачи, надежды
20 ноября Владимир Беликов Компьютерный анализ блогосферы как источник знаний о языке
27 ноября Владимир Хорошевский Компьютерная лингвистика и семантическая паутина Интернета: откуда и куда мы идём
4 декабря Борис Иомдин Компьютер и словарь: незнакомцы, конкуренты, друзья?


9 октября, 19:00

Владимир Селегей

Компьютерная лингвистика сегодня: от автоматической обработки текста до машинного понимания

За полвека существования компьютерная лингвистика переживала периоды больших надежд и таких же больших разочарований. Одним из усвоенных уроков стало понимание того, что компьютерная лингвистика и лингвистика теоретическая – это пусть очень тесно связанные, но всё же разные науки. Пожалуй, нечто похожее произошло в области моделирования шахматной игры, когда выяснилось, что не всегда решать задачу на компьютере нужно так, как предположительно решает ее человек. Как будет развиваться компьютерная лингвистика, на что она способна сегодня, и что сможет завтра – об этом первая лекция цикла.

В. Селегей – заведующий кафедрой компьютерной лингвистики Института лингвистики РГГУ и НИУ МФТИ, директор по лингвистическим исследованиям компании ABBYY. Председатель Оргкомитета крупнейшей российской конференции по компьютерной лингвистике «Диалог».


16 октября, 19:00

Андрей Плахов

Cистемы поиска в интернете: как обрабатывается запрос пользователя

Современный интернет непредставим без поисковых систем (таких, как Яндекс, Google или Bing). За 20 с лишним лет их существования ожидания пользователей сильно возросли, и современный интернет-поиск требует гораздо более глубокого понимания естественных языков, нежели простой «поиск по ключевым словам». От поисковика требуется знание синонимов, устойчивых оборотов и онтологических рядов, умение понять запрос на одном естественном языке, но результаты найти на другом, и даже умение восстанавливать и учитывать желания пользователя, не указанные им в запросе явно.

А. Плахов – руководитель группы функциональности поиска компании Яндекс. Закончил с отличием механико-математический факультет МГУ, защитил кандидатскую диссертацию по 05.13.11 (программирование, точнее алгоритмы управления роботами) в Институте прикладной математики им. Келдыша РАН. Несколько лет работает в Яндексе над повышением качества веб-поиска, автор поискового релиза «Спектр». Внерабочие интересы: теория алгоритмической сложности, квантовые вычисления, генеративная лингвистика, системная биология, рисование слонов шариковой ручкой.


23 октября, 19:00

Екатерина Рахилина

Национальный корпус русского языка: новые компьютерные ресурсы для лингвистов и нелингвистов

Современные технологии не только меняют старые лингвистические инструменты (превращая, например, традиционные словари в компьютерные базы данных), но и создают новые. К таким новым лингвистическим ресурсам относятся корпуса текстов. Первые, небольшие корпуса появились во второй половине прошлого века, потом им на смену пришли крупные национальные корпуса и произвели революцию в лингвистике. Постепенно корпуса войдут и в жизнь обычных людей. Эта лекция – о том, что такое корпус языка, национальный корпус, для чего они нам могут понадобиться и как пользоваться Национальным корпусом русского языка.

Екатерина Рахилина – профессор, доктор филол. н., зав. направлением «Лингвистика» филологического факультета НИУ ВШЭ, ведущий научный сотрудник Института русского языка им. В.В. Виноградова РАН, специалист по общей и русской семантике и лексикографии, корпусной лингвистике, лексической типологии; разработчик Национального корпуса русского языка и других корпусных проектов.


30 октября, 19:00

Екатерина Фроловичева, Артём Семенихин

IBM Watson: может ли компьютер отвечать на вопросы лучше человека

Суперкомпьютер IBM Watson стал результатом многолетней работы инженеров IBM с амбициозной целью – создание системы, способной соперничать с человеком в его возможности понимать и отвечать на вопросы, заданные на естественном языке. На сегодняшний день требования к точности и скорости нахождения ответов делают Watson уникальной среди других вопросно-ответных систем. Лекция будет посвящена тому, что предшествовало созданию системы, какие технологии были использованы при её разработке, а также будут рассмотрены возможные области применения IBM Watson, включая задачи компьютерной лингвистики.

Екатерина Фроловичева – руководитель направления разработки программного обеспечения для управления серверами уровня предприятий, менеджер по развитию бизнеса Научно-технического центра IBM.

Артём Семенихин – руководитель направления разработки СУБД в Научно-техническом центре IBM в Москве. В течение 5 лет занимается проблемами хранения, обработки и анализа больших объемов данных с помощью высокопроизводительных систем. До прихода в IBM занимался интеграцией систем управления жизненным циклом производства. Закончил МГТУ им. Н.Э. Баумана по специальности «Системы автоматизированного проектирования».


6 ноября, 19:00

Сергей Шаров

Компьютерный анализ жанра и характеристик автора текста

Определение тематики текста является достаточно простой задачей (так, например, Яндекс.Новости определяет сюжеты новостей по совпадению ключевых слов). В то же время жанр текста, характеристики его автора (например, пол, возраст) не зависят прямо от ключевых слов, поскольку текст в одном и том же жанре или одного и того же автора может быть написан на разные темы. В лекции рассматриваются подходы к автоматическому определению этих характеристик.

Сергей Шаров – канд. физ.-мат. н., профессор кафедры переводоведения Университета Лидса и доцент кафедры компьютерной лингвистики Института лингвистики РГГУ.


13 ноября, 19:00

Леонид Иомдин

Машинный перевод: успехи, неудачи, надежды

История машинного перевода – перевода текстов с одного языка на другой с помощью компьютера – насчитывает без малого шестьдесят лет. За это время сменилось несколько поколений систем машинного перевода: от почти игрушечных моделей, переводивших текст слово за словом без учета контекста, ученые перешли к сложным системам, создавая правила, учитывающие тонкие смысловые оттенки переводимого текста. Наряду с системами перевода, основанными на правилах, стали создаваться «статистические» системы, обращающиеся к сверхбольшим корпусам параллельных текстов и находящие в них наилучшие эквиваленты для как можно более крупных фрагментов переводимого текста. В дополнение к системам перевода письменных текстов приобретают все более широкое распространение системы устного перевода, распознающие живую речь на входном языке и синтезирующие звучащий текст на выходном языке, мало отличающийся от человеческой речи.

В истории машинного перевода были свои взлеты и падения: энтузиазм первопроходцев сменялся глубоким пессимизмом, когда видные специалисты приходили к убеждению, что задача машинного перевода не может быть решена в обозримом будущем. Сейчас машинный перевод переживает второе рождение: благодаря сочетанию различных методов и подходов качество перевода заметно улучшается и в эту область вовлекаются все новые языки.

Леонид Иомдин – канд. филол. н., ведущий научный сотрудник, и.о. зав. Лабораторией компьютерной лингвистики Института проблем передачи им. А.А. Харкевича Российской академии наук, доцент кафедры теоретической и прикладной лингвистики Института лингвистики РГГУ. Специалист по современному синтаксису и семантике, компьютерной лингвистике и машинному переводу. Ведущий разработчик известной системы автоматического перевода ЭТАП-3. Работал в крупных европейских проектах по машинному переводу. Преподавал теоретическую и компьютерную лингвистику в ряде западноевропейских университетов (Мюнхен, Прага, Барселона). Один из авторов Нового большого англо-русского словаря под редакцией акад. Ю.Д. Апресяна. Переводчик-синхронист.


20 ноября, 19:00

Владимир Беликов

Компьютерный анализ блогосферы как источник знаний о языке

В написанном в конце прошлого века учебнике социолингвистики говорилось, что дневниковые записи «среднестатистических» носителей языка представляют для исследователей языка исключительно интересный, но труднодоступный материал. Широкое распространение блогосферы дало неограниченные возможности для компьютерного анализа подобных текстов. Лингвисты могут работать с повседневными записями, авторы которых легко классифицируются по важнейшим социолингвистическим параметрам. Теперь несложно получить объективные данные о языке мужчин и женщин, подростков и лиц старших возрастов в любом регионе, стала доступной статистика языковых изменений за последнее десятилетие.

Владимир Беликов – доктор филол. н., ведущий научный сотрудник Отдела культуры русской речи Института русского языка им. В.В. Виноградова РАН, профессор кафедры компьютерной лингвистики Института лингвистики РГГУ и кафедры теоретической и прикладной лингвистики филологического факультета МГУ. Последние годы занимается изучением социальных различий в русском языке с помощью компьютерных методов исследований


27 ноября, 19:00

Владимир Хорошевский

Компьютерная лингвистика и семантическая паутина интернета: откуда и куда мы идём

Лекция посвящена обсуждению трёх тем: ретроспективному обзору методов и средств компьютерной лингвистики, которые в настоящее время активно используются при построении систем извлечения знаний из текстов; обсуждению концепции семантической паутины, которая постепенно трансформирует современный интернет за счёт формирования пространств знаний; сравнительному анализу существующих в данной области решений и результатов. Обсуждение сопровождается презентацией семантических порталов, функционирующих в интернете, где уже используются системы обработки естественного языка.

Владимир Хорошевский – доктор техн. н., зав. сектором «Интеллектуальные прикладные системы» отдела «Интеллектуальные системы» Вычислительного центра им. А.А. Дородницына РАН. Профессор базовой кафедры «Интеллектуальные системы» НИУ МФТИ. Один из основателей ассоциации искусственного интеллекта СССР (САИИ), а затем России (РАИИ)


4 декабря, 19:00

Борис Иомдин

Компьютер и словарь: незнакомцы, конкуренты, друзья?

Когда-то толкования непонятных слов писали прямо на полях рукописей, потом стали собирать их в отдельные книги – словари, позже возникла целая наука лексикография. Лексикографы выписывали примеры употребления слов на карточки и составляли из них огромные картотеки – ещё не так давно шкафы со словарными карточками стояли во всех коридорах Института русского языка. С появлением компьютеров карточки стали стремительно уходить в прошлое, а в последнее время они потянули за собой и словари. Все чаще люди просто смотрят значение слова в Википедии или вводят его в окошко онлайного машинного переводчика. Как повлиял компьютер на развитие лексикографии, её материала, методов и практических результатов? Какие новые задачи ставит перед лексикографами развитие компьютеров и интернета? И есть ли у словаря будущее в новую эпоху?

Борис Иомдин – канд. филол. н., старший научный сотрудник Института русского языка им. В.В. Виноградова РАН, доцент кафедры русского языка Института лингвистики РГГУ и факультета филологии Высшей школы экономики, преподаватель Школы анализа данных Яндекса. Один из авторов словарей и монографий по семантике и лексикографии под редакцией акад. Ю.Д. Апресяна («Новый большой англо-русский словарь», «Новый объяснительный словарь синонимов», «Проспект активного словаря русского языка», «Русская языковая картина мира и системная лексикография»), автор научных статей. Организатор словарного проекта и научного семинара «Словарь бытовой терминологии». Автор множества лингвистических задач, член методических комиссий Всероссийского конкурса-игры «Русский медвежонок — языкознание для всех», Московской традиционной олимпиады по лингвистике, международной лингвистической олимпиады и других олимпиад и конкурсов по лингвистике и русскому языку. Член Совета сайта «Лингвистика для школьников» и оргкомитета Летней лингвистической школы.