?

Log in

 
 
26 August 2011 @ 07:38 pm
О проекте Открытый Корпус (обращение к ЖЖ-пользователям)  
Друзья, пришло время рассказать, чем я занимаюсь. И попросить о содействии в этом деле.

Если коротко, то я занимаюсь проектом по созданию лингвистического корпуса, и нам нужны тексты под свободной лицензией, чтобы их в корпус включить. В частности, нужны тексты личных блогов. Корпус будет состоять не только из блогов. В данный момент там уже есть некоторое количество новостных текстов и текстов из Википедии. Если кто-то из вас согласен лицензировать свой личный ЖЖ (твиттер, статусы во вконтакте, ...) по лицензии CC-BY или CC-BY-SA, то это нам очень поможет. Если вы сами не хотите или не можете разрешить использование ваших текстов, но считаете нашу деятельность полезной и хотите нам помочь, то сделайте перепост или поставьте ссылку на этот текст у себя в журнале.

Дальше - обо всём по порядку и очень много букв.

Первая часть поста - о лингвистических корпусах и о нашем проекте.

Вторая - о том, как сделать, чтобы мы могли добавить ваши тексты в корпус (если вы не возражаете, конечно).

За перепост этого обращения я также буду очень благодарен, т.к. нам нужно много текстов.

О лингвистических корпусах и о проекте Открытый корпус.

Наш проект занимается созданием корпуса текстов с лингвистической разметкой. Корпус — это коллекция текстов, отобранных по определённому принципу. Бывают корпуса газетных текстов, прозы XIX века, древнерусских текстов, разговорной речи, … Лингвистическая разметка — это разнообразная информация о тексте: кто и когда его написал, о чём текст; и о словах в нём: к какой части речи относится слово, в каком падеже оно стоит, какая у него словарная форма, с какими словами в предложении оно связано, где в предложении подлежащее и сказуемое. Тут должны вспоминаться уроки русского языка в школе. Это именно то, что мы делали там, когда подчёркивали члены предложений разными линиями (одинарной, двойной, пунктиром, волнистой, ...), делали морфологический и синтаксический разбор. Я думаю, что все вспомнили. Такая информация нужна про все слова в корпусе. По крайней мере в нашем корпусе мы хотим подробности про каждое слово.

Я думаю, что у некоторых из вас уже возник вопрос «зачем это надо?». Размеченные корпуса текстов являются исходным материалом при разработке технологий анализа текста. Как минимум, они используются при тестировании этих технологий. А если для анализа текста используется какая-то математика, связанная с автоматическим обучением, то ещё и в качестве обучающей выборки. Поскольку разметка корпуса выполняется вручную или почти вручную, а сами по себе корпуса довольно велики (речь идёт о сотнях тысяч словоупотреблений) то эти размеченные данные составляют существенную часть стоимости получающихся технологий.

Когда я говорю о технологиях, я имею в виду автоматический перевод, распознавание устной речи и печатного текста, автоматическое реферирование (составление краткого обзора длинного текста), разнообразный text mining, извлечение фактов из текста, тематическую классификацию текстов (тексты о природе — в одну коробку, тексты о погоде — в другую). Т.е. это уже вполне понятные, полезные и знакомые вещи. Со статистическим переводом Google скорее всего сталкивались все присутствующие. С распознаванием печатного текста — тоже. Поиск документов в Интернете тоже использует много лингвистических технологий. Корпус — это не всё, что нужно для создания лингвистических технологий. Но иногда это так много, что если нет готового корпуса, то нет смысла браться за задачу.

Создание лингвистических технологий — не единственное назначение корпусов текстов — их ещё используют в самых разных исследованиях, при создании обучающих материалов. Но для нашего проекта это главное — мы ориентируемся на то, чтобы создать исходные данные для разработчиков. Потому что мы тоже разработчики, эти данные нам самим нужны, и мы понимаем, как их готовить.

Поскольку создание корпуса — это большая работа, то за неё берутся обычно гос. организации, разнообразные НИИ и университеты. Государство заинтересовано в том, чтобы создавались инструменты для обработки текста на государственном языке. На негосударственном тоже ... по очевидным причинам. И государство же является одним из потребителей этих технологий, т.к. его бюрократический аппарат порождает огромное множество документов на этом языке. И часто хочет разобраться и в остальных документах тоже: быстро находить что-то в прессе, обращениях населения к президенту (тендерная заявка на технологию семантического анализа этих обращений даже была опубликована недавно) и т.д..

Корпуса текстов существуют, в том числе и размеченные корпуса русских текстов. На настоящий момент нет ни одного доступного (т.е. такого, чтобы можно было скачать к себе на компьютер и обрабатывать самостоятельно) и размеченного вручную корпуса текстов на русском языке. Есть хороший, но недоступный Национальный корпус русского языка. Когда он станет доступен и станет ли - непонятно.

Поскольку размеченный корпус многим нужен, то мы решили сделать его сами, используя те знания и опыт, который накопили создатели уже существующих корпусов. В частности, мы делаем корпус таким, что его можно выкладывать в открытый доступ целиком. Для этого мы включаем в корпус только тексты, опубликованные под свободными лицензиями или находящиеся в общественном достоянии.

Разметка в нашем проекте создаётся усилиями волонтёров и результат публикуется под лицензией CC-BY-SA. Обновление происходит каждые сутки, т.е. всё, что сделали (добавили, разметили, исправили) сегодня будет упаковано и выложено для скачивания к утру (http://www.opencorpora.org/?page=downloads). Тем, кому эти данные нужны - уже можно начинать пользоваться :)

Наша ближайшая цель — создать корпус в 1 млн. словоупотреблений к концу 2011 года. На данный момент в корпус включено 150 тыс. словоупотреблений ( актуальная статистика всегда тут http://www.opencorpora.org/?page=stats ).



Если вы согласны нам помочь, то мы просим вас разрешить использование ваших текстов на условиях лицензий Creative Commons - Attribution или Creative Commons - Attribution - Share Alike. Это довольно широкие лицензии: обе позволяют дальнейшее использование материалов неограниченным кругом лиц, в том числе и в коммерческих целях. Последнее важно для нас (т.е. ограничение NonCommercial нам не подходит), т.к. мы хотим, чтобы корпус могли использовать не только студенты и аспиранты, но также и небольшие компании и стартапы. Мы надеемся, что с его помощью они смогут создать новые продукты, которые принесут пользу всем нам. Если тексты в вашем ЖЖ имеют коммерческую ценность, или вы планируете как-то зарабатывать на них деньги, то, возможно, вам не надо нам помогать (по крайней мере этим способом :) ), т.к. это (разрешение использовать ваши тексты в коммерческих целях) может повредить вашим интересам. Если ваши тексты - это ваш личный дневник, и использование их кем-то ещё (с указанием вашего авторства) или их переработка не может вам повредить, то, возможно, вам стоит нам помочь. Если хотите. ;)



Лицензии CC-BY и CC-BY-SA отличаются тем, что последняя требует, чтобы тексты (или что-то ещё), созданные с использованием ваших текстов, были опубликованы тоже по лицензии CC-BY-SA. CC-BY требует только указания вашего авторства при перепечатках оригинального или изменённого текста.

Для того, чтобы разрешить использование ваших текстов на условиях лицензий CC, сделайте, пожалуйста, следующее:

- поместите в профиль вашего ЖЖ ссылку на лицензию CC-BY-SA или CC-BY как написано тут
http://creativecommons.org/choose/results-one?license_code=by-sa&jurisdiction=&version=3.0&lang=ru
или тут
http://creativecommons.org/choose/results-one?license_code=by&jurisdiction=&version=3.0&lang=ru
(в зависимости от выбранной лицензии).

Если вы хотите разрешить использование не всех текстов в вашем журнале, то напишите об этом явно там же. Например, что можно использовать только посты с тегом "дыбр", а к остальным лицензия не относится, или что лицензия не относится к вашим комментариям, оставленным под постами других пользователей. По умолчанию мы будем считать, что лицензия относится ко всем открытым текстам, опубликованным от имени ЖЖ пользователя, в том числе к постам в сообществах и к комментариям.

Пример профиля с указанной лицензией: http://lazy-frog.livejournal.com/profile
Предлагаю использовать такой же текст, как там.

- сообщите нам о том, что мы можем использовать тексты из вашего журнала. Для этого, заполните эту форму https://docs.google.com/spreadsheet/viewform?hl=ru&formkey=dEhPc2dSMkdLdEt6VE1GZFRzTE1NcGc6MQ

Через несколько недель (да, мы работаем очень медленно) после сообщения кто-то из редакторов разметки придёт, почитает ваш ЖЖ, выберет часть постов и комментариев и поместит их в корпус. Результат будет выглядеть примерно так (это текст из ВикиНовостей): http://opencorpora.org/books.php?book_id=143&full . Потом придут другие редакторы и добавят другие "слои" разметки: уберут неправильные грамматические разборы слов и т.д..

Перед помещением текста в корпус редактор проверит ссылку на лицензию в профиле. После помещения текста в корпус он НЕ сообщит вам об этом, чтобы не беспокоить вас зря.

Если редактору доступны ваши подзамочные посты, то он всё равно НЕ будет их добавлять в корпус. Если мы встретим в вашем ЖЖ перепечатки чьих-то чужих текстов, то мы тоже не будем их добавлять.

Какие посты будет выбирать редактор разметки?

При выборе постов мы будем искать такие, комментарии к которым тоже можно утащить в корпус (т.е. авторы комментариев тоже разрешили использование своих текстов описанным способом). Нас устраивают тексты с ошибками (случайными и сделанными намеренно), опечатками, ругательствами и прочей ненормативностью. Нам важно, чтобы текст был на русском языке, т.к. мы пока занимаемся только русским.

Думаю, что несмотря на длину поста, всё равно останутся вопросы. Их лучше всего задавать в комментариях. Возможно, какие-то ответы перенесу в основной текст.

Разрешение использовать тексты - не единственный способ нам помочь. Можно также поучаствовать в проекте в качестве редактора разметки, программиста или как-нибудь ещё. Если вам это интересно - напишите мне bocharov@opencorpora.org

Если вы хотите узнать о нашем проекте подробнее, то спросите в комментариях или прочитайте (посмотрите, послушайте) тут http://opencorpora.org/?page=publications .

Если вы хотите получать новости проекта по почте, то подпишитесь на рассылку (форма в правом нижнем углу на странице http://opencorpora.org). Это может быть интересно тем, кто как-то связан с лингвистикой, компьютерной лингвистикой, автоматической обработкой текста и т.д.



Спасибо!
Бочаров Виктор
участник проекта Открытый корпус
OpenCorpora.org

 
 
 
Lazy Froglazy_frog on August 27th, 2011 08:02 am (UTC)
Я помню, что ты об этом говорила :)

Да, смещение есть. Для конкретной задачи нужно будет выбирать подходящие документы из всего того, что мы соберём. Сделать вообще несмещённый корпус ни по одному параметру, наверное, очень сложно. Мы собираем скорее разнообразный материал, чтобы было из чего выбирать. Отсюда и ответ на второй вопрос: будем стараться собрать скорее больше авторов, чем больше документов одного автора.

Перепост этого обращения стоит делать ещё и потому, что чем больше разных людей прочитает, тем менее однобокий материал получится. :)