?

Log in

 
 
26 August 2011 @ 07:38 pm
О проекте Открытый Корпус (обращение к ЖЖ-пользователям)  
Друзья, пришло время рассказать, чем я занимаюсь. И попросить о содействии в этом деле.

Если коротко, то я занимаюсь проектом по созданию лингвистического корпуса, и нам нужны тексты под свободной лицензией, чтобы их в корпус включить. В частности, нужны тексты личных блогов. Корпус будет состоять не только из блогов. В данный момент там уже есть некоторое количество новостных текстов и текстов из Википедии. Если кто-то из вас согласен лицензировать свой личный ЖЖ (твиттер, статусы во вконтакте, ...) по лицензии CC-BY или CC-BY-SA, то это нам очень поможет. Если вы сами не хотите или не можете разрешить использование ваших текстов, но считаете нашу деятельность полезной и хотите нам помочь, то сделайте перепост или поставьте ссылку на этот текст у себя в журнале.

Дальше - обо всём по порядку и очень много букв.

Первая часть поста - о лингвистических корпусах и о нашем проекте.

Вторая - о том, как сделать, чтобы мы могли добавить ваши тексты в корпус (если вы не возражаете, конечно).

За перепост этого обращения я также буду очень благодарен, т.к. нам нужно много текстов.

О лингвистических корпусах и о проекте Открытый корпус.

Наш проект занимается созданием корпуса текстов с лингвистической разметкой. Корпус — это коллекция текстов, отобранных по определённому принципу. Бывают корпуса газетных текстов, прозы XIX века, древнерусских текстов, разговорной речи, … Лингвистическая разметка — это разнообразная информация о тексте: кто и когда его написал, о чём текст; и о словах в нём: к какой части речи относится слово, в каком падеже оно стоит, какая у него словарная форма, с какими словами в предложении оно связано, где в предложении подлежащее и сказуемое. Тут должны вспоминаться уроки русского языка в школе. Это именно то, что мы делали там, когда подчёркивали члены предложений разными линиями (одинарной, двойной, пунктиром, волнистой, ...), делали морфологический и синтаксический разбор. Я думаю, что все вспомнили. Такая информация нужна про все слова в корпусе. По крайней мере в нашем корпусе мы хотим подробности про каждое слово.

Я думаю, что у некоторых из вас уже возник вопрос «зачем это надо?». Размеченные корпуса текстов являются исходным материалом при разработке технологий анализа текста. Как минимум, они используются при тестировании этих технологий. А если для анализа текста используется какая-то математика, связанная с автоматическим обучением, то ещё и в качестве обучающей выборки. Поскольку разметка корпуса выполняется вручную или почти вручную, а сами по себе корпуса довольно велики (речь идёт о сотнях тысяч словоупотреблений) то эти размеченные данные составляют существенную часть стоимости получающихся технологий.

Когда я говорю о технологиях, я имею в виду автоматический перевод, распознавание устной речи и печатного текста, автоматическое реферирование (составление краткого обзора длинного текста), разнообразный text mining, извлечение фактов из текста, тематическую классификацию текстов (тексты о природе — в одну коробку, тексты о погоде — в другую). Т.е. это уже вполне понятные, полезные и знакомые вещи. Со статистическим переводом Google скорее всего сталкивались все присутствующие. С распознаванием печатного текста — тоже. Поиск документов в Интернете тоже использует много лингвистических технологий. Корпус — это не всё, что нужно для создания лингвистических технологий. Но иногда это так много, что если нет готового корпуса, то нет смысла браться за задачу.

Создание лингвистических технологий — не единственное назначение корпусов текстов — их ещё используют в самых разных исследованиях, при создании обучающих материалов. Но для нашего проекта это главное — мы ориентируемся на то, чтобы создать исходные данные для разработчиков. Потому что мы тоже разработчики, эти данные нам самим нужны, и мы понимаем, как их готовить.

Поскольку создание корпуса — это большая работа, то за неё берутся обычно гос. организации, разнообразные НИИ и университеты. Государство заинтересовано в том, чтобы создавались инструменты для обработки текста на государственном языке. На негосударственном тоже ... по очевидным причинам. И государство же является одним из потребителей этих технологий, т.к. его бюрократический аппарат порождает огромное множество документов на этом языке. И часто хочет разобраться и в остальных документах тоже: быстро находить что-то в прессе, обращениях населения к президенту (тендерная заявка на технологию семантического анализа этих обращений даже была опубликована недавно) и т.д..

Корпуса текстов существуют, в том числе и размеченные корпуса русских текстов. На настоящий момент нет ни одного доступного (т.е. такого, чтобы можно было скачать к себе на компьютер и обрабатывать самостоятельно) и размеченного вручную корпуса текстов на русском языке. Есть хороший, но недоступный Национальный корпус русского языка. Когда он станет доступен и станет ли - непонятно.

Поскольку размеченный корпус многим нужен, то мы решили сделать его сами, используя те знания и опыт, который накопили создатели уже существующих корпусов. В частности, мы делаем корпус таким, что его можно выкладывать в открытый доступ целиком. Для этого мы включаем в корпус только тексты, опубликованные под свободными лицензиями или находящиеся в общественном достоянии.

Разметка в нашем проекте создаётся усилиями волонтёров и результат публикуется под лицензией CC-BY-SA. Обновление происходит каждые сутки, т.е. всё, что сделали (добавили, разметили, исправили) сегодня будет упаковано и выложено для скачивания к утру (http://www.opencorpora.org/?page=downloads). Тем, кому эти данные нужны - уже можно начинать пользоваться :)

Наша ближайшая цель — создать корпус в 1 млн. словоупотреблений к концу 2011 года. На данный момент в корпус включено 150 тыс. словоупотреблений ( актуальная статистика всегда тут http://www.opencorpora.org/?page=stats ).



Если вы согласны нам помочь, то мы просим вас разрешить использование ваших текстов на условиях лицензий Creative Commons - Attribution или Creative Commons - Attribution - Share Alike. Это довольно широкие лицензии: обе позволяют дальнейшее использование материалов неограниченным кругом лиц, в том числе и в коммерческих целях. Последнее важно для нас (т.е. ограничение NonCommercial нам не подходит), т.к. мы хотим, чтобы корпус могли использовать не только студенты и аспиранты, но также и небольшие компании и стартапы. Мы надеемся, что с его помощью они смогут создать новые продукты, которые принесут пользу всем нам. Если тексты в вашем ЖЖ имеют коммерческую ценность, или вы планируете как-то зарабатывать на них деньги, то, возможно, вам не надо нам помогать (по крайней мере этим способом :) ), т.к. это (разрешение использовать ваши тексты в коммерческих целях) может повредить вашим интересам. Если ваши тексты - это ваш личный дневник, и использование их кем-то ещё (с указанием вашего авторства) или их переработка не может вам повредить, то, возможно, вам стоит нам помочь. Если хотите. ;)



Лицензии CC-BY и CC-BY-SA отличаются тем, что последняя требует, чтобы тексты (или что-то ещё), созданные с использованием ваших текстов, были опубликованы тоже по лицензии CC-BY-SA. CC-BY требует только указания вашего авторства при перепечатках оригинального или изменённого текста.

Для того, чтобы разрешить использование ваших текстов на условиях лицензий CC, сделайте, пожалуйста, следующее:

- поместите в профиль вашего ЖЖ ссылку на лицензию CC-BY-SA или CC-BY как написано тут
http://creativecommons.org/choose/results-one?license_code=by-sa&jurisdiction=&version=3.0&lang=ru
или тут
http://creativecommons.org/choose/results-one?license_code=by&jurisdiction=&version=3.0&lang=ru
(в зависимости от выбранной лицензии).

Если вы хотите разрешить использование не всех текстов в вашем журнале, то напишите об этом явно там же. Например, что можно использовать только посты с тегом "дыбр", а к остальным лицензия не относится, или что лицензия не относится к вашим комментариям, оставленным под постами других пользователей. По умолчанию мы будем считать, что лицензия относится ко всем открытым текстам, опубликованным от имени ЖЖ пользователя, в том числе к постам в сообществах и к комментариям.

Пример профиля с указанной лицензией: http://lazy-frog.livejournal.com/profile
Предлагаю использовать такой же текст, как там.

- сообщите нам о том, что мы можем использовать тексты из вашего журнала. Для этого, заполните эту форму https://docs.google.com/spreadsheet/viewform?hl=ru&formkey=dEhPc2dSMkdLdEt6VE1GZFRzTE1NcGc6MQ

Через несколько недель (да, мы работаем очень медленно) после сообщения кто-то из редакторов разметки придёт, почитает ваш ЖЖ, выберет часть постов и комментариев и поместит их в корпус. Результат будет выглядеть примерно так (это текст из ВикиНовостей): http://opencorpora.org/books.php?book_id=143&full . Потом придут другие редакторы и добавят другие "слои" разметки: уберут неправильные грамматические разборы слов и т.д..

Перед помещением текста в корпус редактор проверит ссылку на лицензию в профиле. После помещения текста в корпус он НЕ сообщит вам об этом, чтобы не беспокоить вас зря.

Если редактору доступны ваши подзамочные посты, то он всё равно НЕ будет их добавлять в корпус. Если мы встретим в вашем ЖЖ перепечатки чьих-то чужих текстов, то мы тоже не будем их добавлять.

Какие посты будет выбирать редактор разметки?

При выборе постов мы будем искать такие, комментарии к которым тоже можно утащить в корпус (т.е. авторы комментариев тоже разрешили использование своих текстов описанным способом). Нас устраивают тексты с ошибками (случайными и сделанными намеренно), опечатками, ругательствами и прочей ненормативностью. Нам важно, чтобы текст был на русском языке, т.к. мы пока занимаемся только русским.

Думаю, что несмотря на длину поста, всё равно останутся вопросы. Их лучше всего задавать в комментариях. Возможно, какие-то ответы перенесу в основной текст.

Разрешение использовать тексты - не единственный способ нам помочь. Можно также поучаствовать в проекте в качестве редактора разметки, программиста или как-нибудь ещё. Если вам это интересно - напишите мне bocharov@opencorpora.org

Если вы хотите узнать о нашем проекте подробнее, то спросите в комментариях или прочитайте (посмотрите, послушайте) тут http://opencorpora.org/?page=publications .

Если вы хотите получать новости проекта по почте, то подпишитесь на рассылку (форма в правом нижнем углу на странице http://opencorpora.org). Это может быть интересно тем, кто как-то связан с лингвистикой, компьютерной лингвистикой, автоматической обработкой текста и т.д.



Спасибо!
Бочаров Виктор
участник проекта Открытый корпус
OpenCorpora.org

 
 
 
Сергей Холодиловfat_crocodile on August 27th, 2011 09:19 am (UTC)
объясни, зачем вам коммерческое использование? Вот например gcc, распространяется под GPL, "коммерчески использовать" вроде нельзя. Но никто не мешает использовать его при создании коммерческих продуктов, как инструмент. Нельзя только продавать его самого, как продукт.

Это разве не ровно то, что вам нужно?
Львова Анастасияlvova on August 27th, 2011 09:42 am (UTC)
Вот только это лицензия на программу, а не на текст.
Сергей Холодиловfat_crocodile on August 27th, 2011 09:51 am (UTC)
Ну, gcc доступен в том числе и в виде текста -- в исходниках.

Насколько я понял, основная задача корпуса -- быть инструментом, помогающим при разработке технологий. То есть для него самого gcc-шная лицензия как раз подошла бы. Нельзя считать текст является неотъемлемой частью инструмента?

Вот скажем программные библиотеки это другое дело, они входят в продукт непосредственно. Для этого сделана лицензия LGPL (Library GPL) Которая всё ещё запрещает их продавать, но разрешает использовать как библиотеку в своём продукте.

А тут же, насколько я понимаю, никто не планирует никаким образом даже включать мои тексты в конечный продукт. Они используются в составе тестирующей и обучающей выборки при разработке, не более. Или нет?
Львова Анастасияlvova on August 27th, 2011 09:56 am (UTC)
Посмотрела по диагонали ещё раз условия лицензии. Обратила внимание на то, что согласно ей текст лицензии не может быть переведён с английского, сохранив юридическую силу.
Плюс после "A “covered work” means either the unmodified Program or a work based on the Program." можно дальше не читать.
Сергей Холодиловfat_crocodile on August 27th, 2011 09:54 am (UTC)
А, или ты про то, что конкретно лицензия GPL не подходит, так как там явно написано, что речь о программе? А из лицензий на тексты подходят только две упомянутые?
Львова Анастасияlvova on August 27th, 2011 09:59 am (UTC)
Ну, в целом, да; плюс я выше показала, какие ещё есть вещи в лицензиях, на которые стоит обращать внимание.
Например, та же Википедия раньше распространялась по GFDL, но GFDL в числе условий приводит публикацию текста лицензии - пять страниц мелким шрифтом. Для программ - пофиг, а если хочется опубликовать картинку или кусок текста в газете - уже довольно крутое условие.
В общем, CC - самое удобное для текстов из существующего, а некоммерческое использование - на мой взгляд, ответ есть в тексте поста, хотя, может, это и недостаточный ответ.
Lazy Froglazy_frog on August 27th, 2011 02:03 pm (UTC)
Всё так. Кроме этого, под CC-BY-SA проекты Викимедиа и Частный корреспондент - основные (по объёму) источники, откуда мы берём тексты.
Lazy Froglazy_frog on August 27th, 2011 02:13 pm (UTC)
Про коммерческое использование ... gcc - инструмент для обработки текста программы, а не "сырьё". Тексты в корпусе - скорее "сырьё", т.к. из них делаются обученные мат. модели, наборы правил, списки слов, словосочетаний, ... Можно представить себе ситуацию, когда берутся готовые исходники, например, синтаксического анализатора, тренируются на корпусе, и получается синтаксис для русского. Мы не хотим мешать авторам зарабатывать на этом синтаксическом анализаторе так, как, например, делает это Red Hat на своём RHEL.
Сергей Холодиловfat_crocodile on August 27th, 2011 02:37 pm (UTC)
Ну, я имел ввиду, что тренируют они его у себя дома, а потом, у клиентов он работает уже без всяких текстов. То есть тексты используются для настройки конечного продукта, но обычно не входят в него как часть. Даже если бы входили, ну можно было бы ставить их рядом, лицензия-то свободная, поставить может кто угодно, в том числе и конечный пользователь.

А поскольку размеченные тексты сами по себе не достаточны для продукта, т.е. есть ещё что-то, сырье они или инструмент вроде бы вопрос определений.

Но ладно, не суть, будем считать риск того, что мой ЖЖ издадут милионным тиражом и заработают на этом миллиард, а со мной не поделятся, ничтожным :)

Тем более, я посмотрел получше, лицензия GPL не запрещает продажу, она требует только доступности исходников.
Lazy Froglazy_frog on August 27th, 2011 02:54 pm (UTC)
Да, GPL не запрещает продажу. А у Creative Commons как раз есть лицензии, запрещающие коммерческое использование (NC) и создание производных продуктов (ND). Обе нам не подходят.