?

Log in

 
 
26 August 2011 @ 07:38 pm
О проекте Открытый Корпус (обращение к ЖЖ-пользователям)  
Друзья, пришло время рассказать, чем я занимаюсь. И попросить о содействии в этом деле.

Если коротко, то я занимаюсь проектом по созданию лингвистического корпуса, и нам нужны тексты под свободной лицензией, чтобы их в корпус включить. В частности, нужны тексты личных блогов. Корпус будет состоять не только из блогов. В данный момент там уже есть некоторое количество новостных текстов и текстов из Википедии. Если кто-то из вас согласен лицензировать свой личный ЖЖ (твиттер, статусы во вконтакте, ...) по лицензии CC-BY или CC-BY-SA, то это нам очень поможет. Если вы сами не хотите или не можете разрешить использование ваших текстов, но считаете нашу деятельность полезной и хотите нам помочь, то сделайте перепост или поставьте ссылку на этот текст у себя в журнале.

Дальше - обо всём по порядку и очень много букв.

Первая часть поста - о лингвистических корпусах и о нашем проекте.

Вторая - о том, как сделать, чтобы мы могли добавить ваши тексты в корпус (если вы не возражаете, конечно).

За перепост этого обращения я также буду очень благодарен, т.к. нам нужно много текстов.

О лингвистических корпусах и о проекте Открытый корпус.

Наш проект занимается созданием корпуса текстов с лингвистической разметкой. Корпус — это коллекция текстов, отобранных по определённому принципу. Бывают корпуса газетных текстов, прозы XIX века, древнерусских текстов, разговорной речи, … Лингвистическая разметка — это разнообразная информация о тексте: кто и когда его написал, о чём текст; и о словах в нём: к какой части речи относится слово, в каком падеже оно стоит, какая у него словарная форма, с какими словами в предложении оно связано, где в предложении подлежащее и сказуемое. Тут должны вспоминаться уроки русского языка в школе. Это именно то, что мы делали там, когда подчёркивали члены предложений разными линиями (одинарной, двойной, пунктиром, волнистой, ...), делали морфологический и синтаксический разбор. Я думаю, что все вспомнили. Такая информация нужна про все слова в корпусе. По крайней мере в нашем корпусе мы хотим подробности про каждое слово.

Я думаю, что у некоторых из вас уже возник вопрос «зачем это надо?». Размеченные корпуса текстов являются исходным материалом при разработке технологий анализа текста. Как минимум, они используются при тестировании этих технологий. А если для анализа текста используется какая-то математика, связанная с автоматическим обучением, то ещё и в качестве обучающей выборки. Поскольку разметка корпуса выполняется вручную или почти вручную, а сами по себе корпуса довольно велики (речь идёт о сотнях тысяч словоупотреблений) то эти размеченные данные составляют существенную часть стоимости получающихся технологий.

Когда я говорю о технологиях, я имею в виду автоматический перевод, распознавание устной речи и печатного текста, автоматическое реферирование (составление краткого обзора длинного текста), разнообразный text mining, извлечение фактов из текста, тематическую классификацию текстов (тексты о природе — в одну коробку, тексты о погоде — в другую). Т.е. это уже вполне понятные, полезные и знакомые вещи. Со статистическим переводом Google скорее всего сталкивались все присутствующие. С распознаванием печатного текста — тоже. Поиск документов в Интернете тоже использует много лингвистических технологий. Корпус — это не всё, что нужно для создания лингвистических технологий. Но иногда это так много, что если нет готового корпуса, то нет смысла браться за задачу.

Создание лингвистических технологий — не единственное назначение корпусов текстов — их ещё используют в самых разных исследованиях, при создании обучающих материалов. Но для нашего проекта это главное — мы ориентируемся на то, чтобы создать исходные данные для разработчиков. Потому что мы тоже разработчики, эти данные нам самим нужны, и мы понимаем, как их готовить.

Поскольку создание корпуса — это большая работа, то за неё берутся обычно гос. организации, разнообразные НИИ и университеты. Государство заинтересовано в том, чтобы создавались инструменты для обработки текста на государственном языке. На негосударственном тоже ... по очевидным причинам. И государство же является одним из потребителей этих технологий, т.к. его бюрократический аппарат порождает огромное множество документов на этом языке. И часто хочет разобраться и в остальных документах тоже: быстро находить что-то в прессе, обращениях населения к президенту (тендерная заявка на технологию семантического анализа этих обращений даже была опубликована недавно) и т.д..

Корпуса текстов существуют, в том числе и размеченные корпуса русских текстов. На настоящий момент нет ни одного доступного (т.е. такого, чтобы можно было скачать к себе на компьютер и обрабатывать самостоятельно) и размеченного вручную корпуса текстов на русском языке. Есть хороший, но недоступный Национальный корпус русского языка. Когда он станет доступен и станет ли - непонятно.

Поскольку размеченный корпус многим нужен, то мы решили сделать его сами, используя те знания и опыт, который накопили создатели уже существующих корпусов. В частности, мы делаем корпус таким, что его можно выкладывать в открытый доступ целиком. Для этого мы включаем в корпус только тексты, опубликованные под свободными лицензиями или находящиеся в общественном достоянии.

Разметка в нашем проекте создаётся усилиями волонтёров и результат публикуется под лицензией CC-BY-SA. Обновление происходит каждые сутки, т.е. всё, что сделали (добавили, разметили, исправили) сегодня будет упаковано и выложено для скачивания к утру (http://www.opencorpora.org/?page=downloads). Тем, кому эти данные нужны - уже можно начинать пользоваться :)

Наша ближайшая цель — создать корпус в 1 млн. словоупотреблений к концу 2011 года. На данный момент в корпус включено 150 тыс. словоупотреблений ( актуальная статистика всегда тут http://www.opencorpora.org/?page=stats ).



Если вы согласны нам помочь, то мы просим вас разрешить использование ваших текстов на условиях лицензий Creative Commons - Attribution или Creative Commons - Attribution - Share Alike. Это довольно широкие лицензии: обе позволяют дальнейшее использование материалов неограниченным кругом лиц, в том числе и в коммерческих целях. Последнее важно для нас (т.е. ограничение NonCommercial нам не подходит), т.к. мы хотим, чтобы корпус могли использовать не только студенты и аспиранты, но также и небольшие компании и стартапы. Мы надеемся, что с его помощью они смогут создать новые продукты, которые принесут пользу всем нам. Если тексты в вашем ЖЖ имеют коммерческую ценность, или вы планируете как-то зарабатывать на них деньги, то, возможно, вам не надо нам помогать (по крайней мере этим способом :) ), т.к. это (разрешение использовать ваши тексты в коммерческих целях) может повредить вашим интересам. Если ваши тексты - это ваш личный дневник, и использование их кем-то ещё (с указанием вашего авторства) или их переработка не может вам повредить, то, возможно, вам стоит нам помочь. Если хотите. ;)



Лицензии CC-BY и CC-BY-SA отличаются тем, что последняя требует, чтобы тексты (или что-то ещё), созданные с использованием ваших текстов, были опубликованы тоже по лицензии CC-BY-SA. CC-BY требует только указания вашего авторства при перепечатках оригинального или изменённого текста.

Для того, чтобы разрешить использование ваших текстов на условиях лицензий CC, сделайте, пожалуйста, следующее:

- поместите в профиль вашего ЖЖ ссылку на лицензию CC-BY-SA или CC-BY как написано тут
http://creativecommons.org/choose/results-one?license_code=by-sa&jurisdiction=&version=3.0&lang=ru
или тут
http://creativecommons.org/choose/results-one?license_code=by&jurisdiction=&version=3.0&lang=ru
(в зависимости от выбранной лицензии).

Если вы хотите разрешить использование не всех текстов в вашем журнале, то напишите об этом явно там же. Например, что можно использовать только посты с тегом "дыбр", а к остальным лицензия не относится, или что лицензия не относится к вашим комментариям, оставленным под постами других пользователей. По умолчанию мы будем считать, что лицензия относится ко всем открытым текстам, опубликованным от имени ЖЖ пользователя, в том числе к постам в сообществах и к комментариям.

Пример профиля с указанной лицензией: http://lazy-frog.livejournal.com/profile
Предлагаю использовать такой же текст, как там.

- сообщите нам о том, что мы можем использовать тексты из вашего журнала. Для этого, заполните эту форму https://docs.google.com/spreadsheet/viewform?hl=ru&formkey=dEhPc2dSMkdLdEt6VE1GZFRzTE1NcGc6MQ

Через несколько недель (да, мы работаем очень медленно) после сообщения кто-то из редакторов разметки придёт, почитает ваш ЖЖ, выберет часть постов и комментариев и поместит их в корпус. Результат будет выглядеть примерно так (это текст из ВикиНовостей): http://opencorpora.org/books.php?book_id=143&full . Потом придут другие редакторы и добавят другие "слои" разметки: уберут неправильные грамматические разборы слов и т.д..

Перед помещением текста в корпус редактор проверит ссылку на лицензию в профиле. После помещения текста в корпус он НЕ сообщит вам об этом, чтобы не беспокоить вас зря.

Если редактору доступны ваши подзамочные посты, то он всё равно НЕ будет их добавлять в корпус. Если мы встретим в вашем ЖЖ перепечатки чьих-то чужих текстов, то мы тоже не будем их добавлять.

Какие посты будет выбирать редактор разметки?

При выборе постов мы будем искать такие, комментарии к которым тоже можно утащить в корпус (т.е. авторы комментариев тоже разрешили использование своих текстов описанным способом). Нас устраивают тексты с ошибками (случайными и сделанными намеренно), опечатками, ругательствами и прочей ненормативностью. Нам важно, чтобы текст был на русском языке, т.к. мы пока занимаемся только русским.

Думаю, что несмотря на длину поста, всё равно останутся вопросы. Их лучше всего задавать в комментариях. Возможно, какие-то ответы перенесу в основной текст.

Разрешение использовать тексты - не единственный способ нам помочь. Можно также поучаствовать в проекте в качестве редактора разметки, программиста или как-нибудь ещё. Если вам это интересно - напишите мне bocharov@opencorpora.org

Если вы хотите узнать о нашем проекте подробнее, то спросите в комментариях или прочитайте (посмотрите, послушайте) тут http://opencorpora.org/?page=publications .

Если вы хотите получать новости проекта по почте, то подпишитесь на рассылку (форма в правом нижнем углу на странице http://opencorpora.org). Это может быть интересно тем, кто как-то связан с лингвистикой, компьютерной лингвистикой, автоматической обработкой текста и т.д.



Спасибо!
Бочаров Виктор
участник проекта Открытый корпус
OpenCorpora.org

 
 
 
al_silonoval_silonov on August 26th, 2011 08:40 pm (UTC)
А от НКРЯ этот корпус по сути будет отличаться только лицензией (и соответственно - подбором текстов по данному критерию)? Там уже имеются сотни млн. словоупотреблений, и на этом фоне 1 млн выглядит не очень серьезно (при том что и НКРЯ считается недостаточным для полноценных лексических исследований). Или же вы готовите более совершенный инструментарий, более качественную разметку, снятие омонимии и т. п.?
Lazy Froglazy_frog on August 27th, 2011 07:56 am (UTC)
Лицензией, возможностью редактировать разметку. Для полноценных лексических исследований OpenCorpora не годится, т.к. маленький, очень смещённый в связи с лицензией. Кроме того, у нас нет поиска - без него лексические исследования будет делать трудно.

НКРЯ закрывает довольно много потребностей благодаря своему размеру, разнообразию материала, наличию поиска ... мы хотим в первую очередь сделать то, чего там нет - разметку, на которой можно делать машинное обучение и другие работы, требующие доступа ко всем данным напрямую.

В будущем разной степени отдалённости мы планируем: снимать морф. и лексическую омонимию, делать синтаксическую разметку, выделять объекты. Говорить о том, что мы сделаем разметку качественнее, чем в НКРЯ трудно, но возможность автоматической обработки и исправления разметки онлайн будет этому способствовать.
Лидия Пивоварова: alter egol_i_d_y_a on August 27th, 2011 04:55 am (UTC)
О, вы тоже пришли к этой идее.
Я думала такое предложить, но меня смущает вот что: не произойдет ли смещение выборки, если информация будет распространяться таким образом, через твою френдленту? Ну, тебя читают в основном люди с высшим образованием, много компьютерщиков и лингвистов. На просьбу тоже скорее отреагируют люди, нечуждые корпусам и. т. д.

Потом - почему посты отбирает редактор? Почему бы просто не выкачать все подряд?
Lazy Froglazy_frog on August 27th, 2011 08:02 am (UTC)
Я помню, что ты об этом говорила :)

Да, смещение есть. Для конкретной задачи нужно будет выбирать подходящие документы из всего того, что мы соберём. Сделать вообще несмещённый корпус ни по одному параметру, наверное, очень сложно. Мы собираем скорее разнообразный материал, чтобы было из чего выбирать. Отсюда и ответ на второй вопрос: будем стараться собрать скорее больше авторов, чем больше документов одного автора.

Перепост этого обращения стоит делать ещё и потому, что чем больше разных людей прочитает, тем менее однобокий материал получится. :)
(no subject) - lazy_frog on August 28th, 2011 09:05 am (UTC) (Expand)
Сергей Холодиловfat_crocodile on August 27th, 2011 09:19 am (UTC)
объясни, зачем вам коммерческое использование? Вот например gcc, распространяется под GPL, "коммерчески использовать" вроде нельзя. Но никто не мешает использовать его при создании коммерческих продуктов, как инструмент. Нельзя только продавать его самого, как продукт.

Это разве не ровно то, что вам нужно?
Львова Анастасияlvova on August 27th, 2011 09:42 am (UTC)
Вот только это лицензия на программу, а не на текст.
(no subject) - fat_crocodile on August 27th, 2011 09:51 am (UTC) (Expand)
(no subject) - lvova on August 27th, 2011 09:56 am (UTC) (Expand)
(no subject) - fat_crocodile on August 27th, 2011 09:54 am (UTC) (Expand)
(no subject) - lvova on August 27th, 2011 09:59 am (UTC) (Expand)
(no subject) - lazy_frog on August 27th, 2011 02:03 pm (UTC) (Expand)
Lazy Froglazy_frog on August 27th, 2011 02:13 pm (UTC)
Про коммерческое использование ... gcc - инструмент для обработки текста программы, а не "сырьё". Тексты в корпусе - скорее "сырьё", т.к. из них делаются обученные мат. модели, наборы правил, списки слов, словосочетаний, ... Можно представить себе ситуацию, когда берутся готовые исходники, например, синтаксического анализатора, тренируются на корпусе, и получается синтаксис для русского. Мы не хотим мешать авторам зарабатывать на этом синтаксическом анализаторе так, как, например, делает это Red Hat на своём RHEL.
(no subject) - fat_crocodile on August 27th, 2011 02:37 pm (UTC) (Expand)
(no subject) - lazy_frog on August 27th, 2011 02:54 pm (UTC) (Expand)
Eleneldil G. Arilouarilou on August 28th, 2011 12:30 pm (UTC)
В моём журнале давно стоит cc-by-sa, см. начало текста "О себе" в моём профиле.
Lazy Froglazy_frog on August 28th, 2011 01:16 pm (UTC)
спасибо!
записал
Lazy Froglazy_frog on August 29th, 2011 12:39 pm (UTC)
Ссылки на дискуссии под перепостами в других журналах:

http://lvova.livejournal.com/656036.html
http://ru-wikipedia.livejournal.com/1624311.html
Boroda aka Hamsterfantaseour on September 5th, 2011 09:49 am (UTC)
мой блог под cca, полльзуйтесь, если сочтете полезным.
Lazy Froglazy_frog on September 5th, 2011 10:49 am (UTC)
Спасибо!
Напишите, пожалуйста, об этом в профиле или отрытым постом.
Инструкция о том, как это сделать правильно тут: http://lazy-frog.livejournal.com/151835.html#cutid2
(no subject) - fantaseour on September 5th, 2011 11:33 am (UTC) (Expand)
(no subject) - lazy_frog on September 5th, 2011 11:56 am (UTC) (Expand)
Olga Yermishkinaorie on September 7th, 2011 08:14 am (UTC)
а как технически будет осуществляться сбор текстов?

меня это интересует в связи с вопросом про подзамочные посты.
Lazy Froglazy_frog on September 7th, 2011 10:27 am (UTC)
В основном - вручную (copy - paste). Но подзамочные посты мы всё равно не будем копировать. Даже если на них будет явное разрешение.

На тот ли вопрос я отвечаю?
(no subject) - orie on September 7th, 2011 11:52 am (UTC) (Expand)
(no subject) - lazy_frog on September 7th, 2011 12:01 pm (UTC) (Expand)
(no subject) - orie on September 7th, 2011 12:04 pm (UTC) (Expand)
(no subject) - lazy_frog on September 7th, 2011 12:17 pm (UTC) (Expand)
(no subject) - orie on September 7th, 2011 12:28 pm (UTC) (Expand)
(no subject) - lazy_frog on September 7th, 2011 12:41 pm (UTC) (Expand)
(no subject) - orie on September 7th, 2011 12:43 pm (UTC) (Expand)
(no subject) - lazy_frog on September 7th, 2011 12:53 pm (UTC) (Expand)
(no subject) - orie on September 7th, 2011 12:55 pm (UTC) (Expand)
(no subject) - lazy_frog on September 7th, 2011 01:14 pm (UTC) (Expand)
dzatochnik on September 21st, 2011 08:56 pm (UTC)
Всячески поддерживаю и одобряю! Посмотрите в мой профиль - правильно я там написал?
Lazy Froglazy_frog on September 22nd, 2011 05:08 am (UTC)
Да. Спасибо!
(Anonymous) on October 15th, 2011 03:25 pm (UTC)
Извините за запоздавший вопрос, а есть ли среди вас юрист - специалист по авторскому праву?
Когда я несколько лет назад интересовался этим вопросом, мне твердо говорили, что ни одна из свободных лицензий, в том числе CC, не совместима с российским ГК. Ситуация изменилась или вы не планируете использование корпуса в РФ?
Lazy Froglazy_frog on October 15th, 2011 08:55 pm (UTC)
Спасибо. Хороший вопрос. Нет, среди нас нет юриста. Мы знаем, что статус свободных лицензий до конца не ясен, и понимаем, что они не прошли пока проверки в суде. С другой стороны, российское законодательство медленно, но движется к нужному состоянию. Я надеюсь, что однажды оно туда придёт. В нашем случае, использование лицензий Creative Commons - это лучшее, что мы смогли придумать: разработка и поддержка собственной лицензии с учётом нашего законодательства скорее всего столкнулась бы с теми же проблемами, но мы бы потратили на это дополнительные ресурсы.

Кроме формально юридической, есть ещё и вполне понятная человеческая договорённость - указывая ссылку на лицензию в профиле мы однозначно сообщаем о своём намерении. Случайно её туда не поставить. В этом посте я старался избыточно подробно изложить последствия разрешения использования текстов на условиях СС для того, чтобы согласились только те люди, для кого эти последствия являются приемлемыми.

Мы используем корпус в РФ, т.к. большая часть команды находится тут.
(no subject) - (Anonymous) on October 18th, 2011 03:44 pm (UTC) (Expand)
(no subject) - lazy_frog on October 18th, 2011 04:25 pm (UTC) (Expand)
Имян Отчествович Фамильевnomen_nescio on October 15th, 2011 04:11 pm (UTC)
Поставил Вашу пометку, можете брать.
Lazy Froglazy_frog on October 15th, 2011 08:28 pm (UTC)
спасибо!
видим.
Скит,  гордый совок и теплый ватникzimopisec on October 16th, 2011 10:14 am (UTC)
Я в дисклэймере разрешил пользоваться и цитировать все, что угодно. Я враг копирайтов во всех их проявлениях, так что на здоровье.
Lazy Froglazy_frog on October 16th, 2011 10:59 am (UTC)
Спасибо!
Вы имеете ввиду, что Вы против ограничений на использование, или что Вы против явого описания условий использования?
(no subject) - zimopisec on October 16th, 2011 11:08 am (UTC) (Expand)
(no subject) - lazy_frog on October 16th, 2011 11:18 am (UTC) (Expand)
Тимур Василенкоtimur0 on October 22nd, 2011 11:23 am (UTC)
в профиль указание лицензии добавил, можете брать тексты. примечание: цитаты у меня обычно выделены курсивом
Lazy Froglazy_frog on October 22nd, 2011 01:42 pm (UTC)
спасибо!
учтено ;)
(no subject) - timur0 on October 23rd, 2011 06:54 am (UTC) (Expand)
(no subject) - lazy_frog on October 23rd, 2011 02:40 pm (UTC) (Expand)
sharper_sharper_ on April 2nd, 2016 06:43 am (UTC)
Совершенно случайно наткнулся на Ваш журнал и узнал, что Вы занимаетесь лингвистическими корпусамии насколько я понимаю, с целью смыслового различения текстов.

Несколько лет назад мы занимались похожей темой, возникшей в качестве побочного результата решения задачи автоматизации, когда неожиданно выяснилось, что можно определить смысл текста, как значение инвариантное к множеству способов его изложения, исходя из единственности проверки на понимание буквально изложением "своими словами" (или последоватеьностью действий). Тогда любой текст можно рассматривать как сообщение источника, содержащее вариабельную командную последовательность, задающую реакцию приемника начиная с процедуры детектирования и заканчивая реакцией исполнительного органа. Исчисление уникального смыслового значения представляет собой несложный алгоритм и в отличие от хеш-значений исключает возникновение коллизий. К сожалению, прекращение финансирование остановило работу на этапе разработки алгоритма автоматического дифференциирования текстов "двойного" смысла.
Но во всех случаях, в нашем подходе, лингвистическая разметка не требовалась, но могла быть тестовой задачей для разрабатываемой системы смыслового различения.

Если Вам интересно, я бы с удовольствием продолжил. Тем более, все равно пропадает.