Википедия:Кандидаты в хорошие статьи/12 апреля 2016
На этой странице обсуждаются кандидаты в хорошие статьи русской Википедии. |
Правила обсуждения
|
Статья об одном из крупнейших текстовых корпусов, оказавших влияние на многие корпусы, создававшиеся впоследствии. Полностью переведена мной с английского с добавлением оригинального материала. Прошла рецензирование. -- Alexchuvak 11:30, 12 апреля 2016 (UTC)
За
[править код]За. Пока, вроде, добротных или хороших статей о корпусах в рувики не было. -- Andrew Krizhanovsky 03:54, 29 апреля 2016 (UTC)
Против
[править код]Комментарии
[править код]- Алексей, Вы пишите выше, что "BNC оказал влияние на многие корпусы, создававшиеся впоследствии". На какие корпусы (или корпуса?) он оказал влияние? Не вижу об этом в тексте :( Добавите?.. Со ссылками на ВП:АИ. -- Andrew Krizhanovsky 12:19, 13 апреля 2016 (UTC)
- Сделано. Об этом есть в разделе Признание. Добавил туда еще одну ссылку и примеры корпусов для убедительности.
- Отлично, спасибо за эту правку diff.
- Вы пишите про "Американский, Чешский и Польский национальные корпуса"... Неужели про них не статей в Английской Википедии? Попробуйте викифицировать, пожалуйста.
- У нас с Вами уговор - пользоваться sfn вместо ref'ов.
- Забыли указать автора этого большого обзора корпусов: "Well-known and influential corpora: A survey". -- Andrew Krizhanovsky 04:54, 14 апреля 2016 (UTC)
- Сделано. Все 3 пункта. -- Alexchuvak 07:38, 14 апреля 2016 (UTC)
- Отлично! Теперь нужно поправить список литературы, чтобы там были указаны авторы, а не "et al". См. Обсуждение:Британский национальный корпус#Литература. -- Andrew Krizhanovsky 12:37, 14 апреля 2016 (UTC)
- Сделано. -- Alexchuvak 16:43, 15 апреля 2016 (UTC)
- Спасибо! -- Andrew Krizhanovsky 08:40, 16 апреля 2016 (UTC)
Схема
[править код]- В целом схема мне нравится, но есть небольшие "но". Три замечания по переводу рисунка на русский языке:
- Periodicals - это не "письменные материалы". Это же (левая часть схемы) и так "письменный корпус"! И что тогда означает "письменные материалы" в "письменном корпусе"? А как называются не письменные материалы в письменном корпусе?! Предложите иной перевод, пожалуйста.
- Published и unpublished - зачем переводите настоящим временем? Лучше "Опубликованное" и "Неопубликованное".
- Сделано -- Alexchuvak 06:56, 19 апреля 2016 (UTC)
Коллеги, видите ли ещё какие-либо несуразности в переводе?.. -- Andrew Krizhanovsky 14:31, 17 апреля 2016 (UTC)
Перевод
[править код]- Демографическая часть содержит транскрипцию спонтанных разговоров в реальных условиях, в которых участвовали волонтеры... ... . Извините, как можно "участвовать в условиях"? -- Andrew Krizhanovsky 16:32, 17 апреля 2016 (UTC)
- Сделано -- Alexchuvak 06:36, 18 апреля 2016 (UTC)
Paragraph | English | Russian |
---|---|---|
Title | Permission issues | Проблемы доступа |
1 | Intellectual property rights (IPR) owners were sought for their agreement with the standard licence, especially willingness to incorporate their materials in the corpus without any fees. | Обладатели прав на интеллектуальную собственность особенно охотно включали в корпус свои материалы без каких-либо денежных сборов, что было продиктовано стандартной лицензией на включение материала в корпус. |
2 | This arrangement may have been facilitated by the originality of the concept and the prominence associated with the project.[6] | Такое положение дел было одним из факторов, способствующих формированию представления об оригинальности концепции корпуса и его уникальности[6]. |
Не понимаю логику в переведённом тексте (первое предложение). Почему люди "охотно" отказываются от денег? Авторы прочитали "стандартную лицензию" и стали фанатиками лицензии "Public domain"? Может, в переводе есть ошибка? -- Andrew Krizhanovsky 16:13, 25 апреля 2016 (UTC)
- Сделано. Действительно, исправил. -- Alexchuvak 12:45, 26 апреля 2016 (UTC)
от पाणिनि
[править код]- Я не уверен в необходимости наличия раздела "Академические исследования". За время существования корпуса он наверняка использовался в сотнях статей, так что это потенциально безразмерный раздел. पाणिनि 09:22, 23 апреля 2016 (UTC)
- Наверное, этот раздел больше годится для статьи Корпусная лингвистика. Где будет описано, для решения каких задач применяются корпуса в целом... может, что-то написать там же и по отдельным корпусам, если это что-то уникальное. -- Andrew Krizhanovsky 04:04, 24 апреля 2016 (UTC)
от Zanka
[править код]Ну вот, пришла я и всё испрортила. --Zanka 17:10, 3 июня 2016 (UTC)
- "английский конца XX в." - НЕБУМАГА.
- Введение вообще маловато, для заглавной надо ещё пару предложений.
- Есть некоторое несоответствие между тем, что используется карточка сайта, а в тексте введения вообще нет ничего о том что это имеет какое-то отношение к Интернету. (Кстати, как раз эта добавка может увеличить введение до необходимых размеров)
- На пять страниц текста одна страница содержания, не слишком ли? Не вижу смысла делать заголовок над каждым абзацем.
- "В рамках проекта по созданию BNC сотрудничали три издателя (Издательство Оксфордского университета в качестве ведущего соавтора, а также Longman и W. & R. Chambers[en]), два университета (Оксфордский и Ланкастерский ) и Британская библиотека[2]." - это даже не мастер Йода, это вообще не читаемо.
- Почему предпосылки расположены ниже чем само создание тоже неясно.
- В карточке написано, что 1994 год - начало работы, а в истории - что завершение, а начало в 1991 году. Я понимаю, что в карточке скорее всего начало работы сайта, но нельзя настолько недоговаривать.
- "В представлении специалистов по компьютерной лингвистике BNC должен был представлять собой корпус современного на момент составления, встречающегося в реальных условиях языка в устной или письменной форме." - 1. при чём здесь специалисты по компьютерной лингвистике? 2. либо "встречающегося в реальных условиях" нужно окружать запятыми с двух сторон, либо перестраивать предложение.
- Вообще, содержание раздела Предпосылки не имеет ничего общего со значением этого слова, по крайней мере для меня. Предпосылки - это то, что натолкнуло на мысль о создании, какие-то договорённости, встречи, пожелания. У вас же конкретные решения, чего стоит "В результате, BNC был составлен в форме, удобной для обработки на компьютере" - это не предпосылки никак!
- Я предполагаю, что раздел история должен содержать информацию о том как образовался проект, кто в нём был заинтересован, кто принимал участие в создании. Вопрос финансирования тоже можно затронуть, если больше негде (для избранной не помешал бы отдельный раздел), но не таким образом как это сделано сейчас.
- Вообще, для такого типа статей в последнее время исторический очерк помещают ближе к концу.
- "BNC является одноязычным[en] корпусом, так как он содержит ..." - 1. красная ссылка ведёт на "моноязычный", просто прилагательное. Тут что-то нужно поправлять. 2. конструкцию "так как" можно убрать, она не несёт смысла.
- В следующем предложении от "так как" тоже можно отказаться. В обоих случаях я бы при этом запятую заменила на тире.
- "С самого начала те, кто участвовал в сборе письменных данных, стремились сделать BNC сбалансированным корпусом и, следовательно, искали и включали данные из различных источников[3]." - наивное предложение, ну думаю что оно уместо в этой статье, по крайней мере в этом месте статьи.
- "подготовленных входе особых встреч или мероприятий." - пробел пропущен.
- Последние два "абзаца" разговорного корпуса без АИ. В последнем абзаце при этом дана внешняя ссылка внутри статьи.
- "путем введения в использование дополнительного программного обеспечивания для замещения ручной работы" - я, конечно, "сам дурак", но что такое "програмное обеспечивание"?
- Вообще, создалось впечатление, что этой системе разметки уделено много места. Если вся система разрабатывалась для програмного обеспечивания этого корпуса или корпус подтолкнул систему к дальнейшему развитию и модификациям, то тогда всё уместно, только надо корректно это обозначить. Если же система не при чём, то проход по модификациям выглядит нарушающим ВЕС.
- Также создалось неприятное впечатление от того, что вначале указаны цифровые показатели (96-97%), а потом - нет, и непонятно чего удалось достичь.
- "Можно получить оба этих подкорпуса, заказав их на сайте BNC" - это вообще можно убрать из статьи. В крайнем случае, поместить в особенности доступа.
- Непонятен смысл подкорпусов. На что они ориентированы. Есть ощущение, что один из них включает детский язык. Если это так, то наверное есть ограничение возрастной группы, выбор литературы и периодики. Тогда же возникает вопрос в уместности научной литературы. Для чего нужен второй подкорпус - я не поняла.
- " В ходе работ по проекту BNC Sampler улучшался с ростом опыта и знаний о разметке. В итоге был создан тот BNC Sampler, который мы знаем сегодня[13]." - да мы никакой не знаем сегодня, пока ещё.
- "Корпус имеет разметку в соответствии с рекомендациями консорциума Text Encoding Initiative[en] (TEI) и включает полную лингвистическую аннотацую и контекстную информацию[14]." - что мешает поместить это в раздел разметка? Зачем создавать для одного предложения отдельный раздел?
- Особенности доступа заставляют меня усомниться в том, что наверху вообще уместна карточка сайта. Это не сайт и значимость его не будет определяться по ВЕБ.
- "BNC стал первым корпусом подобного размера, доступный широкой аудитории." - согласование.
Итог
[править код]Номинатор в Википедии не появлялся с 28 апреля, работа по замечаниям не ведётся. Статус не присвоен, после доработки возможно повторное выдвижение. --Deinocheirus (обс) 13:18, 20 июня 2016 (UTC)