Что такое Корпус

Автор работы: Пользователь скрыл имя, 03 Ноября 2013 в 12:59, реферат

Описание работы

Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC):, на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Файлы: 1 файл

Что такое Корпус.doc

— 53.00 Кб (Скачать файл)

Что такое Корпус?

 

 

Национальный  корпус – это информационно-справочная система, основанная на собрании текстов  в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования  и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

 

Национальный  корпус создается лингвистами (специалистами  по так называемой корпусной лингвистике, быстро развивающейся современной  области языкознания) для научных  исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC):, на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

 

Национальный  корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленных в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений). Планируемый составителями объем Национального корпуса русского языка – 200 млн. слов.

 

Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка – главная  характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»; в настоящее время специалистами создана и пополняется также «Фундаментальная электронная библиотека» русской классической литературы, ориентированная на академический, подлинно научный режим подачи текстов). Однако такие библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества. Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, – это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. – наряду, конечно, с классическими произведениями художественной литературы.

 

Чем богаче и разнообразнее разметка, тем  выше научная и учебная ценность корпуса. В Национальном корпусе  русского языка в настоящее время  используется четыре типа разметки: метатекстовая, морфологическая, акцентная и семантическая; в ближайшее время планируется внедрение синтаксической разметки. Система разметки постоянно совершенствуется.

^

Зачем нужен  национальный корпус?

 

 

Национальный  корпус предназначен в первую очередь  для обеспечения научных исследований лексики и грамматики языка и в меньшей степени его акцентологии, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов – от одного до двух столетий. Другая задача корпуса – предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой – в том числе статистической – обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари – практически все без исключений – должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

 

С этой точки  зрения основными потребителями  национальных корпусов являются, конечно, исследователи-лингвисты самого разного  профиля. Однако круг пользователей  корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

 

Разрабатыаемый  Национальный корпус русского языка  будет охватывать прежде всего период от начала XIX до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах – литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа – и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

^

Состав  и структура Корпуса

 

 

В Национальный корпус русского языка, по замыслу его  составителей, будут включены прежде всего тексты, представляющие современный  русский литературный язык (с начала XIX в.), но также и тексты, представляющие древнерусский язык (XI-XIV вв.) и нелитературные формы современного русского языка: разговорную, просторечную, диалектную.

 

Тексты, представляющие современный русский литературный язык, в свою очередь, распределяются по двум большим подкорпусам: корпус ранних текстов (начало XIX – середина XX века) и корпус современных текстов (середина XX – начало XXI века).

 

В настоящее время на сайте размещен только корпус современных текстов (второй половины XX – начала XXI в.); размещение остальных текстов планируется в ходе дальнейшей работы.

 

Корпус современных текстов. Корпус текстов середины XX – начала XXI века состоит из нескольких корпусов, различающихся между собой тем, какие типы текстов в них представлены и какие способы разметки к ним применялись.

 

Основным в этом ряду является представительный корпус современных текстов с  морфологической разметкой. Планируемый  объем этого корпуса – 100 млн. словоупотреблений. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

 

современная художественная проза  разных жанров и направлений

 

современная драматургия

 

мемуарно-биографическая литература

 

журнальная публицистика и литературная критика

 

газетная публицистика и новости

 

научные, научно-популярные и учебные  тексты

 

религиозные и религиозно-философские  тексты

 

производственно-технические тексты

 

официально-деловые и юридические  тексты

 

бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

 

Тексты представлены в определенной пропорции, отражающей их долю в общем  массиве современных текстов. Так, доля художественных текстов (включая  драматургию и мемуары) будет составлять около 40% (в настоящее время она несколько выше, что связано с особенностями процесса пополнения Корпуса новыми текстами).

 

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов.

 

Корпус параллельных текстов. Особым типом корпуса является так называемый параллельный корпус, в котором тексту на русском языке сопоставлен  перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно – между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выровненными.

 

Выровненный параллельный корпус представляет собой важный инструмент для научных  исследований (в том числе и  для исследований по теории и практике перевода); он может также использоваться при обучении русскому и иностранным языкам.

 

В настоящее время на сайте Национального  корпуса размещён небольшой выровненный  параллельный русско-английский корпус.

^

Параметры текстов

 

 

Различают два класса факторов, влияющих на выбор текстов в корпусе: внешние, внеязыковые факторы (3: создание текста автором, внешние признаки текста, цели создания текста и его влияние на аудиторию), и внутренние, отражающие свойства языка, используемого в тексте (2: предметная область текста, стилистические особенности).

 

К группе «параметры создания текста автором» относятся, в первую очередь, время создания текста и возраст  автора на этот момент (детский, молодежный, взрослый и пожилой), пол автора и  регион происхождения автора (грубая классификация на столичный, европейский, сибирский и южный).

 

Стремление отразить современный  русский язык ограничивает хронологические  параметры выборки. Активный исторический процесс в СССР и России достаточно радикально менял русский язык на протяжении 20-го века. В связи с  этим выбор хронологических рамок для создания корпуса существенно влияет на результаты. Например, в частотном словаре Засориной слова советский, коммунистический, революция и товарищ, входят в первую сотню русских слов, опережая многие служебные слова, такие как ваш, лучше, здесь. При построении частотного списка на основе газетно-журнальных текстов второй половины 1990-х эти же слова оказываются относительно редки (особенно советский и товарищ, чья частота в современном корпусе сравнима с частотой слов греческий или сыр).

 

В связи с тем, что историческая ситуация по-разному влияет на разные виды функциональных жанров, для описываемого корпуса выбор временного интервала  для взятия соответствующих текстов  варьируется. В частности, художественная литература берется начиная с 1960 г., научные тексты с 1980 г., общественно-политические тексты с 1990 г. (это ограничение объяснимо и техническими причинами: более ранние тексты практические не доступны в электронном виде), а газеты и журналы берутся в основном с 1995 г.

 

Для описания текста по его внешним признакам предлагается иерархия, отличающаяся от традиционной, в первую очередь, наличием четырех режимов речи: устной, письменной, письменной предназначенной для произнесения вслух, и электронной коммуникации. Последняя подобна устной речи спонтанностью порождения (аналогично телефонному звонку или очной дискуссии), но она всё равно остается письменной (в частности, в электронных текстах отсутствует просодическая информация).

 

Среди внешних признаков письменной речи выделяются печатные издания, подразделяемые, в свою очередь, на книги, периодику и брошюры, а также переписка разного рода и машинописные тексты (typed). Устную речь (по Синклеру) предлагается подразделять на записанную в естественных условиях, в студии и телефонные разговоры.

 

Группа факторов касается целей  создания текста и его влияния  на аудиторию. К параметрам аудитории, которые оказывают существенное влияние на текст, отнесены ее размер, близость аудитории говорящему и  ограничения на пол, возраст и  уровень образования аудитории. По размеру аудитории речь делится на публичную (более 50 читателей/слушателей, с подклассами в сотни, десятки тысяч и миллионы) и частную, в свою очередь подразделяемую на личную (2 участника), небольшую группу (до 5), группу средних размеров (до 20) и коллектив. По параметру близости в большинстве случаев публичная аудитория деперсонализована (то есть никак не знакома говорящему). Если же говорящий/пишущий может описать каждого участника коммуникации, их близость классифицируется по шкале: хорошее личное знакомство, личное знакомство, отсутствие личного знакомства.

 

Под целями создания текста понимается коммуникативная функция текста: обсуждение (аргументация, полемика, изложение  позиции и т. п.), рекомендации (отчеты, предложения, законы и т. д.), развлечение (сюда входят различные жанры художественной литературы, а также биографические и автобиографические тексты, дневники и мемуары), обучение (в эту категорию входят как школьные или вузовские учебники, так и практические советы), информация (в эту категорию входят только те тексты, целью которых является предоставление информации и которые не могут быть включены в другие категории, например, энциклопедии и справочные пособия).

Информация о работе Что такое Корпус