Автор работы: Пользователь скрыл имя, 03 Ноября 2013 в 12:59, реферат
Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC):, на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.
При построении корпуса глубина кодирования предметной области, затрагиваемой текстом, не слишком важна, поскольку корпус не является универсальной энциклопедией. Кроме того, общие классификации, подобные УДК, редко применимы к тексту и в еще меньшей степени применимы к устной речи, поскольку текст может затрагивать (и, как правило, затрагивает) несколько предметных областей одновременно. При построении корпуса можно иметь грубую классификацию, выделяющую, например, естественные и общественные науки, политику и экономику, искусство и досуг, и т.п.
^
Статистика Корпуса
Национальный корпус русского языка в октябре 2004 г. содержал 13 246 текстов общим объемом 35 238 929 словоупотреблений.
I. Распределение текстов по видам и другим метапризнакам