Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

а вместе с информацией о частоте их встречаемости

Работа добавлена на сайт samzan.net: 2016-03-13

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 21.5.2024

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

  •  воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
  •  всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке),
  •  сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частоты можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, en:whelk): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частоты можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частоте.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, ipm, instances per million words). Слово и имеет частоту около 30000 чмс, слово старость — около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистические меры: хи-квадрат, отношение правдоподобия (en:Likelihood-ratio test) и т. п.

См. также

  •  Корпусная лингвистика 
  •  Списки частотных слов русского языка 
  •  en:Most common words in English 
  •  Список Сводеша 
  •  Частота символов 
  •  Национальный корпус русского языка 
  •  Adam Kilgarriff, Putting Frequencies in the Dictionary, // International Journal of Lexicography, 10(2). 1997. С. 135—155 [1] 
  •  Частотные словари «Ветхого и Нового Завета» (Поиск «Богослова» в текстах «Ветхого и Нового Завета»). 

Ссылки

  •  «Частотный словарь» в БСЭ 
  •  Частотный словарь С. А. Шарова 

Источник — «http://ru.wikipedia.org/wiki/%D0%A7%D0%B0%D1%81%D1%82%D0%BE%D1%82%D0%BD%D1%8B%D0%B9_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C»

Закон Ципфа (Зипфа) — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из Гарвардского университета.

Список самых частотных слов любого языка зависит от того материала, на котором эта частота считалась. В данном случае был использован Национальный корпус русского языка. Кроме того, списки, приведённые ниже, предполагают лемматизацию, то есть приведение всех словоформ к их словарной форме, например, все формы были, буду, бывший приведены к форме быть, что в последнем случае может оспариваться некоторыми лингвистами.

Частоты приведены к чмс (частота на миллион словоформ, ipm, instances per million words), что означает, что слово Москва в среднем встречается 452 раза на один миллион слов текста (на основе материалов НКРЯ). В результате лемматизации все слова приведены к нижнему регистру, включая слова, которые в большинстве случаев пишутся с большой буквы.

Три колонки: существительные, глаголы, прилагательные.

Частота

Слово

2369

человек

1529

время

1490

год

1195

дело

1119

жизнь

1024

рука

1005

день

839

слово

835

раз

747

глаз

743

лицо

724

место

670

дом

660

работа

658

россия

624

друг

622

сторона

611

голова

590

вопрос

550

сила

543

мир

529

случай

503

ребенок

472

город

468

вид

463

страна

453

конец

452

Москва

449

бог

442

часть

8900

быть

2398

мочь

2053

сказать

1492

говорить

1427

знать

1291

есть

1186

стать

849

хотеть

793

иметь

758

видеть

711

идти

669

думать

608

жить

602

сделать

561

делать

505

пойти

496

дать

465

взять

455

смотреть

453

спросить

451

любить

439

понимать

434

сидеть

402

казаться

391

работать

382

стоить

381

прийти

380

понять

368

выйти

359

давать

Частота

Слово

876

новый

554

последний

473

русский

456

хороший

429

большой

373

высокий

362

российский

339

молодой

339

великий

326

старый

317

главный

312

общий

308

маленький

303

полный

266

настоящий

265

разный

263

белый

258

государственный

241

далекий

237

черный

231

нужный

226

известный

224

советский

223

целый

213

живой

210

сильный

209

военный

Частота

Слово


In linguistics a lemma (plural lemmas or lemmata) is either of two things:

  1.  Morphology, lexicography: the canonical form or citation form of a set of forms (headword); e.g., in English, run, runs, ran and running are forms of the same lexeme, with run as the lemma.
  2.  Psycholinguistics: abstract conceptual form that has been mentally selected for utterance in the early stages of speech production, but before any sounds are attached to it.

A lemma in morphology is the canonical form of a lexeme. Lexeme, in this context, refers to the set of all the forms that have the same meaning, and lemma refers to the particular form that is chosen by convention to represent the lexeme. In lexicography, this unit is usually also the citation form or headword by which it is indexed. Lemmas have special significance in highly inflected languages such as Czech. The process of determining the lemma for a given word is called lemmatisation.

The psycholinguistics interpretation refers to one of the more widely accepted psycholinguistic models of speech production, referring to an early stage in the mental preparation for an utterance. Here, lemma is the abstract form of a word that arises after the word has been selected mentally, but before any information has been accessed about the sounds in it (and thus before the word can be pronounced). It therefore contains information concerning only meaning and the relation of this word to others in the sentence. This notion of lemma is similar to the Sanskrit sphota (6th c.), an invariant mental word, of which the sound is a feature.

Morphology and lexicography

In a dictionary, the lemma "go" represents the inflected forms "go", "goes", "going", "went", and "gone". The relationship between an inflected form and its lemma is usually denoted by an angle bracket, e.g., "went" < "go". The disadvantage of such simplifications is, of course, the inability to look up a declined or conjugated form of the word, although some dictionaries, like Webster's, will list "went". Multilingual dictionaries vary in how they deal with this issue: the Langenscheidt dictionary of German does not list ging (< gehen); the Cassell does.

The form that is chosen to be the lemma is usually the least marked form, though there are occasional exceptions; e.g., Finnish dictionaries list verbs not under the verb root, but under the first infinitive marked with -(t)a, -(t)ä.

Lemmas or word stems are used often in corpus linguistics for determining word frequency. In such usage the specific definition of "lemma" is flexible depending on the task it is being used for.

Lemmas in different languages

In English, the citation form of a noun is the singular: e.g., mouse rather than mice. For multi-word lexemes which contain possessive adjectives or reflexive pronouns, the citation form uses a form of the indefinite pronoun one: e.g., do one's best, perjure oneself. In languages with grammatical gender, the citation form of regular adjectives and nouns is usually the masculine singular. If the language additionally has cases, the citation form is often the masculine singular nominative.

In many languages, the citation form of a verb is the infinitive: French aller, German gehen. In English it usually is the full infinitive (to go); the present tense is used for some defective verbs (shall, can; and must has only the one form). In Latin, Ancient Greek, and Modern Greek (which has no infinitive), however, the first person singular present tense is normally used, though occasionally the infinitive may also be seen. (For contracted verbs in Greek, an uncontracted first person singular present tense is used to reveal the contract vowel, e.g. φιλέω philéō for φιλ philō "I love" [implying affection]; αγαπάω agapáō for αγαπ agapō "I love" [implying regard]). In Japanese, the non-past (present and future) tense is used.

In Arabic, which has no infinitives, the third person singular masculine of the past tense is the least-marked form, and is used for entries in modern dictionaries. In older dictionaries, which are still commonly used today, the triliteral of the word, either a verb or a noun, is used. Hebrew often uses the 3rd person masculine qal perfect, e.g., ברא bara' create, כפר kaphar deny. For Korean, -da is attached to the stem.

Some phrases are cited in a sort of lemma, e.g., Carthago delenda est (literally, "Carthage must be destroyed") is a common way of citing Cato, although what he said was more like, Ceterum censeo Carthaginem esse delendam ("As to the rest, I hold that Carthage must be destroyed").

Difference between stem and lemma

A stem is the part of the word that never changes even when morphologically inflected, whilst a lemma is the base form of the verb. For example, from "produced", the lemma is "produce", but the stem is "produc-." This is because there are words such as production. [1]

Some lexemes have several stems but one lemma. For instance "to go" (the lemma) has the stems "go" and "wen-". (The "-t" of "went" may be considered as being derived from the past tense "-ed".)

Psycholinguistics

When we produce a word, we are essentially turning our thoughts into sounds (a process known as lexicalisation). In many psycholinguistic models this is considered to be at least a two-stage process. The lemma is thus intermediate between the semantic level (where meaning is specified) and the phonological level (where the sounds of the word are specified). It is an abstract form containing syntactic information (about how the word can be used in a sentence), but no information about the pronunciation of the word. In this context, the lexeme is the phonologically specified form that is selected after the lemma.

This two-staged model is the most widely supported theory of speech production in psycholinguistics[2], although it has been recently challenged.[3] For example, there is some evidence to indicate that the grammatical gender of a noun is retrieved from the word's phonological form (the lexeme) rather than from the lemma.[4] This is easily explained by Caramazza's Independent Network model, which does not assume a distinct level between the semantic and the phonological stages (so there is no lemma representation); in this model, syntactic information about the word in this model is activated in the semantic or phonological level (so gender would be activated in the latter).[5]

 See also

  •  Linguistics 
  •  Corpus linguistics 
  •  Morphology 
  •  Psycholinguistics 
  •  Markedness 
  •  Principal parts 
  •  Root (linguistics) 
  •  Null morpheme 
  •  Lemmatisation 
  •  Lexeme 
  •  Uninflected word 
  •  lexical markup framework 




1. философского знания
2. Экономическое учение ДРикардо
3. Работа с EXCEL- приёмы оформления документа (отчёта)
4. Лицензионный договор
5. древние артефакты а так же искусствоведения поскольку они произведения искусства
6. Статистика вивчення обсягу та структури споживання населенням
7. Реферат- Рыночная Экономика
8. темах Спеціальність 08
9. темах курсу що найменш розглядаються у лекційних і практичних заняттях
10. Инфляция и ценообразование
11. 1677 разработал монистическое учение о мире
12. Редонт и ортопласт 2
13. Периферическая нервная система. Черепно-мозговые нервы животных.html
14. H very funny Eunice wnts some building work done nd guess who hs to orgnise it NNIE Builder Brbie Hey Not for you for the prty
15. на тему Субъекты права и субъекты правоотношений Одесса 2012 СОДЕ
16. Лабораторная работа 4 Выполнил Лузин М
17. человеко ~ машинное взаимодействие
18. Курсовая работа- Риски залогового обеспечения
19. Формирование имиджа руководителя
20. а третьей группы из малообеспеченных семей; студентыучастники боевых действий; студенческие семьи г