Скоро Word frequency data 60,000 [wordfrequency.info]

Moderator
29 Мар 2020
271,747
1,081,880
113
#1
Данные COCA 2020 (новинка)

Этот сайт содержит, пожалуй, наиболее точные данные по частоте употребления слов в английском языке. Данные основаны на миллиардном словарном запасе Corpus of Contemporary American English (COCA) - единственном корпусе английского языка, который является большим, современным и сбалансированным между многими жанрами.

Приобретая данные, вы получаете доступ к четырем различным наборам данных, и вы можете использовать те из них, которые являются наиболее полезными для вас. Ниже приведены краткие примеры для каждого из этих наборов данных, и вы также можете увидеть гораздо более полные примеры.

Спойлер: Состав
1) Самые основные данные показывают частоту каждого из верхних 60 000 слов (лемм) в каждом из восьми основных жанров корпуса. В отличие от данных о частоте слов, которые основаны только на веб-страницах, данные COCA позволяют увидеть частоту по всем жанрам, чтобы узнать, является ли слово более неформальным (например, блоги или субтитры к телевидению и фильмам) или более формальным (например, академическим). Ниже приведены лишь несколько записей слов на разных уровнях частоты (ранг), 1-60 000.

2) Другой набор данных показывает частоту не только в восьми основных жанрах, но и почти в 100 "поджанрах" (Журнал-Спорт, Газета-Финансы, Академическое-Медицинское, Web-Reviews, Блоги-Личные, или ТВ-комедии и т.д.).

3) Третий набор данных показывает частоту словосочетаний в топ-формах 60 000 лемм:

4) Окончательный набор данных показывает 219 000 лучших слов (не лемм) в миллиардном словарном корпусе - каждое слово, которое встречается не менее 20 раз и в 5 различных текстах. А для каждого слова он показывает, в каких жанрах он наиболее распространен (опять же, чтобы показать +/- формальное), и какие проценты являются заглавными (полезно для определения +/- правильного существительного).

Насколько эти данные новее? Происходит изменение языка. Если список слов основан на текстах 15-20-летней давности (или, что гораздо хуже, на 100-летних романах, являющихся общественным достоянием), то в нем будет отсутствовать много слов из современного языка. COCA основана на текстах 1990-2019 годов (28 миллионов слов каждый год, плюс блоги и другие веб-страницы с 2012-13 годов).

Информация:

Цена:

(к сожалению действует временный запрет на покупки нового списка из России и Китая)


Для просмотра содержимого вам необходимо авторизоваться

Для просмотра содержимого вам необходимо авторизоваться