Данные COCA 2020 (новинка)
Этот сайт содержит, пожалуй, наиболее точные данные по частоте употребления слов в английском языке. Данные основаны на миллиардном словарном запасе Corpus of Contemporary American English (COCA) - единственном корпусе английского языка, который является большим, современным и сбалансированным между многими жанрами.
Приобретая данные, вы получаете доступ к четырем различным наборам данных, и вы можете использовать те из них, которые являются наиболее полезными для вас. Ниже приведены краткие примеры для каждого из этих наборов данных, и вы также можете увидеть гораздо более полные примеры.
Спойлер: Состав
1) Самые основные данные показывают частоту каждого из верхних 60 000 слов (лемм) в каждом из восьми основных жанров корпуса. В отличие от данных о частоте слов, которые основаны только на веб-страницах, данные COCA позволяют увидеть частоту по всем жанрам, чтобы узнать, является ли слово более неформальным (например, блоги или субтитры к телевидению и фильмам) или более формальным (например, академическим). Ниже приведены лишь несколько записей слов на разных уровнях частоты (ранг), 1-60 000.
2) Другой набор данных показывает частоту не только в восьми основных жанрах, но и почти в 100 "поджанрах" (Журнал-Спорт, Газета-Финансы, Академическое-Медицинское, Web-Reviews, Блоги-Личные, или ТВ-комедии и т.д.).
3) Третий набор данных показывает частоту словосочетаний в топ-формах 60 000 лемм:
4) Окончательный набор данных показывает 219 000 лучших слов (не лемм) в миллиардном словарном корпусе - каждое слово, которое встречается не менее 20 раз и в 5 различных текстах. А для каждого слова он показывает, в каких жанрах он наиболее распространен (опять же, чтобы показать +/- формальное), и какие проценты являются заглавными (полезно для определения +/- правильного существительного).
Насколько эти данные новее? Происходит изменение языка. Если список слов основан на текстах 15-20-летней давности (или, что гораздо хуже, на 100-летних романах, являющихся общественным достоянием), то в нем будет отсутствовать много слов из современного языка. COCA основана на текстах 1990-2019 годов (28 миллионов слов каждый год, плюс блоги и другие веб-страницы с 2012-13 годов).
Информация:
Цена:
(к сожалению действует временный запрет на покупки нового списка из России и Китая)
Этот сайт содержит, пожалуй, наиболее точные данные по частоте употребления слов в английском языке. Данные основаны на миллиардном словарном запасе Corpus of Contemporary American English (COCA) - единственном корпусе английского языка, который является большим, современным и сбалансированным между многими жанрами.
Приобретая данные, вы получаете доступ к четырем различным наборам данных, и вы можете использовать те из них, которые являются наиболее полезными для вас. Ниже приведены краткие примеры для каждого из этих наборов данных, и вы также можете увидеть гораздо более полные примеры.
Спойлер: Состав
1) Самые основные данные показывают частоту каждого из верхних 60 000 слов (лемм) в каждом из восьми основных жанров корпуса. В отличие от данных о частоте слов, которые основаны только на веб-страницах, данные COCA позволяют увидеть частоту по всем жанрам, чтобы узнать, является ли слово более неформальным (например, блоги или субтитры к телевидению и фильмам) или более формальным (например, академическим). Ниже приведены лишь несколько записей слов на разных уровнях частоты (ранг), 1-60 000.
2) Другой набор данных показывает частоту не только в восьми основных жанрах, но и почти в 100 "поджанрах" (Журнал-Спорт, Газета-Финансы, Академическое-Медицинское, Web-Reviews, Блоги-Личные, или ТВ-комедии и т.д.).
3) Третий набор данных показывает частоту словосочетаний в топ-формах 60 000 лемм:
4) Окончательный набор данных показывает 219 000 лучших слов (не лемм) в миллиардном словарном корпусе - каждое слово, которое встречается не менее 20 раз и в 5 различных текстах. А для каждого слова он показывает, в каких жанрах он наиболее распространен (опять же, чтобы показать +/- формальное), и какие проценты являются заглавными (полезно для определения +/- правильного существительного).
Насколько эти данные новее? Происходит изменение языка. Если список слов основан на текстах 15-20-летней давности (или, что гораздо хуже, на 100-летних романах, являющихся общественным достоянием), то в нем будет отсутствовать много слов из современного языка. COCA основана на текстах 1990-2019 годов (28 миллионов слов каждый год, плюс блоги и другие веб-страницы с 2012-13 годов).
Информация:
Цена:
(к сожалению действует временный запрет на покупки нового списка из России и Китая)
Для просмотра содержимого вам необходимо авторизоваться
Для просмотра содержимого вам необходимо авторизоваться