Википедия список частот слов

Мой собственный список частот слов
Извлечение слов из Википедии
Некоторые выбранные слова и связанные с ними цифры:

Доменные имена являются одним из наиболее ценных активов для каждого mISV (и каждого онлайн-бизнеса). Домен должен представлять много информации в ограниченном количестве символов. Это должно быть SEO-дружественным (описательным), легко запоминающимся и легко написанным. Я проделал большую работу, чтобы найти хорошие (и не зарегистрированные) доменные имена для моих продуктов.

Во многих местах написано, что хорошие ключевые слова в доменном имени помогают вашим клиентам лучше понять, что делает ваш продукт, и они особенно полезны для целей SEO (поисковая оптимизация). Бесчисленные статьи предлагают взглянуть на количество запросов в Google по популярности слов перед регистрацией домена (а также по количеству результатов поиска). Итак, мне нужен был список слов с указанием того, насколько они важны. Точнее, мне нужен был список фраз, а не отдельных слов, но эта статья касается только одного слова. Я использую этот список слов с комбинацией Внешнее ключевое слово Google инструмент и Google Trends охотиться за идеальным доменным именем.

Компьютерная лингвистика конкретно касается вопроса о том, как часто данные слова появляются в разных письменных контекстах (или известны как тело ). Список частот это список слов (на данном языке) и соответствующей частоты в данных текстах. Это как словарь с дополнительным ×. Важность ×. число.

Мы все думаем о словарях как о некотором фиксированном списке слов, но это больше похоже на список слов, которые постоянно появляются и другие, которые исчезают из списка, и каждое слово имеет ранг в нем.

И есть степенные законы (или длинные хвосты, как некоторые предпочитают называть это). Небольшое количество слов привлекают все внимание (они используются чаще всего), а большое количество слов используются редко ( длинный хвост ключевые слова).

Есть некоторые хорошо известные списки частот слов:

Мой собственный список частот слов

Я решил создать свой собственный список слов и связанных частот на основе всех статей, которые есть в английской версии Википедии.

Википедия огромна. Только английская часть составляет 21 ГБ в формате XML. Для анализа всего файла и извлечения статистики по всем токенам, похожим на слово, требуется 5 часов.

Немного статистики:

Всего токенов (слов, без цифр): 1 570 455 731
Уникальные токены (слова, без цифр): 5 800 280

Кажется, что распределение частот слов следует Закон Zipf × .s и вы даже можете увидеть похожий на следующий сюжет Вот ,

Диаграмму можно разделить на четыре части:

Rank (1-50) Count (86M-3M) Примеры (,, и, в, к, а, есть) Слова, которые являются стоп слова ,
Rank (51-3K) Count (2,4M-56K) Примеры (университет, январь, чай, острый) Слова образуют × .core ×. английского словаря ×. слова, которые наиболее часто используются.
Rank (3K-200K) Count (56K-118) Примеры (исполнители, многогранность, неолигизм) Слова, которые можно найти в некоторых крупных и всеобъемлющих словарях (выше ранга 50K в основном Длинный хвост слова)
Rank (200K-5.8M) Count (117-1) Примеры (euprosthenops, eurotrochilus, lokottaravada) Термины из неясных ниш, слов с ошибками, транслитерации слова из других языков, новые слова и ×. совсем не слова ×.

Исследование Google показывает, что существует 14 миллионов слов и 315 миллионов слов (биграммы). В настоящее время я не планирую извлекать фразы из двух слов из-за их большого количества, но интересно проанализировать их в контексте доменных имен из двух слов.

Извлечение слов из Википедии

Процесс извлечения всех слов и подсчета их - задача не из легких. Я использовал библиотеку Qt XML для разбора. Шаги для создания собственного списка частоты слов:

Загрузите копию Википедии. Я использовал версию выгружается в формате XML ,
Напишите синтаксический анализатор для извлечения текста из тегов <title> и <text>.
Википедия использует свой собственный язык разметки. Напишите парсер, чтобы извлечь все данные из языка разметки и отфильтровать некоторые ненужные части. (это сложная и расплывчатая часть)
Отфильтруйте числа, специальные символы.
токенизировать ,
Соберите полезную статистику.

Хорошей новостью является то, что Википедия гораздо более чистая и организованная, чем остальная часть Интернета. Моими основными трудностями было разобрать язык разметки Википедии (он не является строгим в некоторых частях) и управлять памятью (ограничено 2 ГБ и утечками памяти в какой-то момент). В Linux вы можете использовать Valgrind проверить на утечки и другие проблемы с памятью.

× .Собрать статистику ×. часть можно сделать разными способами. Я использовал свою собственную реализацию троичное поисковое дерево , Это быстро и эффективно память для подсчета слов. Он также реализует некоторую фильтрацию строк, которые можно найти в Википедии, такие как исключительно длинные строки (например, URL-адреса) и другие шумы.

Некоторые выбранные слова и связанные с ними цифры:

Google 197920
Twitter 894
домен 111850
Доменер 22
Википедия 3226237
Вики 176827
Обама 22941
Опра 3885
Moniker 4974
GoDaddy 228

Когда вы смотрите на показатели, опубликованные в Интернете, имейте в виду, что это касается только относительных показателей. Относительный счет = (количество слов / общее количество слов) имеет значение вероятности появления данного слова в данном корпусе.

Относительный счет = (количество слов / общее количество слов) имеет значение вероятности появления данного слова в данном корпусе

Бесплатный сервис для поиска доступных доменных имен