- Мой собственный список частот слов
- Извлечение слов из Википедии
- Некоторые выбранные слова и связанные с ними цифры:
Доменные имена являются одним из наиболее ценных активов для каждого mISV (и каждого онлайн-бизнеса). Домен должен представлять много информации в ограниченном количестве символов. Это должно быть SEO-дружественным (описательным), легко запоминающимся и легко написанным. Я проделал большую работу, чтобы найти хорошие (и не зарегистрированные) доменные имена для моих продуктов.
Во многих местах написано, что хорошие ключевые слова в доменном имени помогают вашим клиентам лучше понять, что делает ваш продукт, и они особенно полезны для целей SEO (поисковая оптимизация). Бесчисленные статьи предлагают взглянуть на количество запросов в Google по популярности слов перед регистрацией домена (а также по количеству результатов поиска). Итак, мне нужен был список слов с указанием того, насколько они важны. Точнее, мне нужен был список фраз, а не отдельных слов, но эта статья касается только одного слова. Я использую этот список слов с комбинацией Внешнее ключевое слово Google инструмент и Google Trends охотиться за идеальным доменным именем.
Компьютерная лингвистика конкретно касается вопроса о том, как часто данные слова появляются в разных письменных контекстах (или известны как тело ). Список частот это список слов (на данном языке) и соответствующей частоты в данных текстах. Это как словарь с дополнительным ×. Важность ×. число.
Мы все думаем о словарях как о некотором фиксированном списке слов, но это больше похоже на список слов, которые постоянно появляются и другие, которые исчезают из списка, и каждое слово имеет ранг в нем.
И есть степенные законы (или длинные хвосты, как некоторые предпочитают называть это). Небольшое количество слов привлекают все внимание (они используются чаще всего), а большое количество слов используются редко ( длинный хвост ключевые слова).
Есть некоторые хорошо известные списки частот слов:
Мой собственный список частот слов
Я решил создать свой собственный список слов и связанных частот на основе всех статей, которые есть в английской версии Википедии.
Википедия огромна. Только английская часть составляет 21 ГБ в формате XML. Для анализа всего файла и извлечения статистики по всем токенам, похожим на слово, требуется 5 часов.
Немного статистики:
- Всего токенов (слов, без цифр): 1 570 455 731
- Уникальные токены (слова, без цифр): 5 800 280
Кажется, что распределение частот слов следует Закон Zipf × .s и вы даже можете увидеть похожий на следующий сюжет Вот ,
Диаграмму можно разделить на четыре части:
- Rank (1-50) Count (86M-3M) Примеры (,, и, в, к, а, есть) Слова, которые являются стоп слова ,
- Rank (51-3K) Count (2,4M-56K) Примеры (университет, январь, чай, острый) Слова образуют × .core ×. английского словаря ×. слова, которые наиболее часто используются.
- Rank (3K-200K) Count (56K-118) Примеры (исполнители, многогранность, неолигизм) Слова, которые можно найти в некоторых крупных и всеобъемлющих словарях (выше ранга 50K в основном Длинный хвост слова)
- Rank (200K-5.8M) Count (117-1) Примеры (euprosthenops, eurotrochilus, lokottaravada) Термины из неясных ниш, слов с ошибками, транслитерации слова из других языков, новые слова и ×. совсем не слова ×.
Исследование Google показывает, что существует 14 миллионов слов и 315 миллионов слов (биграммы). В настоящее время я не планирую извлекать фразы из двух слов из-за их большого количества, но интересно проанализировать их в контексте доменных имен из двух слов.
Извлечение слов из Википедии
Процесс извлечения всех слов и подсчета их - задача не из легких. Я использовал библиотеку Qt XML для разбора. Шаги для создания собственного списка частоты слов:
- Загрузите копию Википедии. Я использовал версию выгружается в формате XML ,
- Напишите синтаксический анализатор для извлечения текста из тегов <title> и <text>.
- Википедия использует свой собственный язык разметки. Напишите парсер, чтобы извлечь все данные из языка разметки и отфильтровать некоторые ненужные части. (это сложная и расплывчатая часть)
- Отфильтруйте числа, специальные символы.
- токенизировать ,
- Соберите полезную статистику.
Хорошей новостью является то, что Википедия гораздо более чистая и организованная, чем остальная часть Интернета. Моими основными трудностями было разобрать язык разметки Википедии (он не является строгим в некоторых частях) и управлять памятью (ограничено 2 ГБ и утечками памяти в какой-то момент). В Linux вы можете использовать Valgrind проверить на утечки и другие проблемы с памятью.
× .Собрать статистику ×. часть можно сделать разными способами. Я использовал свою собственную реализацию троичное поисковое дерево , Это быстро и эффективно память для подсчета слов. Он также реализует некоторую фильтрацию строк, которые можно найти в Википедии, такие как исключительно длинные строки (например, URL-адреса) и другие шумы.
Некоторые выбранные слова и связанные с ними цифры:
- Google 197920
- Twitter 894
- домен 111850
- Доменер 22
- Википедия 3226237
- Вики 176827
- Обама 22941
- Опра 3885
- Moniker 4974
- GoDaddy 228
Когда вы смотрите на показатели, опубликованные в Интернете, имейте в виду, что это касается только относительных показателей. Относительный счет = (количество слов / общее количество слов) имеет значение вероятности появления данного слова в данном корпусе.
Бесплатный сервис для поиска доступных доменных имен