huge
47 заметок
терапия
Сейчас этот блог в основном про психотерапию.
как правильно
Слушайте меня, я вас научу правильно жить.
психология
Буржуазная лже-наука, пытающаяся выявить закономерности в людях.
практика
Случаи и выводы из психотерапевтической практики.
кино
Фильмы и сериалы.
книги
Это как кино, но только на бумаге.
nutshells
«В двух словах», обо всем.
дорогой дневник
Записи из жизни (скорее всего, не интересные).
беллетристика
Мои литературные произведения и идеи.
духовный рост
Когда физический рост кончается, начинается этот.
дивинация
Как предсказывать будущее.
половой вопрос
Про секс и сексуальность.
заяижопа
Творческий дуэт с моей женой.
магия
«Магическое — другое название психического».
Карл Юнг
игровой дизайн
Раньше я делал игры.
игры
Компьютерные игры.
язык
Слова там всякие.
людишки
Уменьшительно-ласкательно и с любовью.
культ личности
Про великих людей (то есть, в основном про меня).
hwyd
Уникальная Система Прививания Привычек.
буклет
я
идеи
блоги
spectator.ru
дети
wow
вебдев
музыка
контент
программирование
религия
дейтинг
диалоги
яндекс
кулинария
coub
fitness
символы
йога
шаманизм
tiny
ребенок

Частота букв в русском языке

22 года назад в категориях язык текст

Написал забавный php-скрипт. Погонял через него все тексты на «Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов — определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом «Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%


Тем, кто поедет на «Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая «привычная» буква «б» употребляется реже, чем «редкая» буква «ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните: «**а**и*е» и «ср*вн*т*». И в том и в другом случае — это слово «сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу — о том и пою. А смысл?.. Как часто вы в нормальной жизни говорите слово «карандаш»? Если задача — научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке «случайных» четырехбуквенных слов выскочило «осел». В следующей полсотне — слова «мчим» и «нато». Но, увы, очень много неблагозвучных комбинаций, таких, как «блтт» или «нрро».

Поэтому — следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на «нормальные». Например: «коивдиот», «воабма», «апый», «депоид», «дебяко», «орфа», «поеснавы», «озза», «ченя», «риторя», «урдеед», «утоичи», «стых», «сапоть», «гравда», «абабап», «обарто», «еелует», «лярезы», «мыни», «бромомер» и даже «тодебыст».

Куда применить... есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа, «мемолисо» или «уторорерто». Или — генератор футуристических стихов «Бурлюк-php»: «опелдиий миатон, линоаз окмиая... деесопен одесон».

И есть еще один вариант. Надо попробовать...

Некоторые статистические данные об использовании русских слов:

Отсюда.

После заметки мне пришло вот такое письмо:


Здравствуйте, Дмитрий !

Проанализировав статью «Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для «Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта — определение порядка букв при программировании кнопок для мобильных устройств. Да, да — именно в мобильниках и нужно все это.

Я распределил это по волнам (см. рисунок)

Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

1. Л. Н. Толстой. «Анна Каренина» (лучше конечно «Войну и мир», но я не нашел на www.lib.ru) -http://www.lib.ru/LITRA/TOLSTOJ/anna_kar.txt
2. Ф. М. Достоевский. «Игрок» — www.lib.ru/LITRA/DOSTOEWSKIJ/igrok.txt
3. Леонид Филатов. «Про Федота Стрельца» — www.lib.ru/ANEKDOTY/fedot.txt
4. Вильям Шекспир. Сонеты (перевод С. Я. Маршака) www.lib.ru/SHAKESPEARE/sonets.txt
5. Б. И А.Стругацкие. Пикник на обочине. www.lib.ru/STRUGACKIE/picnic.txt

А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

Заранее большое спасибо.

Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая — служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые «популярные» слова: «и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

Возвращаясь к клавиатурам — очевидно, что в клавиатуре буквосочетания «не», «что», «он», «на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые «удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

Насчет же мобильных устройств... Наверное, it makes sense. По крайней мере, буквы «о», «а», «е» и «и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления : , . - ? ! " ; : ) (

Запятая употребляется в 2 раза чаще, чем точка. А точка на стандартной русской клавиатуре расположена удобней...

Статистика по приведенным выше текстам:

По уникальным словам:

о — 9.36%
а — 8.40%
е — 8.08%
и — 6.91%
н — 6.12%
с — 5.67%
т — 5.49%
р — 5.30%
л — 5.00%
в — 4.67%
п — 3.38%
у — 3.17%
к — 3.14%
м — 2.97%
д — 2.72%
я — 2.50%
ь — 2.08%
ы — 2.06%
з — 1.85%
б — 1.61%
г — 1.47%
ш — 1.32%
ч — 1.22%
й — 1.21%
ж — 1.01%
ю — 0.99%
х — 0.97%
щ — 0.48%
ц — 0.37%
ф — 0.20%
э — 0.06%
ъ — 0.05%


По текстам в целом:

о — 11.35%
е — 8.93%
а — 8.23%
н — 6.71%
и — 6.48%
т — 6.17%
с — 5.22%
л — 4.95%
в — 4.47%
р — 4.17%
к — 3.35%
д — 2.97%
м — 2.93%
у — 2.86%
п — 2.39%
я — 2.17%
ь — 2.09%
ы — 1.90%
г — 1.811%
б — 1.77%
ч — 1.67%
з — 1.65%
ж — 1.14%
й — 1.09%
ш — 0.89%
х — 0.79%
ю — 0.66%
э — 0.33%
ц — 0.29%
щ — 0.29%
ф — 0.10%
ъ — 0.02%

0

Спектатор создавался не для денег

22 года назад в категории spectator.ru

На Runet.ru тема дня — «Авторские проекты». Взяли со мной интервью, в котором меня называют «довольно известной личностью», а «Спектатор» — одним из самых известных авторских проектов. Перепечатаю его здесь. Мои комментарии — после интервью.

Дмитрий Смирнов: «Спектатор создавался не для денег»

Успех авторских проектов Рунета не всегда легко объясним. Некоторые из них, по словам создателей, вовсе не рассчитывали на всенародное признание.

Спектатор.Ру основан в январе 1999 года. С тех пор его создатель, Дмитрий Смирнов, уже успел защитить диплом на тему интернет-журналистики и стать довольно известной личностью в Рунете.

Но вот четко сказать о том, с какой целью создавался один из самых известных сегодня авторских проектов в Рунете, Дмитрий затрудняется и по сей день.

— Дмитрий, расскажите кратко о себе. 

— Я умный и красивый. Закончил журфак НГУ. Защитил диплом на тему «Авторские проекты как пример адекватной реализации свойств интернета (на материале истории российской интернет-журналистики 1995-2002 годов)».

Сейчас учусь на менеджера. В Сети позиционирую себя как специалиста по авторскому контенту и контенту вообще. В реальной жизни интересы гораздо шире.

— Откуда появилось название Спектатор.Ру? 

— Загадка: что общего между spectator’ом и rambler’ом? Отгадка: так назывались журналы, выходившие в Лондоне в 18 веке.

«Spectator» вообще-то довольно «классическое» название. Издавали его в 1711-14 годах в Лондоне два веселых мужика панковского вида  — Джозеф Эддисон и Ричард Стил. Формат — ежедневный листок с небольшим эссе на почти произвольную, но общественно значимую тему.

Когда надо было придумывать название, я просто взял название «Spectator» как первое, что подвернулось под руку. Подробнее я об этом писал тут.

— Расскажите историю существования проекта. 

— Короткая история проекта. 27 января 1999 года я сел писать и пишу до сих пор. Старые заметки читаю с содроганием. Всего на сайте 335 заметок общим объемом в 2.5 мегабайт.

— Дайте определение Спектатор.Ру как сетевому проекту. 

— Официально это называется «Pesonal Playground». Персональная игровая площадка. На нем я обкатываю технологии, набираюсь опыта и наигрываюсь по самое «не хочу». То, что это кому-то, кроме меня, нравится — побочный, но приятный эффект.

— В чем секрет успеха проекта?

— Я бы не стал называть это «успех». Скорей уж, «феноменальный успех» (Шучу). Секрет «успеха» — в контенте. «Раскруткой» я перестал заниматься очень давно. Однако более 200 человек в день ежедневно приходят только с поисковых машин. Контент раскручивает сам себя. Или, например, после публикации на сайте одного рассказа был просто бешеный всплеск активности: читатели просто передавали этот рассказ друг другу по цепочке со словами «почитай, прикольно». Если поискать в «Яндексе», то найдется порядка 40 перепечаток этого рассказа, я уже не говорю про простые ссылки.

Контент раскручивает сам себя. Никаких баннеров на Spectator.Ru вы не увидите.

— Почему людям интересно читать личное мнение одного человека? 

— Спросите у них. А если серьезно, то людям интересно не просто «личное мнение одного человека». Мнение само по себе ничего не значит — зайдите на тот же ЖЖ, там этих мнений — миллион. И что?

Интересно не просто личное мнение. Мне, например, совершенно не интересно, что думает Вася Пупкин про 11 сентября. А вам? Но вот если Вася Пупкин сообщит какую-то новую для вас информацию, так еще и с авторским комментарием — тогда совсем другое дело. А просто авторское мнение по известному всем вопросу никому не интересно. Ну, если только человек не является экспертом в данном вопросе.

— Является ли «Спектатор» жалобной книгой одного человека? 

— Бывало раньше и такое. Давно стараюсь отходить от этой порочной практики, чужие жалобы людям не интересны. Да и зачем жаловаться?.. В конце концов, для этого, опять же, есть ЖЖ.

— Выработался ли определенный стиль написания текстов в «Спектатор», отличающийся от вашей стилистики в других случаях? 

— Официальное требование о повышении зарплаты я, конечно, буду совсем по-другому писать. То есть — да, конечно, определенный стиль выработался. Глупо было бы думать, что я умею писать только так. А я ведь еще и так умею, и этак.

— Кого вы видите своей аудиторией? 

— Думающих людей, находящихся в Сети так долго, что они успели устать от анекдотов, порнографии и развлекательных сайтов. Хотя одно другому не мешает.

— Что попадает под определение авторский проект? — Процитирую самого себя:

«Авторский проект — это посещаемый сайт (или домашняя страница), полностью создаваемый и поддерживаемый усилиями одного человека, где с некоторой периодичностью появляются результаты его журналистского творчества». По крайней мере, так я написал у себя в дипломе.

— Насколько важную роль в работе над проектом играет Ваше образование? 

— Очень важную. Мне все время тычут: «Дмитрий! Вы же журналист! Как вам не стыдно!». Никак мне не стыдно. А в остальном — нет, не играет это никакой роли.

— Приносит ли Спектатор.Ру деньги его автору? 

— Что деньги? Тлен. Бессмертия не купишь.

И почему все спрашивают одно и то же? «Спектатор» создавался не для денег. Я ведь не спрашиваю вас: «А сколько вам приносит денег ваша любимая сиамская кошка?».

Есть тысячи способов заработать больше и быстрее, чем взваливая на себя добровольный геморрой по ведению авторского проекта.

— Никогда не было мыслей закрыть проект по какой-то причине? 

— Пару раз пытался — когда не было свободного времени на написание новых материалов. Но рано или поздно свободное время находилось. И приходилось продолжать.

— Вы любите славу? 

— Ощущать я начинаю славу только тогда, когда разгребаю почту за два дня. Опять же — что подразумевается под «слава»? На улицах меня, слава богу, еще в лицо не узнают. В Сети часто склоняют и так и этак. Дизайн и идеи воруют регулярно — это тоже слава? Винят часто в снобизме, дескать, «зазнался, с простыми парнями, как мы, говорить не хочет». А я все время пытаюсь объяснить, что их (вас) много, а я — один и не казенный. Отвечать на все письма и все сообщения в аське я просто не могу. Отвечаю только на то, что (на мой взгляд) этого заслуживает.

— Можете ли предположить, каким будет будущее проекта? 

— Могу предположить. Но боюсь. На самом деле, планов наполеоновских на будущее нет. Деньги зарабатывать, как я уже и говорил, нужно по-другому, и глупо превращать объект для удовольствия во что-то мега-супер. Буду писать, пока пишется.

0
Мой «Курс реабилитации людей с техническим образованием».

Diploma I: написание диплома

Как и всякий относительно полноценный человек, я на определенном этапе своего жизненного пути должен был пройти очередной обряд инициации, заключающийся сначала в искусной имитации научной деятельности, сопровождающейся публичными заявлениями «Я никто, и ничего у меня никак!», а затем в попытках убедить некое количество людей, что полученный в результате продукт все-таки имеет прямое отношение к умственной деятельности. (еще 1018 слов)

Что такое дизайн

Начать, думаю, следует с определения, что же такое «дизайн». Обратимся, как говорится, «к первоисточнику». Англо-русский словарь дает такое определение: design
1. существительное
1) замысел, план
2) намерение, цель
3) замысел (тайно вынашиваемый план); мн. умысел, интрига (on, against)
4) чертеж, эскиз, набросок; рисунок, узор
5) модель, шаблон; лежащая в основе схема; композиция
6) дизайн
2. (еще 1457 слов)

Я сегодня трахну Лену

Посвящается К.Е. «Я сегодня трахну Лену!», — было моей первой мыслью, когда будильник откусил и выплюнул начало дня. Середину дня. Вчера засиделись с друзьями. Впрочем, «утро — это то, когда ты проснулся». Я. Сегодня. Трахну. Лену. Перекатываюсь на пол, пятьдесят отжиманий. Надо быть в форме, ведь я сегодня — да, да. (еще 693 слова)

96

Имена не изменены. Все параллели с реальной жизнь предумышлены и проведены специально. Вы навряд ли знаете этих людей — даже если вам и кажется, что вы их знаете. Срок давности давно истек. Происшедшее стало легендой. Случись это сейчас, мы бы нашли кучу разных способов испортить все это совсем по-другому. (еще 2502 слова)

Бойцовский клуб (книга)

Мне в руки, наконец-то попал романа Чака Паланика «Бойцовский клуб» в переводе Кормильцева. Просматривая роман в оригинале, было сразу понятно, что его довольно-таки сложно перевести: он весь написан короткими фразами. Короткими, но не рублеными, а вполне «полноценными», но очень простыми: «Mix the nitro with sawdust, and you have a nice plastic explosive. (еще 1021 слово)

Первое правило

Ты знаешь, у них это действительно получилось. Первое правило. Они действительно это сделали. Они действительно осуществили это. Первое правило «Бойцовского клуба» — не говорить о «Бойцовском клубе». Ни одного «Оскара» (только одна номинация — за лучшие спецэффекты) и других наград (опять же — несколько несмелых номинаций, но никаких наград), отсутствие шумного коммерческого успеха, непопадание (надолго) в хит-парады и никакого «Бойцовского клуба-2». (еще 995 слов)

Журналистика

Ты (вы?) пишешь о том, что журналиста невозможно «готовить», что он должен «готовиться» сам (слово готовить не твое, я его неоднократно слышал от преподов и мне оно чрезвычайно нравится, типа как горох об стену у Наутилуса). Так вот, как _настоящего_ журналиста, хочу тебя спросить: собственно, что должен знать человек, именующий себя журналистом, желательно с ссылками на источники (или источник). (еще 1389 слов)

So-called friends

Шла сегодня домой, у овощной палатки такая сценка была. Стоит женщина, ждет, продавщица ей долго чего-то там набирает. Двое ребят подходят, говорят: «а вы берете или так стоите?» Она как взвилась: «А вы что думаете, я  просто так стою? Думаете, я тут на лимоны любуюсь?!» Мне вообще мысль понравилась — типа медитация такая. (еще 698 слов)

Diploma

Diploma. 5 октября. Так как теперь мой диплом — это своего рода pain in the ass, буду время о времени писать о нем, главным образом — жаловаться на жизнь. Помечать это все буду словом «Diploma», дабы потом простым поиском можно было составить из этих кусочков единую картину агонии. Сегодня ходил к Куксановой. (еще 1453 слова)

Catch-22

Народ жалуется, что я про книги мало пишу. Ну ладно. Во-первых, вот тут для поклонников Дугласа Адамса лежит весьма забавный текст. Во-вторых — «Поправка-22». Джозеф Хеллер. Вообще, в оригинале книга называется «Catch-22». В одном переводе — «Уловка-22», в том, что читал я — «Поправка-22». (еще 941 слово)