В.В. Бойков, Н.А. Жукова

Тверской  институт экономики и менеджмента

 

Статистические характеристики текста романа

Л.Н. Толстого «Война и мир»

 

Роману «Война и мир», занимающему в художественном наследии Л.Н. Толстого центральное место, посвящено бесчисленное множество статей и монографий, в которых это произведение подробно рассмотрено в самых разных аспектах.

В данной работе изложены результаты определения основных статистических характеристик текста этого произведения. В табл. 1 приведены общие данные о файле (формат WORD 2000) с текстом романа. 

                                                                           

Таблица 1

Мегабайт

Страниц

Слов

Знаков (без пробелов)

6,14

748

478458

2521613

 

Результаты подсчета числа русских, французских и немецких слов, которые содержаться в романе, за вычетом слов сносок, приведены в табл. 2.

 

                                                                   Таблица 2

Язык

Русский

Французский

Немецкий

Число слов

437699

15040

682

 

Выделив в отдельный файл только русский текст, подсчитывали частоту, с которой встречаются в тексте слова той или иной длины. Результаты в виде полигона частот распределения длины слов показаны на рис. 1. Обращает на себя внимание большая доля слов, имеющих длину 6 и менее букв. Таких слов в тексте романа почти 70 процентов. Характерной особенностью полигона является относительный минимум при длине слова 4 буквенных знака. Слова, состоящие из 14 и более букв встречаются в тексте очень редко. Самое длинное слова состоит из 24 букв. Это специфический термин – обращение той эпохи: «высокопревосходительство».

 

Рис. 1 Полигон распределения длины слов

 

Анализ, подобный изложенному, для французских и немецких слов не проводился, так как они составляют незначительную часть текста романа (менее 3 процентов).

На рис. 2 показан полигон распределения длины предложений по числу входящих в них букв, а на рис. 3 – по числу входящих в предложения слов.

 

Рис. 2 График распределения длин предложений (букв)

 

Рис. 3 График распределения длины предложений (слов)

 

При подсчетах числа предложений той или иной длины ни французские, ни немецкие слова не исключались, в тех случаях когда они входят в состав предложений, состоящих преимущественно из русских слов.

Общее число предложений в романе составляет 31566, включая предложения целиком состоящие из французских или немецких слов.

Результаты статистической обработки выборок слов и предложений приведены в табл. 3, в которой приняты следующие обозначения: xср – среднее значение, D – дисперсия, E – эксцесс, A – асимметрия.

                                                                       Таблица 3

 

xср

D

E

A

Длина слова (букв)

5,11

8,78

-0,17

0,56

Длина предложения (букв)

69,1

2760

1,1

0,74

Длина предложения (слов)

13,6

103

1,1

1,17

 

Частотный словарь романа содержит 48033 русскоязычных словоформы, распределение которых по числу вхождений  приведено в табл. 4.

                                                                         

Таблица 4

Число вхождений

>100

11 - 100

3 -10

2 - 3

1

Число словоформ

509

3772

7147

11308

25207

 

Как следует из приведенных в табл. 4 данных, более 75 процентов словоформ имеют вхождение 1-3 раза.

В табл. 5 приведены 40 наиболее часто встречающихся в тексте романа слов, которые в основном являются местоимениями и предлогами.

Слова, имеющие 1000 и более вхождений, применены в тексте романа 136772 раза (почти третья часть всех слов), а имеющие более 200 вхождений – 219142 раза (около половины всех слов романа).

 

Таблица 5

и

21391

к

3465

с

1901

бы

1507

в

11101

я

3105

из

1886

Пьер

1400

не

8734

но

2775

а

1858

князь

1353

что

8351

она

2746

все

1858

для

1324

он

7473

это

3564

же

1819

у

1288

на

6790

было

2519

от

1773

еще

1157

с

5945

так

2028

ему

1765

когда

1145

как

4134

сказал

3023

ее

1696

вы

1097

его

3956

по

1968

только

1620

чтобы

998

то

3724

за

1950

был

1583

они

981

 

(0,17 п.л.)