Original size 2480x3500

Пацанские цитаты

PROTECT STATUS: not protected
big
Original size 1728x688

Я была в поисках интересного датасета, и случайно нашла Russian «gang» quotes. В нем собрано 846 пацанских цитатат из разных сайтов. Я решила, что просто будет прикольно поработать с этими данными. Что же тут исследовать?

Я задалась этим вопросом и стала думать, почему вообще существует такое явление в культуре. Что отличает этот тип цитат от других? Как сконструированы эти выражения на языковом уровне и почему они вызывают смех?

big
Original size 4347x563

Настоящая работа заканчивается тогда, когда начинается подготовка

big
Original size 4347x3392

Работу я начала с исследования визуальной части. Большая часть цитат графически исполнялись в виде так называемых демотиваторов и других вариаций компановки чб фото с подписью на черном или белом фоне. Самым частым шрифтом оказался Impact, поэтому он и был выбран для заголовков. Поскольку шрифт графически не очень актуален и плохо воспринимается в мелком наборе, в пару ему был взять PT Sans. Цветовая гамма была взята также из графических изображений цитат.

Для работы я установила и использовала дотаточно много библиотек: Pandas, Matplot, pymystem3 и др.

Для визуализации данных я выбрала следующие типы графиков: столбчатая диаграмма, круговая диаграмма, облако слов, точечная диаграмма и таблицы. Они оказались наиболее наглядными для моих задач.

Original size 4347x563

Без этапов работа не идёт, но если идёт — значит, она волк

Original size 1232x578

Анализ я начала с того, что почистила текст: убрала лишние символы, привела всё к одному регистру и разбила на слова. Потом сделала лемматизацию — чтобы привести слова к их базовой форме — и посчитала, какие слова и как часто повторяются. Это нужно было для того, чтобы определить, какой лексикой чаще всего пользуются авторы цитат. 100 самых частых лексем отобразила облаком слов.

0
0

После выявления самых частых слов, я поняла, что некоторые слова связаны общий темой и решила посмотреть, какие темы звучат чаще всего в пацанских цитатах. Для этого на основе лемм я вручную составила словари для каждой темы из часто встречающихся слов. Одна и то же цитата могла попасть в разные темы. Наиболее частыми оказались цитаты про жизнь, потому что тема сама по себе большая и охватывала больше лемм, чем другие. Были также цитаты, которые по тем или иным причинам не попали ни в одну из групп. Я решила их тоже отразить.

Original size 1385x685
0
Original size 4347x563

Пацаны говорят спокойно. Потому что когда за словом — дело, не надо громких вступлений

Original size 1728x615

Итак, теперь уже есть представление о том, какими словами и о чем говорят пацанские цитаты. Теперь нужно понять, как они разговаривают. Для этого я проанализировала цитаты по знакам пунктуации и составила диаграмму самыми частыми эмоциями в цитатах. Оказалось, что изречения чаще всего спокойный и утвердительные. Мне кажется, в этом кроется секрет их потешности.

Original size 1185x685
0

Еще, как мне казалось, секрет постиронии пацанских цитат кроется в частых повторах слов. Я решила это проверить и посмотреть, как часто в рамках одной цитаты повторяются леммы и какова доля изречений с повторами среди всего датасета. Я была удивлена, что процент оказался небольшим. Возможно, были погрешности в лемматизации, и некоторые леммы записывались не совсем корректно.

Original size 4347x563

Пацан не устает от повторов. Повторы — это бетон под ногами, по которому он идёт сквозь дымку бытия

Original size 3234x1552
Original size 4347x2519
0

Несмотря на относительно небольшой процент повторов, я все же захотела посмотреть на распределение повторов в цитатах. Для этого я сопоставила данные о повторах в каждой цитате и общем количестве лемм в каждой цитате. На графике видно, что в большинстве цитат с повторами леммы повторяются от 1 до 3 раз. Я выбрала точечный график, потому что на нем видны и выбросы — цитаты, содержащие большое количество повторов. На графике также можно оценить и длину цитат, прикинуть примерную долю повторов от всех лемм в 1 цитате.

Original size 4347x2519
0

В конце я сделала анализ N-грамм и посмотрела пары и тройки лемм, которые стоят рядом чаще всего. Это позволяет определить, какие последовательности слов встречаются наиболее часто в тексте, и выявить устойчивые фразы, идиомы или характерные обороты.

Выявление простых N-грамм дает увидеть связки слов, обусловленные грамматически. А N-граммы-коллокации позволяют увидеть смысловые, устойчивые словосочетания. Я вывела в таблицах по 10 самых распространенных биграмм и триграмм.

0
0
0
Original size 4347x563

Вывод — это не конец. Это начало того, что ты теперь знаешь

Анализ дал понять, чем живут «реальные пацаны», увидеть, что цитаты чаще всего затрагивают такие темы как «Жизнь», «Братство», «Понятия» и «Отношения». Также исследование позволяет выявить лексические, грамматические особенности построения таких цитат и их тональность. В целом, на основе проанализируемого, можно обучить модель для генерации таких цитат.

Для работы с кодом я использовала Gimini, для генерации цитат-заголовков chatGPT, для картинок — Midjourney, прикрепляла референсы в виде фотографий с демотиваторов.

Пацанские цитаты
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more