Posted 28 октября 2016,, 11:00

Published 28 октября 2016,, 11:00

Modified 12 ноября 2022,, 08:12

Updated 12 ноября 2022,, 08:12

Нейросеть научилась писать твиты за Рамзана Кадырова

28 октября 2016, 11:00
Нейросеть научилась писать твиты за Рамзана Кадырова

Пользователь соцсети «ВКонтакте» Mik Ketov создал нейронную сеть, которая генерирует твиты в стиле Рамзана Кадырова.

По словам автора, на создание нейросети его вдохновил проект DeepDrumpf. Это система машинного обучения, которая генерирует твиты на основе стенограмм дебатов кандидата в президенты США Дональда Трампа. Кадыров был выбран из российских политиков из-за большого количества выступлений и постов в социальных сетях, которые дают обширный материал для обучения нейросети.

Для создания системы генерации текста автор российской версии пользовался тем же алгоритмом char-rnn, что и создатели DeepDrumpf. Char-rnn это многослойная реккурентная нейросеть, созданная сотрудником Стенфордского университета Андрем Карпати.

Упрощенно можно сказать, что сhar-rnn работает как генератор текста, в котором каждый последующий символ предсказывается на основании множества предыдущих — они подаются на вход нейросети.

При этом то, как именно нейросеть интерпретирует входную информацию (и какой текст она в результате генерирует), зависит от того, на чем она обучалась. Как и с другими нейросетями, обучение на тренировочной выборке определяет весовые коэффициенты между нейронами, и именно это обеспечивает характерный «стиль» для генерируемого текста.

Таким образом можно научить нейросеть создавать тексты в стиле Толстого, писать статьи похожие на статьи Википедии, генерировать код ядра Линукса и так далее.

В данном случае в роли тренировочной выборки выступил массив текстов Кадырова, автоматически извлеченный из его настоящего блога.

«Рамзан Ахматович не менее одиозен, чем Трамп и производит много увлекательного контента, но, кстати, — и это проблема, — весьма однообразного», — объясняет Mik Ketov.

В силу этого нейросеть преимущественно упоминает Аллаха, отца и брата Кадырова, а также многочисленные мечети.

В нейросети, созданной Mik Ketov, можно варьировать количество скрытых слоев и количество предыдущих символов, которые подаются на вход нейросети (от 20 до 140). Как и в системе DeepDrumpf, в русскоязычной версии для твитов используется далеко не весь генерируемый нейросетью текст — значительную его часть приходится выкидывать с помощью ручного отбора.

Дополнительной сложностью по сравнению с англоязычной версией является необходимость согласовывать род и падежи в предложениях (из-за ограниченной глубины символов нейросеть порой просто не видит начала предложения), сообщает news.mail.

"