Перейти к основному содержанию
Реклама
Прямой эфир
Экономика
В 2025-м связью смогут обеспечить всего 250 из 10 тыс. нуждающихся в ней сел
Армия
Минобороны сообщило об уничтожении за ночь 23 дронов ВСУ над регионами России
Мир
Китай пообещал ответить на введение пошлин со стороны США
Общество
Пациенты указали на нехватку препаратов от рассеянного склероза
Мир
Тайвань второй раз в этом году зафиксировал приближение почти 60 самолетов ВВС КНР
Интернет и технологии
Консоль нового поколения Nintendo Switch 2 получит поддержку русского языка
Мир
Почти 80 жителей Газы погибли за день в результате бомбардировок Израиля
Общество
Синоптики спрогнозировали до +13 градусов без осадков в Москве 3 апреля
Мир
Китайский экономист назвал ввод тарифов Трампа попыткой вернуть производство в США
Общество
В Россию в 2024-м приехало в 1,5 раза больше квалифицированных иностранцев
Мир
США пригрозили Ирану исчезновением еще до сентября при отказе от ядерной сделки
Армия
Военнослужащие ВС РФ провели разведку в Суджанском районе
Общество
Посольство РФ поздравило узников концлагерей из Латвии с юбилеем Великой Победы
Общество
В МВД предупредили о схеме обмана россиян под предлогом работы в массовке
Происшествия
Внешняя стена многоквартирного дома обрушилась в Кемеровской области
Спорт
Овечкин рассказал о поддержке от Гретцки в погоне за его рекордом в НХЛ
Экономика
Доход столичных самозанятых превысил 1,6 трлн рублей

Какие наши буквы: ученые узнают возраст по постам в соцсетях

В Курчатовском институте разработали методику определения демографических характеристик авторов текстов в интернете
0
Фото: Depositphotos
Озвучить текст
Выделить главное
Вкл
Выкл

Интеллектуальную компьютерную модель для анализа текстов, публикуемых в социальных сетях, создали в Курчатовском институте. Изучение написанного таким способом позволяет достаточно точно определить истинный возраст автора, даже если он пытается его скрыть. Эта работа является частью широкого спектра исследований, ведущихся в Курчатовском комплексе НБИКС-природоподобных технологий. Ранее ученые уже разработали механизм определения пола автора текста. Теперь они научились определять и возраст. На очереди — другие составляющие авторского профиля — такие как образование и профессия.

Строгий профиль

В мировой науке сейчас активно развивается междисциплинарное направление под названием authorship profiling, «автороведение». Его представители — специалисты по анализу данных, лингвисты, психологи — пытаются с той или иной мерой достоверности вычислить индивидуально-личностные характеристики автора текста. Для этого ученые строят математические модели на основе корреляций между численными значениями различных параметров текста и характеристик автора. Создать подобные модели позволяет машинный анализ огромного массива текстов из интернета, снабженных открытыми авторскими профилями. Однако для русскоязычных текстов это научное направление только начинает создаваться.

— Наша задача — это разработка методики диагностирования возраста участника интернет-коммуникации на основе анализа количественных параметров его текстов, — пояснил ведущий научный сотрудник Курчатовского комплекса НБИКС-природоподобных технологий Александр Сбоев. — Эти исследования идут в рамках гранта Российского научного фонда.

Разработки ученых в рамках проекта позволят с высокой степенью достоверности определить демографические характеристики пишущего, если он задумает подделать свою письменную речь, чтобы скрыть истинный возраст.

— Процесс развития интернет-коммуникаций неизбежно сопровождается увеличением уровня киберпреступности, — отметил начальник группы нейроморфных алгоритмов Курчатовского комплекса НБИКС-природоподобных технологий Роман Рыбка. — Интернет в качестве средства для поиска новых жертв и установления контакта с ними используют и мошенники, и люди с расстройствами психики, и вербовщики из террористических организаций. 

Естественно, киберпреступники не заинтересованы в распространении данных, которые бы помогли их идентифицировать, поэтому в своих персональных профилях и переписке они искажают сведения о себе, поэтому очень важным ключом к информации о них становится анализ текстов.

На сколько выглядишь

В Курчатовском институте был разработан и проанализирован широкий круг математических моделей, построенных на множестве комбинаций признаков и использующих различные варианты обучения. Созданные в результате алгоритмы позволяют с точностью около 80% определить возрастную группу автора, который пытается выглядеть старше или моложе своих лет.

— Решение задачи определения возраста автора текста становится всё более актуальным с ростом трафика текстовых сообщений в социальных сетях и на форумах, — считает Александр Сбоев. — Системы на основе таких методов смогут решить многие проблемы социального мониторинга, проводить анализ активности различных возрастных групп граждан по остросоциальным темам в Сети.

Полученные учеными результаты послужат основой работы над более фундаментальной проблемой — оценкой вероятности возникновения различных социально опасных событий, например, терактов.

ЖЖ в «лаборатории»

Исследования в Курчатовском комплексе НБИКС-природоподобных технологий ведутся совместно с лингвистами Воронежского государственного педагогического университета. Заведующая университетской лабораторией теоретической и прикладной идиолектологии Татьяна Литвинова рассказала «Известиям», что базовым лингвистическим материалом для исследования послужил корпус блогов «Живого журнала».

— Этот ресурс был выбран нами потому, что посты в ЖЖ, как правило, имеют больший объем в сравнении с другими электронными жанрами — такими, как твиты или посты в Facebook, — а также из-за того, что в ЖЖ пишут люди всех возможных возрастов, от школьников до пенсионеров.

Для составления корпуса текстов ученые отбирали тех авторов, которые указывали свой возраст в профиле. Конечно, кто-то из них может и исказить свой возраст, но мировые стандарты исследований в области диагностирования личности автора текста, по словам Татьяны Литвиновой, исходят из того, что подавляющее большинство авторов указывает свой возраст в профиле все-таки верно.

Разработанные в ходе проведенных исследований методы и инструменты применимы также и в системах анализа профиля автора текста при судебно-лингвистической экспертизе или формировании портрета автора анонимных писем. Они могут использоваться в качестве системы определения намеренного искажения данных в социальных профилях пользователей или дополнительного инструмента при формировании психологического профиля автора. По мнению Александра Сбоева, предлагаемые подходы могут найти применение и в системах таргетированной рекламы — для более точного определения возрастных групп пользователей.

 

Читайте также
Прямой эфир