15.08.2018 ИТ-рынок, Искусственный интеллект, ИТ-бизнесСпециалисты в области стилометрии (исследование стилистики, включающее статистический анализ) хорошо знают, что письмо — это уникальный процесс. Словарный запас, синтаксис и грамматика создают индивидуальный почерк, позволяя определить автора текста. Существуют даже автоматизированные системы, способные идентифицировать человека, написавшего сообщение в Интернете. А недавнее исследование показало, что стилометрию можно применить и к искусственным языкам, например языкам программирования. Исследователи Рэйчел Гринстадт из Дрексельского университета и Айлин Калискан из Университета Джорджа Вашингтона рассказали на конференции DefCon, что код, как и другие формы стилистического выражения, не является анонимным и его можно распознать. Ученые использовали машинное обучение для выявления авторов образцов кода. Для тестирования алгоритма использовалась база исходных кодов с ежегодного конкурса Google Code Jam. В ней присутствуют фрагменты, наиболее сильно отличающие программистов друг от друга. Это позволяет уменьшить количество претендентов с сотен тысяч до десятков человек. Изучив работы 100 программистов, искусственный интеллект распознал 96% авторов, используя по восемь примеров кода от каждого разработчика. В случае с исходниками 600 участников конкурса точность распознавания составила 83%. Ученые считают, что результаты их работы могут быть использованы для выявления случаев недобросовестного заимствования кода. Например, преподаватели технических вузов получат возможность ...
читать далее.