arXiv:2507.03005v2 Тип объявления: замена-кросс Аннотация: Вычислительная филогенетика стала устоявшимся инструментом в исторической лингвистике, и многие языковые семьи теперь анализируются с использованием вывода на основе вероятности. Однако стандартные подходы основаны на экспертно аннотированных наборах родственных слов, которые являются разреженными, трудоемкими в создании и ограничены отдельными языковыми семьями. В этой статье рассматриваются альтернативы путем сравнения устоявшегося метода с двумя полностью автоматизированными методами, которые извлекают филогенетический сигнал непосредственно из лексических данных. Один использует автоматическую кластеризацию родственных слов с униграммными/концептуальными признаками; другой применяет множественное выравнивание последовательностей (MSA), полученное из парно-скрытой марковской модели. Оба метода оцениваются на основе экспертных классификаций из Glottolog и типологических данных из Grambank. Также сравниваются внутренние сильные стороны филогенетического сигнала в символах. Результаты показывают, что вывод на основе множественного выравнивания последовательностей (MSA) дает деревья, более соответствующие лингвистическим классификациям, лучше предсказывает типологические различия и обеспечивает более четкий филогенетический сигнал, что позволяет рассматривать его как многообещающую, масштабируемую альтернативу традиционным методам, основанным на родственных словах. Это открывает новые возможности для построения филогений языков глобального масштаба, выходящие за рамки проблем, связанных с экспертной аннотацией.
Источник: arxiv.org
























