Forth
http://fforum.winglion.ru/

*поиск частых последовательностей слов
http://fforum.winglion.ru/viewtopic.php?f=19&t=2138
Страница 2 из 2

Автор:  Kopa [ Пн июн 15, 2009 09:52 ]
Заголовок сообщения: 

Возможные перспективы развития/применения решения данной задачи:)

[url=http://www.visti.net/~dwl/art/dz/] ГЛУБИННЫЙ АНАЛИЗ ТЕКСТОВ
ТЕХНОЛОГИЯ ЭФФЕКТИВНОГО АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ
[/url]

Автор:  VshMt [ Пн июн 15, 2009 13:15 ]
Заголовок сообщения: 

mOleg можно спросить в этой ветке?

Слушайте garbler я весь моск сломал:) В Перле я ни бумбум. Я так вас понял BWT это алгоритм составления словаря по частоте и наибольшей длине повторения? Что в BWT является числом повторений конкретного блока?

Автор:  Гость [ Пн июн 15, 2009 15:35 ]
Заголовок сообщения: 

VshMt писал(а):
Я так вас понял BWT это алгоритм составления словаря по частоте и наибольшей длине повторения? Что в BWT является числом повторений конкретного блока?


Google: BWT алгоритм
и читаем хоть начиная с википедии:)

Автор:  mOleg [ Пн июн 15, 2009 19:04 ]
Заголовок сообщения: 

кстати, наблюдение за работой позволяет сделать вывод, что просто поиск одинаковых последовательностей для анализа кода практически бесполезен. Необходимо как минимум, не включать в статистику более короткие последовательности, если они являются составной частью длинных, во-вторых, искать не точные последовательности, а похожие последовательности, то есть похоже на уже бывшую тут задачу поиск похожих имен слов Вот.

Автор:  вопрос [ Пн июн 15, 2009 20:27 ]
Заголовок сообщения: 

Цитата:
кстати, наблюдение за работой позволяет сделать вывод, что просто поиск одинаковых последовательностей для анализа кода практически бесполезен. Необходимо как минимум, не включать в статистику более короткие последовательности, если они являются составной частью длинных, во-вторых, искать не точные последовательности, а похожие последовательности, то есть похоже на уже бывшую тут задачу поиск похожих имен слов Вот.
НУ. есть такая штука как макроподстановщик - он как мне представляется именно этим и занят, только на самом низком уровне.

Автор:  VshMt [ Пн июн 15, 2009 20:58 ]
Заголовок сообщения: 

Anonymous писал(а):
Google: BWT алгоритм
и читаем хоть начиная с википедии:)


Не ну точно все такие вумные как вутки...

Wiki писал(а):

Краткое описание, решаемые задачи
Преобразует повторяющиеся подстроки во входном тексте в идущие подряд последовательности одинаковых символов в выходном.


Пожалей старика ;) разжуй... А то я че то никак не вкурю...

Автор:  garbler [ Вт июн 16, 2009 11:15 ]
Заголовок сообщения: 

mOleg писал(а):
кстати, наблюдение за работой позволяет сделать вывод, что просто поиск одинаковых последовательностей для анализа кода практически бесполезен

анализ кода производится в разных целях, если стоит задача - понять систему, то, разумеется, вещи аналогичные Imagix 4D будут более приемлемыми. если стоит задача - отладить оптимизатор, то инструментарий будет другим. если стоит задача - определить степень заимствований или лицензионную чистоту - третьим.

mOleg писал(а):
Необходимо как минимум, не включать в статистику более короткие последовательности, если они являются составной частью длинных

требуемые данные извлекаются из уже имеющегося отчёта, пример:
    15 Вася пошёл гулять
    16 Вася пошёл
ясно, что короткая последовательность сама по себе встречается только 1 раз

mOleg писал(а):
искать не точные последовательности, а похожие последовательности

достаточно переписать функцию сравнения в сортировщике (например, выдавать метрику Левенштейна для двух строк)

Автор:  Kopa [ Вт июн 16, 2009 14:04 ]
Заголовок сообщения: 

Код:
Анализ строк
String Search
Graham A. Stephen
October 1992


Анализ строк

Автор:  mrack [ Чт июн 18, 2009 00:16 ]
Заголовок сообщения: 

Ы:)
модное масковское слово "тупо" происходит от древнего абхазского обычия "ловить горных тигров сачком". (с) КВН
ну вот примерно как ловля тигров сачком выгллядят конкурсы по решению задач на форз форуме :)

Автор:  WingLion [ Чт июн 18, 2009 04:20 ]
Заголовок сообщения: 

оффтопик... представьте свой личный тигроловный флот, сэр,
а потом и делайте подобные заявления, но только не в подобных темах.

Автор:  VshMt [ Чт июн 18, 2009 11:49 ]
Заголовок сообщения: 

Млин :evil: Ктонить внятно объяснит? А то то что в примерах BWT как-то неблизко к моему пониманию топика.... А понять хотца... Несмотря на то что я программер-пенсионер :lol: Зато растет подрастающее поколение, может в свое время ему объясню...

Страница 2 из 2 Часовой пояс: UTC + 3 часа [ Летнее время ]
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/