Forth http://fforum.winglion.ru/ |
|
*поиск частых последовательностей слов http://fforum.winglion.ru/viewtopic.php?f=19&t=2138 |
Страница 2 из 2 |
Автор: | Kopa [ Пн июн 15, 2009 09:52 ] |
Заголовок сообщения: | |
Возможные перспективы развития/применения решения данной задачи:) [url=http://www.visti.net/~dwl/art/dz/] ГЛУБИННЫЙ АНАЛИЗ ТЕКСТОВ ТЕХНОЛОГИЯ ЭФФЕКТИВНОГО АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ [/url] |
Автор: | VshMt [ Пн июн 15, 2009 13:15 ] |
Заголовок сообщения: | |
mOleg можно спросить в этой ветке? Слушайте garbler я весь моск сломал:) В Перле я ни бумбум. Я так вас понял BWT это алгоритм составления словаря по частоте и наибольшей длине повторения? Что в BWT является числом повторений конкретного блока? |
Автор: | Гость [ Пн июн 15, 2009 15:35 ] |
Заголовок сообщения: | |
VshMt писал(а): Я так вас понял BWT это алгоритм составления словаря по частоте и наибольшей длине повторения? Что в BWT является числом повторений конкретного блока?
Google: BWT алгоритм и читаем хоть начиная с википедии:) |
Автор: | mOleg [ Пн июн 15, 2009 19:04 ] |
Заголовок сообщения: | |
кстати, наблюдение за работой позволяет сделать вывод, что просто поиск одинаковых последовательностей для анализа кода практически бесполезен. Необходимо как минимум, не включать в статистику более короткие последовательности, если они являются составной частью длинных, во-вторых, искать не точные последовательности, а похожие последовательности, то есть похоже на уже бывшую тут задачу поиск похожих имен слов Вот. |
Автор: | вопрос [ Пн июн 15, 2009 20:27 ] |
Заголовок сообщения: | |
Цитата: кстати, наблюдение за работой позволяет сделать вывод, что просто поиск одинаковых последовательностей для анализа кода практически бесполезен. Необходимо как минимум, не включать в статистику более короткие последовательности, если они являются составной частью длинных, во-вторых, искать не точные последовательности, а похожие последовательности, то есть похоже на уже бывшую тут задачу поиск похожих имен слов Вот. НУ. есть такая штука как макроподстановщик - он как мне представляется именно этим и занят, только на самом низком уровне.
|
Автор: | VshMt [ Пн июн 15, 2009 20:58 ] |
Заголовок сообщения: | |
Anonymous писал(а): Google: BWT алгоритм и читаем хоть начиная с википедии:) Не ну точно все такие вумные как вутки... Wiki писал(а): Краткое описание, решаемые задачи Преобразует повторяющиеся подстроки во входном тексте в идущие подряд последовательности одинаковых символов в выходном. Пожалей старика разжуй... А то я че то никак не вкурю... |
Автор: | garbler [ Вт июн 16, 2009 11:15 ] |
Заголовок сообщения: | |
mOleg писал(а): кстати, наблюдение за работой позволяет сделать вывод, что просто поиск одинаковых последовательностей для анализа кода практически бесполезен анализ кода производится в разных целях, если стоит задача - понять систему, то, разумеется, вещи аналогичные Imagix 4D будут более приемлемыми. если стоит задача - отладить оптимизатор, то инструментарий будет другим. если стоит задача - определить степень заимствований или лицензионную чистоту - третьим. mOleg писал(а): Необходимо как минимум, не включать в статистику более короткие последовательности, если они являются составной частью длинных требуемые данные извлекаются из уже имеющегося отчёта, пример:
16 Вася пошёл mOleg писал(а): искать не точные последовательности, а похожие последовательности
достаточно переписать функцию сравнения в сортировщике (например, выдавать метрику Левенштейна для двух строк) |
Автор: | Kopa [ Вт июн 16, 2009 14:04 ] |
Заголовок сообщения: | |
Код: Анализ строк
String Search Graham A. Stephen October 1992 Анализ строк |
Автор: | mrack [ Чт июн 18, 2009 00:16 ] |
Заголовок сообщения: | |
Ы:) модное масковское слово "тупо" происходит от древнего абхазского обычия "ловить горных тигров сачком". (с) КВН ну вот примерно как ловля тигров сачком выгллядят конкурсы по решению задач на форз форуме |
Автор: | WingLion [ Чт июн 18, 2009 04:20 ] |
Заголовок сообщения: | |
оффтопик... представьте свой личный тигроловный флот, сэр, а потом и делайте подобные заявления, но только не в подобных темах. |
Автор: | VshMt [ Чт июн 18, 2009 11:49 ] |
Заголовок сообщения: | |
Млин Ктонить внятно объяснит? А то то что в примерах BWT как-то неблизко к моему пониманию топика.... А понять хотца... Несмотря на то что я программер-пенсионер Зато растет подрастающее поколение, может в свое время ему объясню... |
Страница 2 из 2 | Часовой пояс: UTC + 3 часа [ Летнее время ] |
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/ |