Пятница, 22.09.2017, 12:46
Главная Регистрация RSS
Приветствую Вас, Гость
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Страница 1 из 11
Форум » Основной » Проблемные ситуации » 4.25 Ухудшился поиск дублей (Поиск дублей и замена значений)
4.25 Ухудшился поиск дублей
tommyx274Дата: Пятница, 01.09.2017, 12:47 | Сообщение # 1
Рядовой
Группа: Проверенные
Сообщений: 7
Репутация: 6
Статус: Оффлайн
Добрый день. Очень активно пользуемся этой обработкой. Речь именно об нечетком поиске - у нас очень большой справочник и много дублирующихся элементов (опечатки и т.п.). К сожалению, не понимаю как в нашем случае привести пример.
Стали жаловаться что стал заметно хуже искать дубли, причем это произошло ровно с версии 4.21 - в описании указано - что заменен движок поиска в этой версии. Может быть есть возможность вернуть и старый вариант? Ползунок в настройках особо не решает проблемы. Впечатление, что он ищет "иначе", и это иначе хуже, чем то, что было раньше.




Сообщение отредактировал tommyx274 - Пятница, 01.09.2017, 12:49
 
tormozitДата: Пятница, 01.09.2017, 23:23 | Сообщение # 2
Генералиссимус
Группа: Администраторы
Сообщений: 1579
Репутация: 17
Статус: Оффлайн
Чтобы вернуть старый вариант нестрого сравнения, мне нужна веская причина, а точнее более понятное обоснование того, что старый вариант был лучше. Пока я этого не вижу.
Новый нестрогое сравнение (внешняя компонента) заимствовано из БСП и намного быстрее старого и работает без регистрации внешней компоненты. Это - существенные преимущества.
 
tommyx274Дата: Вторник, 05.09.2017, 17:25 | Сообщение # 3
Рядовой
Группа: Проверенные
Сообщений: 7
Репутация: 6
Статус: Оффлайн
Спасибо за ответ. Все понятно, логично. И наглядно продемонстрировать я действительно не смогу. Просто мне на потоке поисков показывают как ищет новая и в целом получается что хуже старой. Чтобы это показать нужна эта база, но сделать пример - я просто не представляю как.

Можно получить старую версию этой обработки или полностью набор инструментов 4_20 ? У меня не сохранилась. И на сайте нет.
 
tormozitДата: Вторник, 05.09.2017, 21:24 | Сообщение # 4
Генералиссимус
Группа: Администраторы
Сообщений: 1579
Репутация: 17
Статус: Оффлайн
http://www74.zippyshare.com/v/zmCOT8yU/file.html - 4.18p
Суть демо примера сводится к выгрузке наименований с учетом отбора из какого то справочника с табличный документ или таблицу значений. На том же наборе показать (выводом в табличный документ через консоль компоновки) несколько примеров какие группы находит старый алгоритм и новый.
 
tommyx274Дата: Четверг, 07.09.2017, 10:55 | Сообщение # 5
Рядовой
Группа: Проверенные
Сообщений: 7
Репутация: 6
Статус: Оффлайн
Прилагаю вариант старой и новой обработки. Да, новая работает в 2,5 раза быстрее, но результат можно видеть в файле.

Описание
Вводные: в базе большой справочник физлиц - много людей с опечатками и т.п. - ищем дубли по наименованию и дате рождения.

В примере - поиск двух версий обработки: в новом можно видеть найденную пару дублей - из общего одно отчество. Плюс в этом примере нет (такую ситуацию сложно подобрать), но я видел ситуацию, когда заведомо похожие ФИО с разницей в одну первую букву новый вариант похожими не считает вообще, после этого я ставлю отбор по части фамилии, чтобы проверить эту ситуацию и не меняю настроек похожести - и теперь обработка находит эту фамилию.

Новый вариант работает быстро, но явно потерял в качестве результата. Выдает гораздо больше дублей, чем старый, большинство из них - неправильные. Ползунком можно попробовать в новом установить другую чувствительность - тогда он находит меньше, но качество остается таким же.

В старом варианте - видим, что найдены действительно похожие позиции.

Никак не могу присоединить никакие файлы - вот ссылка. https://drive.google.com/open?id=0B37BHo74tJLpcXpycGR2d3oxeW8

Добавлено (07.09.2017, 10:55)
---------------------------------------------
Вот еще вариант образовался:
Что в новой обработке делает третья фамилия - она никак не похожа. Зато потерялся явно похожий вариант, который нашла старая обработка.

https://drive.google.com/open?id=0B37BHo74tJLpVWxGVkJoSHZvdTQ
https://drive.google.com/open?id=0B37BHo74tJLpQjFzRXZZZjUtYms


Сообщение отредактировал tommyx274 - Четверг, 07.09.2017, 11:34
 
tormozitДата: Четверг, 07.09.2017, 20:45 | Сообщение # 6
Генералиссимус
Группа: Администраторы
Сообщений: 1579
Репутация: 17
Статус: Оффлайн
Да, из описания видны явно не подходящие элементы в группах. Возможно есть ошибка в моем коде (тогда я ее исправлю).
 
tormozitДата: Четверг, 07.09.2017, 20:50 | Сообщение # 7
Генералиссимус
Группа: Администраторы
Сообщений: 1579
Репутация: 17
Статус: Оффлайн
Еще сильнее мне бы облегчило задачу, если бы я получил наименования из продемонстрированных групп в виде приложенного табличного документа.
 
tommyx274Дата: Пятница, 08.09.2017, 12:01 | Сообщение # 8
Рядовой
Группа: Проверенные
Сообщений: 7
Репутация: 6
Статус: Оффлайн
Скопировать эти данные уже неоткуда, их исправили. Я вручную собрал табличку с фамилиями, чтобы вы не набирали.

https://drive.google.com/open?id=0B37BHo74tJLpRVlYYkxodXlnVkU
 
tormozitДата: Суббота, 09.09.2017, 21:38 | Сообщение # 9
Генералиссимус
Группа: Администраторы
Сообщений: 1579
Репутация: 17
Статус: Оффлайн
Проблема некорректной работы нового нечеткого поиска кроется в новой внешней компоненте. Здесь написал разработчику. Думаю исправят нескоро.
Сделаю обход проблемы за счет некоторого замедления.
 
tormozitДата: Понедельник, 11.09.2017, 00:22 | Сообщение # 10
Генералиссимус
Группа: Администраторы
Сообщений: 1579
Репутация: 17
Статус: Оффлайн
Исправлено в 4.26
 
tormozitДата: Четверг, Вчера, 07:30 | Сообщение # 11
Генералиссимус
Группа: Администраторы
Сообщений: 1579
Репутация: 17
Статус: Оффлайн
Помогло?
 
Форум » Основной » Проблемные ситуации » 4.25 Ухудшился поиск дублей (Поиск дублей и замена значений)
Страница 1 из 11
Поиск: