IMHO.WS

IMHO.WS (http://www.imho.ws/index.php)
-   Обсуждение программ (http://www.imho.ws/forumdisplay.php?f=3)
-   -   отсеивание дубликатов из двух текстовых файлов, но... (http://www.imho.ws/showthread.php?t=139001)

traktorist 02.04.2009 00:46

отсеивание дубликатов из двух текстовых файлов, но...
 
Ищется программа!

Есть два текстовых файла, содержащих в себе по несколько десятков тысяч строк

Нужна программа, которая может "проглотить" оба файла, затем отсеять из второго файла такие же строки которые есть в первом и в результате получить очищенный от дублей второй файл (или можно вывести в новый/третий файл)...

Спасибо

pazdak 02.04.2009 13:04

traktorist
Если честно, то ответа на Ваш вопрос не знаю, но задача примитивная, поэтому сам бы сделал так -

А что мешает написать самостоятельно скрипт, например на VBScript, который:
1) имеет примитивный HTA интерфейс, с тремя кнопками
2) Первая Кнопка. Берет первый файл и загоняет его в SQL таблицу (при этом сначала очистив ее)
3) Вторая Кнопка. Берет второй файл и построчно сравнивает с данными из таблицы, и если строка не найдена, то вносит ее в третий файл.
4) Третья кнопка. Просто небольшой отчет-статистика, сколько и что отсеялось из второго файла (на основе шага сравнения строк с таблицей, фильтруем по полю [int] вхождения)

На первый взгляд кажется ужасть как кропотливо (время которое никогда не бывает лишним), да если еще никогда не занимался программированием, но повторюсь, сделав однажды (главное начать), потом ...

Cartman 07.04.2009 20:03

traktorist, правила читаем? Поднятие темы у нас не приветствуется.
Тем не менее могу нечто подобное нарисовать на двиге 1С77. Если устроит - пиши в приват. Желательно с более детальным описанием задачи.

Merlin Cori 07.04.2009 21:16

traktorist, склеивем 2 файла в один, потом берем Text Dublicate Killer, прогоняем на нем и получаем результирующий файл, очищенный от дубликатов и отсортированный по алфавиту.

Офф сайт уже не работает, программа старенькая, 2003 года, но в сети найти не сложно.
Если не найдешь, пиши, пришлю... Сам недавно озабачивался чисткой файлов под squid

Cartman 08.04.2009 10:38

Merlin Cori, насколько я понял задача получить из второго файла только те строки, которые отсутствуют в первом. Так что это немного не то.

Merlin Cori 08.04.2009 11:19

Cartman, да, пожалуй ты прав...... это несколько не то....

Borland 08.04.2009 12:05

Чисто технически, задача реализуема даже встроенными средствами Windows... ;)
process.cmd
Код:

@echo off
for /f "tokens=" %%A in (file2.txt) do (
find "%%A" file1.txt
if ERRORLEVEL 1 echo %%A >>result.txt
)

Единственное ограничение (налагается командой echo): file2.txt не должен содержать пустых строк.
И, заметьте: если в нём самом есть дубли, не встречающиеся в file1.txt - они и в result.txt будут дублями...
P.S. А, нет, есть ещё стандартные ограничения виндовой консоли... На символы <>"& в том же file2.txt.


Часовой пояс GMT +4, время: 02:48.

Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.