Как удалить повторяющиеся строки в текстовом файле?

Как удалить повторяющиеся строки и абзацы в Word. Макросы. Поиск строк. Работа макроса в цикле. Команды управления для макросов.

Как удалить повторяющиеся строки и абзацы в Word

Как и говорил в посте Как найти и заменить текст в Ms Office Word, Open Office Writer, Libre Office, сегодня попробуем поработать с большим количеством информации. Бывает, что из массива текста нужно удалить повторяющиеся строки и абзацы. Будем оставлять самое главное и удалять лишнее в очень большом тексте в Word.

Как удалить повторяющиеся строки и абзацы Word

Текст, который мы будем «чистить»:

Итак, удаляем строки, которые выделены жирным и оставляем только нужный текст.

Обратите внимание, что длина удаляемого текста отличается. Для выделения строки независимо от количества символов нажимаем Ctrl+Shift+стрелка вниз. Под спойлером в конце поста вы увидите все команды выделения текста с помощью клавиатуры. А сейчас переводим курсор в начало текста, переходим в меню «Макросы» и включаем запись макроса.

Как записать макрос

Когда будете задавать имя макросу, не оставляйте пробелы – Word выдаст ошибку. Назначаем его для кнопки или клавиатуры. Я больше люблю работать с клавиатурой и выбрал поэтому клавиши.

Настраиваем макрос. Тут просто нажимаем любое сочетание клавиш. Если оно уже присвоено, то об этом появится информация.

Я присвоил макросу клавиатурную комбинацию Ctrl+G. Эта комбинация не используется в стандартном режиме редактирования и является свободной. Не переписывайте комбинации, которые часто используете .

вырезать выделенный контент (текст, графика, вложения)

скопировать выделенный контент

выделить всё в документе

отменить последнее действие

повторить последнее действие (обратно сочетанию Ctrl+Z)

Начнём записывать макрос. На самом деле тут ничего сложного нет, просто делайте так, как редактируете обычно текст. Используйте чаще клавиши «Home» и «End», потому что они работают быстрее и не привязаны к количеству символов.

Таким образом, при записи вам нужно последовательно нажать после включения записи макроса следующие клавиши и комбинации клавиш. Стрелкой «вниз» сместить курсор на одну строку ниже, нажатием «Ctrl+Shift+стрелка вниз» выделить строку, клавишей « Delete » удалить строку. Полная последовательность представлена ниже в таблице.

Записываем макрос

Включили запись макроса

пропускаем строку и переходим к следующей

выделяем 2 строку

выделяем 3 строку

выделяем 4 строку

п ереносим строку 5 к строке 1

переводим курсор в начало строки

Переходим в начало следующего повторяющегося блока

Выключаем запись макроса

Макрос записан, запись остановили. Кнопка остановки записи будет в том же месте, что и кнопка записи макроса.

Замечательно! Устанавливаем курсор в начальное положение. Нажимаем Ctrl+G и лишний текст просто пропадает. Быстро, легко и удобно. А что делать, если записей… 1000 или больше?

Обработка макросов в цикле

Дадим команду обработать все вложения. А сколько этих вложений? Один из способов – найдите постоянное выражение через поиск. Я нажал Ctrl + F и ввёл в строку поиска выражение «Читайте блог Lassimarket.ru». Количество вхождений Word мне не показал, но я попросил его заменить это выражение на «*». Появилось окно с надписью «Произведено замен 24».

Запомнили число и нажали Ctrl+Z – отменили замену текста на звёздочку. Теперь я знаю, что в примере у меня 24 вхождения. Это я должен нажать 24 раза сочетание Ctrl+G для того, чтобы отформатировать текст. Будем упрощать это дело.

Нажимаем Alt+ F 11. Мы попали в редактор макросов. Это большая и сложная тема, тут самый настоящий язык программирования, но у нас всё будет просто, я вас уверяю.

Вписываем как на картинке две строки в начало и слово в конце.

Dim i As Integer

For i = 0 To 23

Что это значит? Мы обозначили i — числовой переменной и присвоили значения от 0 до 23, после окончания первого цикла замены число i увеличится на 1 и макрос будет снова повторяться (Next) до тех пор, пока не достигнет конца (23).

То есть эти строки дают команду после нажатия Ctrl+G повторить макрос «Удаляем3строки» 23 раза. Вот текст моего примера макроса.

Пример макроса для удаления трёх строк

Dim i As Integer

Selection.MoveDown Unit:=wdLine, Count:=1

Selection.MoveDown Unit:=wdParagraph, Count:=1, Extend:=wdExtend

Selection.Delete Unit:=wdCharacter, Count:=1

Selection.MoveDown Unit:=wdParagraph, Count:=1, Extend:=wdExtend

Selection.Delete Unit:=wdCharacter, Count:=1

Selection.MoveDown Unit:=wdParagraph, Count:=1, Extend:=wdExtend

Selection.Delete Unit:=wdCharacter, Count:=1

Selection.MoveDown Unit:=wdLine, Count:=1

Сохраняем макрос и закрываем редактор.

Обратите внимание, что после того, как мы перенесём пятую строку к первой, текст может вылезать на другую строку и макрос будет дальше работать неправильно.

Тогда можно временно заменить регулярное выражение на любой символ или уменьшить шрифт на этапе работы макроса и тому подобное.

Вернулись в редактор, нажали Ctrl+G, и текст мигом принял новый вид. Всё получилось. За пару минут обработали довольно большой текст в автоматическом режиме.

Команды управления для макросов

Выделение текста с помощью клавиатуры.Выделение элементов в основном тексте документа

Выделяемый элемент Действие
Один знак вправо Нажмите клавиши SHIFT+СТРЕЛКА ВПРАВО
Один знак влево Нажмите клавиши SHIFT+СТРЕЛКА ВЛЕВО
Слово от начала к концу Установите курсор в начало слова и нажмите клавиши CTRL+SHIFT+СТРЕЛКА ВПРАВО.
Слово от конца к началу Установите курсор в конец слова и нажмите клавиши CTRL+SHIFT+СТРЕЛКА ВЛЕВО.
Строка от начала к концу Нажмите клавишу HOME, а затем нажмите клавиши SHIFT+END.
Строка от конца к началу Нажмите клавишу END, а затем нажмите клавиши SHIFT+HOME.
Одна строка вниз Нажмите клавишу END, а затем нажмите клавиши SHIFT+СТРЕЛКА ВНИЗ.
Одна строка вверх Нажмите клавишу HOME, а затем нажмите клавиши SHIFT+СТРЕЛКА ВВЕРХ.
Абзац от начала к концу Установите курсор в начало абзаца и нажмите клавиши CTRL+SHIFT+СТРЕЛКА ВНИЗ.
Абзац от конца к началу Установите курсор в конец абзаца и нажмите клавиши CTRL+SHIFT+СТРЕЛКА ВВЕРХ.
Документ от конца к началу Установите курсор в конец документа и нажмите клавиши CTRL+SHIFT+HOME.
Документ от начала к концу Установите курсор в начало документа и нажмите клавиши CTRL+SHIFT+END.
От начала до конца окна Установите курсор в начало окна и нажмите клавиши ALT+CTRL+SHIFT+PAGE DOWN.
Весь документ Нажмите клавиши CTRL+A.
Вертикальный блок текста Нажмите клавиши CTRL+SHIFT+F8, а затем используйте клавиши со стрелками. Для выхода из режима выделения нажмите клавишу ESC.
Ближайший знак Нажмите клавишу F8 для входа в режим выделения, а затем нажмите клавишу СТРЕЛКА ВЛЕВО или СТРЕЛКА ВПРАВО; для выхода из режима выделения нажмите клавишу ESC.
Слово, предложение, абзац или документ Нажмите клавишу F8 для входа в режим выделения, а затем нажмите клавишу F8 один раз, чтобы выделить слово, два раза, чтобы выделить предложение, три раза, чтобы выделить абзац или четыре раза, чтобы выделить документ. Для выхода из режима выделения нажмите клавишу ESC.

Выделение элементов таблицы

Выделяемый элемент Действие
Содержимое следующей ячейки Нажмите клавишу TAB.
Содержимое предыдущей ячейки Нажмите клавиши SHIFT+TAB.
Содержимое нескольких смежных ячеек При нажатой клавише SHIFT несколько раз нажмите соответствующую клавишу со стрелкой, пока не будет выделено содержимое всех нужных ячеек.
Содержимое столбца Выделите верхнюю или нижнюю ячейку столбца, нажмите клавишу SHIFT и, удерживая ее, несколько раз нажмите клавишу СТРЕЛКА ВВЕРХ или СТРЕЛКА ВНИЗ, пока не будет выделено содержимое столбца.
Содержимое таблицы целиком Щелкните в любом месте таблицы, а затем нажмите клавиши ALT+5 на цифровой клавиатуре (при выключенном индикаторе NUM LOCK).

В следующих постах расскажу ещё о простых, но важных навыках работы с офисными приложениями.

2 способа удалить дубли строк

Привет всем! Некоторые сейчас меня поймут, а некоторые нет (кто не так часто работает с текстом). Вообщем, я часто работаю с документами и у меня все-время возникает вопрос, как удалить дубликаты строк…

Читайте также  Как открыть файл Excel на Mac?

Дубли бывают везде, например для поиска одинаковых файлов, очень много программ. А, для того чтобы удалить одинаковые текстовые строки, программ мало. Да вообще их нет! Сколько не искал сейчас покажу 2 программы, через которые можно это делать. И то одна похоже самописная, от автора, у которого тоже походу кончилось терпение их искать)))

1 способ. Как в Эксель удалить дубликаты строк

Этот способ будет первый, т.к. эта программа установлена у большинства пользователей. Она входит в пакет Майкрософта Офиса. Запускаем Эксель и вставляем туда текст, который нужно отсортировать.

Далее переходим во вкладку данные.

Теперь ваш столбец с текстом должен быть выделен. Когда вы его выделите, нажимаем удалить дубликаты.

Появится окно, в котором выбираем нужный столбец. И нажимаем ОК.

Появится окошко с сообщением об удалении дубликатов.

Все, видим что дубли были удалены.

2 способ удаление дубликатов строк

На помощь придет программа, которую я увидел чисто случайно. В неё кстати реализован не только этот функционал. Возможно ей кто-то будет пользоваться и по другому назначению. Скачиваем…

Я специально, написал несколько одинаковых и дублирующихся строк.

Запускаем программу. Выбираем удалить дубликаты и кнопку выбрать и удалить дубли. Выбираем ваш файл.

Программа выдаст сообщение о том, сколько дублей получилось удалить.

После завершения, программа создаст отдельный файл с именем Dupdel

Откроем его и увидим что все дубли были удалены.

На этом все. Вот таким способом можно избавится от дублей строк.


  • Проверка smart здоровья жесткого диска

  • Лучшая программа для чтения rss лент

  • Как установить антивирус касперского на компьютер бесплатно

  • Восстановление данных с жесткого диска после форматирования

Я в восторге! Давным-давно мучаюсь вопросом Как удалить дубликаты строк. Неоднократно «забивал в поисковик», искал программы для удаления, вообще ничего нет, всё время выдавались проги для поиска дубликатов файлов-это я и сам знаю как делать. Очередной раз стал искать, и о чудо! Попал на этот сайт, попробовал обоими способами-всё получилось. Огромная Вам благодарность, Алексей.

Спасибо за простые способы решения проблемы. С этими дубликатами сколько было проблем, особенно в Word, когда всё съезжало (особенно при вставке графиков и картинок в работу). Теперь хоть долго не надо возиться

Удаление дублей строк: 3 способа быстрого решения проблемы

В своей повседневной деятельности очень часто сталкиваюсь с необходимостью быстро удалить дубли из каких-либо списков. Особенно актуальна данная процедура при работе с огромными массивами данных. Кто сталкивался с подобным, знает, что при работе со списками на несколько сот мегабайт, а то и несколько гигабайт, на первый план выходит быстродействие, ибо даже открыть такой файл на среднестатистическом компьютере (ноутбуке) бывает весьма проблематично. А посему сразу отпадают всевозможные и многочисленные онлайн сервисы, т.к. при их использовании накладываются огромные ограничения как каналом связи, так и возможностями браузера. При этом последний превращается в прожорливого до памяти монстра! Но как вы уже поняли из заголовка, выход есть и даже не единственный. Итак, поехали.

1. Удаление дублей при помощи Excel

Для того, чтобы воспользоваться данным способом, проделайте следующий ряд манипуляций:

  1. Перейдите по вкладку «Данные».
  2. Нажмите «Удалить дубликаты».
  3. На запрос выбора столбцов для удаления убедитесь, что выделены все. Если это не так, то нажмите «Выделите все»
  4. Нажмите «ОК».

Теперь осталось лишь дождаться процесса завершения работы программы и сохранить полученный результат.

Вывод: данный способ прост до безумия, однако величина списка ограничена максимальным количеством строк на листе редактора — 1 048 576 (версии 2007, 2010, 2013). Что касается скорости работы, то она очень даже высокая. Если ваш список укладывается в данный объём, то смело используйте его. Но что делать, если список больше?

2. Удаление дублей при помощи бесплатной программы Text Duplicate Killer

Для начала скачайте и установите утилиту. Скачать её можно здесь. Сразу после установки запустите её и сделайте следующее:

  1. Укажите ссылку на файл со списком
  2. Укажите выходной файл, нажав на волшебную палочку (файл сохранится в той же папке, что и основной список).
  3. Нажмите кнопку «Старт»

Дождитесь завершения работы программы и наслаждайтесь результатом.

Вывод: способ очень хорош тем, что не имеет ограничений по объёму списка, весьма стабилен, не требователен к памяти, а также тем, что позволяет работать с файлами без их предварительного открытия, что избавляет от дополнительного ожидания в самом начале в отличии от первого способа с Excel. Однако по причине того, что программа разбивает список на множество мелких подсписков, работает она со средней скоростью, которую иногда хотелось бы подувеличить 🙂

3. Удаление дублей при помощи бесплатной программы Notepad++

Чтобы воспользоваться данным способом, необходимо скачать редактор с официального сайта. Кстати, после установки выкиньте блокнот и переходите на эту программулину. Затем необходимо сделать следующее (подготовительный этап):

  1. Откройте меню «Плагины».
  2. Перейдите в подменю «Plugin Manager».
  3. Выберите пункт «Show Plugin Manager».
  4. В первой вкладке под названием «Avaliable» найдите и отметьте плагин под названием «TextFX Characters».
  5. Нажмите на кнопку «Install».

После завершения установки необходимо обязательно перезапустить программу. После этого в верхнем меню у вас отобразится новый пункт «TextFX» — это и есть тот инструмент, которым мы будем наводить марафет внутри нашего списка.

Теперь дело осталось за малым. Выделяем необходимый кусок текста, а т.к. речь идёт о списке целиком, то жмем заветную комбинацию Ctrl+A и выполняем следующую последовательность действий:

  1. Идем в меню «TextFX».
  2. Идём в подменю «TextFX Tools».
  3. Обязательно смотрим, чтобы была активна галка «+Sort outputs only UNIQUE (at column) lines».
  4. Жмем «Sort lines case sensitive (at column)».

Вот и все. Ждем окончания процесса.

Вывод: несмотря на долгий с первого взгляда ритуал подготовки к удалению, данный способ прежде всего хорош тем, что делает свою работу неимоверно быстро. Алгоритм работы программы устроен таким образом, что даже открытие файлов по несколько сот мегабайт не занимает много времени. Так, например, удаление дублей из списка объёмом 707 мегабайт у меня заняло всего лишь порядка 40 секунд (CPU i5 2.4; 4GB RAM). Это несомненный лидер из данного списка по скорости работы.

В заключении хочется отметить, что наверняка это не все варианты удаления дубликатов, однако, предложенной тройки мне в своей деятельности хватает с головой. Надеюсь и вам они составят добрую службу. А, если вы знаете способы ещё круче, велком в комментарии, обсудим.

Как удалить повторяющиеся строки

Удаление повторяющихся строк

Задача: Есть текстовый список разбитый по строкам. В списке присутствуют некоторые дубли строк. Необходимо удалить дубликаты строк из списка.

Есть Должно
получиться
строка1
строка2
строка4
строка3
строка4
строка1
строка5
строка1
строка2
строка4
строка3
строка5

Сделать операцию по удалению дублей можно несколькими способами, предварительно вставив список в программу в которой будем работать.

Удалить дубликаты в Microsoft Excel

Выделяем список (столбец) ➤ переходим во вкладку Date (Данные), нажимаем команду Remove Duplicates (Удалить дубликаты) ➤ в открывшемся диалоговом окне «Remove Duplicates» (Удалить дубликаты) снимаем флажок My data has headers (Мои данные содержат заголовки) ➤ нажимаем OK. Все повторяющиеся строки будут удалены, кроме первой (оригинала).

Читайте также  Как открыть файл ppt на айфоне?

Фильтровать дубликаты в LibreOffice

Выделяем нужные ячейки (столбец целиком) ➤ Открываем меню Date (Данные) ➤ «Ещё фильтры»«Стандартный фильтр…» ➤ В открывшемся диалоговом окне в поле «Имя поля» выбираем необходимый столбец ➤ В поле «Условие» устанавливаем знак равно «=» ➤ В поле «Значение» указываем «Не пусто» ➤ Внизу в разделе «Параметры» обязательно отмечаем флажок «Без повторений» ➤ Жмем OK. В столбце останутся только единичные экземпляры и можно их скопировать.

Обратите внимание, что номера у строк в таблице отображаются прежние.

Google-Таблицы

Google Таблицы не имеют встроенных функций удаления дублей, поэтому можно использовать установить дополнение «Remove Duplicates». Установить это расширение можно бесплатно.

После установки расширения заходим в Гугл-таблицу, выделяем столбец (строки) где нужно почистить от дублей ➤ нажимаем в меню «Дополнения»Remove Duplicates (Удалить дубликаты) ➤ Find duplicates or uniques rows (Найти дубликаты или уникальные) ➤ В открывшемся окне на 1-м шаге нажимаем «Next» ➤ во 2-ом шаге выбираем «Duplicates» и далее ➤ пропускаем 3-й шаг далее ➤ и на 4-ом шаге выбираем, что делать с найденными дублями: перенести (Move), копировать (Copy) в другое место, очистить (Clear) или удалить (Delete). Выбираем «Delete rows within selection» (Удалить выделенные строки). Всё, готово.

NotePad++

Для удаления ненужных дублей строк в NotePad++ необходимо установить плагин TextFX если не установлен.

Удаление повторяющихся строк: Переходим в документ со списком и выделяем (Ctrl+A) ➤ нажимаем в меню TextFXTextFX Tools ➤ проверяем отмечена ли функция Sort outputs only UNIQUE lines (Сортировать вывод только по УНИКАЛЬНЫМ строкам), ➤ если да, то сразу выбираем Sort lines case insensitive (Сортировка строк без учета регистра).

Удаление дублей онлайн

Для удаления повторяющихся строк (например, это может быть список ключевых слов из KeyCollector, Excel, NotePad и пр.) можно воспользоваться онлайн инструментом удаления дубликатов «Сервис удаления дублей строк».

Удаление дублей строк вместе с оригиналами

Дубликаты с оригиналом в Microsoft Excel

Данная задача выполняется чуть сложнее чем в случае выше. Суть заключается в том, что нужно выделить дубли строк другим цветом, а потом отсортировать по цвету и удалить одинаковые строки.

  1. Выделяем диапазон строк (столбец) ➤ Условное форматированиеПравила выделения ячеекПовторяющиеся значение ➤ в диалоговом окне нажимаем OK.
  2. Выделяем диапазон строк (или столбец) ➤ Сортировка и фильтр ➤ Фильтр. В первой строке появится квадратик контекстного меню.
  3. Нажимаем ЛКМ на появившийся квадратик в первой строке ➤ Фильтр по цвету ➤ фильтруем по цвету ячейки.
  4. В таблице остались только одинаковые строки, выделяем все строки ➤ правой кнопкой мыши вызываем контекстное меню в области над номерами строк ➤ Удалить строку.

Изображение ниже поможет сориентироваться в действиях.

Программа удаления строк-дублей bvsDupDelet

Программу bvsDupDelet нашел на форуме forum.antichat.ru. Она быстро удаляет дубли строк. В настройках нужно выбрать Unique, чтобы удалить повторяющиеся строки вместе с их оригиналом. В Input необходимо выбрать txt файл редактируемого списка, а в Output — папку куда будет сохранен новый документ. Скачать программу.

Удалить дубли строк вместе с их оригиналом онлайн можно в том же инструменте этого сайта.

Rus Docs Новости, интернет сервисы, описания программ, новинки железа. Биотехнологии.

Text Duplicate Killer – утилита для удаления из списка повторяющихся строк

Text Duplicate Killer – программа, предназначенная для удаления из текста повторяющихся строк (не обязательно смежных). В результате создается новый текстовый файл, в котором каждая строка встречается только один раз.

Как найти дубликаты

1. У Вас должен быть готов файл формата ASCII, содержащий текст, в котором Вы хотите удалить дублирующиеся строки. Если Вам нужно обработать текст из файлов DOC или RTF, то экспортируйте его в ASCII.

2. После запуска утилиты tdk.exe выберите пункт меню Файл|Открыть исходный файл и укажите файл, в котором необходимо удалить дубликаты.

3. Затем с помощью пункта меню Файл|Задать целевой файл укажите имя нового файла. В этот файл утилита поместит обработанный текст, который уже не будет содержать дубликатов. Вы можете автоматически создать новое имя. Для этого нажмите кнопку с “волшебной палочкой”.

4. Для запуска процесса поиска и удаления дубликатов выберите пункт меню Операции|Убрать дубликаты!. В любой момент Вы можете прервать работу, нажав на кнопку Стоп, находящуюся в правом нижнем углу. При большом объеме текста обработка может занять некоторое время.

Имя целевого файла

Имя целевого файла можно создать автоматически, нажав на кнопку “волшебная палочка”. В автоматически созданном имени кодируются некоторые настройки.

Ниже приведены примеры:

Имя исходного файла: test.txt

Варианты автоматически создаваемого имени целевого файла:
test.txt.no_dupes_w_i.txt – конец строки формата Windows (CR/LF), игнорировать регистр
test.txt.no_dupes_u_i.txt – конец строки формата Unix (LF), игнорировать регистр
test.txt.no_dupes_w.txt – конец строки формата Windows (CR/LF), не игнорировать регистр
test.txt.no_dupes_u.txt – конец строки формата Unix (LF), не игнорировать регистр

Внимание! В случае, если файл с целевым именем уже существует, он перезапишется без запроса.

Допустимые форматы файлов

Text Duplicate Killer корректно обрабатывает только текстовые файлы формата ASCII.

Чтобы обработать документы Microsoft Word и прочие файлы, имеющие сложную структуру, необходимо экспортировать их в формат ASCII.

Обработка любых двоичных файлов также недопустима.

Параметры командной строки

Формат параметров командной строки:

tdk.exe [/teol=w|u] [/ic+|-] [/ios+|-] [/h=1|2|3|4|5|6] [/so=desc|asc]
[/s=none|char|len|loc] [/in=] [/out=] | [/?]

Описание параметров:

/teol=w – установить для целевого файла конец строки в Windows-формате (#13#10)
/teol=u – установить для целевого файла конец строки в Unix-формате (#10)

/ic+ – игнорировать регистр (только для латинских букв!)
/ic- – учитывать регистр (только для латинских букв!)

/ios+ — игнорировать обрамляющие пробелы
/ios- – учитывать обрамляющие пробелы

/h=X – установить “степень” хеширования равной X символам. X = 1..6

/so=desc – установить для сортировки обратный порядок/по убыванию
/so=asc – установить для сортировки прямой порядок/по возрастанию

/s=none – без сортировки целевого текста
/s=loc – сортировка по национальному алфавиту
/s=char – сортировка по кодам символов
/s=len – сортировка по длине строки

/in= – имя исходного файла (ASCII)
/out= – имя нового файла. TDK создает этот файл на основе source, исключая повторяющиеся строки

/? — вывести справку по программе

Примеры:

tdk /in=file1.txt /out=file2.txt – удалить дубликаты из файла file1.txt и записать уникальные строки в файл file2.txt, используя текущие настройки программы.

tdk /ic+ /ios+ /so=asc /s=char /in=file1.txt /out=file2.txt

Примечания:

При запуске с параметрами
— если какой-либо параметр не указан, то используется его интерфейсная установка (см. файл tdk.ini)
— утилита автоматически начнет обработку и запись нового текста, а по завершении работы – закроется
— если исходный файл слишком большой, то найденные дубликаты не отображаются

Параметры нечувствительны к регистру.
Параметры должны отделяться друг от друга как минимум одним пробелом!
Не используйте пробелы в именах файлов
Настройки, установленные с помощью параметров командной строки, запоминаются.

Меню / Файл
Открыть исходный файл – Позволяет выбрать исходный файл (формата ASCII).
Задать целевой файл
– Позволяет указать имя целевого файла, в который будут записываться уникальные строки из исходного файла. Тип конца строки (Unix/Windows) в целевом файле можно указать в опциях.

Меню / Вид
Хэш-данные – Эта опция позволяет включить отображение специфических сведений, например, скорость обработки.
Найденные дубликаты
– Данная опция позволяет включить отображение окна с экземплярами найденных дубликатов. Например, если в тексте будет найдено 10 дубликатов одной строки, то каждый экземпляр добавиться в это окно. При обработке больших текстов рекомендуется отключать отображение этого окна, поскольку найденные дубликаты могут переполнить оперативную память.

Читайте также  Как скопировать файлы с диска CDA?

Меню / Опции
Целевой EOL = CR/LF (Windows) – Установить в целевом файле конец строки как CR/LF.
Целевой EOL = LF (Unix) – Установить в целевом файле конец строки как LF.

Игнорировать регистр (латиница) – Данная опция указывает, что регистр латинских букв не учитывается. В этом случае, например, строки String, string и STRING будут рассматриваться как дубликаты.
Игнорировать ведущие и конечные пробелы – При сравнении строк не учитываются “обрамляющие” пробелы. Например, при включенной опции, строки “текст” и ” текст ” будут считаться дубликатами. Внимание: в целевом тексте пробелы не отсекаются!

Без сортировки целевого текста – Строки целевого текста не сортируются.
Сортировка по национальному алфавиту – Сортировка национальных символов происходит с учетом настроек языка в операционной системе Windows.
Сортировка по кодам символов — Сортировка основана на кодах символов (Latin-1, т.е. расширенный 8-битный ASCII-код).
Сортировка по длине строки – Строки сортируются по длине (включая пробелы).

Сортировать в прямом порядке/по возрастанию – В зависимости от выбранного типа сортировки опция указывает либо на прямой алфавитный порядок, либо на возрастающий порядок кодов или длины строки.
Сортировать в обратном порядке/по убыванию – Аналогично предыдущей опции.

Хэшировать по N символов — Сколько первых символов использовать для хэширования. Данная настройка важна только в том случае, если вы обрабатываете очень большие файлы, не помещающиеся в оперативную память. Хэш-индекс основан на ASCII-коде, поэтому при хэшировании по одному символу максимальное количество сегментов равно 255. При использовании двух символов количество сегментов становится равным 65536. Так как программа “скидывает” сегменты на жесткий диск, то увеличение количества сегментов может существенно снизить требования к оперативной памяти, хотя нагрузка на дисковую систему увелчивается (и скорость работы соответственно). Если вам понадобилось изменить эту настройку, то определить нужное значение можно экспериментально, но учтите, что для разных текстов эффективность обработки может сильно различаться. По умолчанию установлено 3 символа – это некий компромисс между скоростью работы и требованиями к ОЗУ.

Установить первоначальные настройки – Команда устанавливает “заводские” настройки (в том числе положение и размер формы).

Удаление повторяющихся строк в Notepad ++

Можно ли удалить дублированные строки в Notepad ++, оставив только одно вхождение строки?

ОТВЕТЫ

Ответ 1

Notepad ++ может это сделать, если вы хотите сортировать по строке и удалять повторяющиеся строки одновременно.

Вам понадобится плагин TextFX. Раньше это было включено в старые версии Notepad ++, но если у вас есть более новая версия, вы можете добавить ее из меню, перейдя в Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install . В некоторых случаях его также можно назвать TextFX Characters , но это то же самое

Необходимые флажки и кнопки теперь появятся в меню под: TextFX -> TextFX Tools .

Удостоверьтесь, что отмечены «сортировки» только уникальные. «. Затем выберите блок текста ( Ctrl + A , чтобы выбрать весь документ). Наконец, нажмите» Сортировка строк с учетом регистра «или» Сортировка строк нечувствительна к регистру»

Ответ 2

Так как Notepad ++ Version 6, вы можете использовать это регулярное выражение в диалоге поиска и замены:

и заменить ничего. Это оставляет из всех повторяющихся строк последнее вхождение в файл.

Для этого не требуется сортировка, и повторяющиеся строки могут быть в любом месте файла!

Вам нужно проверить параметры «Регулярное выражение» и «. соответствует новой строке»:

^ соответствует началу строки.

(.*?) соответствует любым символам 0 или более раз, но как можно меньше (он точно соответствует строке, это необходимо из-за опции «. matches newline» ). Соответствующая строка сохраняется из-за скобок вокруг и доступна с помощью 1

$ соответствует концу строки.

s+?^ эта часть соответствует всем пробельным символам (новые строки!) до начала следующей строки == > Это удаляет новые строки после строки matchd, так что после замены не будет пустой строки.

(?=.*^1$) это положительное утверждение. Это важная часть в этом регулярном выражении, строка только сопоставляется (и удаляется), когда есть точно такая же строка, следующая где-то в файле.

Ответ 3

Если строки располагаются сразу после друг друга, вы можете использовать регулярное выражение:

Ответ 4

Notepad++

Убедитесь, что в режиме поиска вы выбрали переключатель «Регулярное выражение»

Найдите что:

Заменить на:

Перед тем:

и мы думаем, что там

После того, как:

Ответ 5

Если вам не важен порядок строк (что, я думаю, вам не нравится), вы можете использовать Linux/FreeBSD/Mac OS X/Cygwin и сделать:

Затем снова откройте файл в Notepad++.

Ответ 6

Последние версии Notepad++, по-видимому, вообще не включают плагин TextFX. Чтобы использовать плагин для сортировки/удаления дубликатов, плагин должен быть либо загружен и установлен (более задействован), либо добавлен с помощью менеджера плагинов.

A) Простой способ (как описано здесь).

Плагины → Диспетчер плагинов → Показать диспетчер плагинов → вкладка «Доступно» → Символы TextFX → Установить

Б) Более сложный способ, если нужна другая версия или простой способ не работает.

Загрузите плагин с SourceForge:

Откройте ZIP файл и извлеките NppTextFX.dll

Поместите NppTextFX.dll в каталог плагинов Notepad++, например:
C:Program FilesNotepad++plugins

Запустите Notepad++, и TextFX станет одним из пунктов меню файла (как видно из ответа №1 выше Колина Пикарда)

После установки плагина TextFX следуйте инструкциям в Ответе № 1, чтобы отсортировать и удалить дубликаты.

Кроме того, рассмотрите возможность настройки сочетания клавиш с помощью Настройки> Shorcut mapper, если вы часто используете эту команду или хотите скопировать сочетания клавиш, такие как F9 в TextPad для сортировки.

Ответ 7

Вам может понадобиться плагин для этого. Вы можете попробовать командную строку cc.ddl (удалить повторяющиеся строки) из ConyEdit. Это кросс-редактор плагин для текстовых редакторов, в том числе Notepad++.

Когда ConyEdit работает в фоновом режиме, выполните следующие действия:

  1. введите командную строку cc.ddl в конце текста.
  2. Скопируйте текст и командную строку.
  3. Вставьте, тогда вы увидите, что вы хотите.

Пример

Ответ 8

Поиск регулярного выражения: b(w+)b([wW]*)b1b

Замените его на: $1$2

Нажимайте кнопку «Заменить», пока в вашем файле больше не будет совпадений с регулярным выражением.

Ответ 9

Никто не работал для меня.

Ответ 10

Менеджер плагинов в настоящее время недоступен (не входит в дистрибутив) для Notepad++. Вы должны установить его вручную (https://github.com/bruderstein/nppPluginManager/releases), и даже если вы это сделаете, многие плагины больше не будут доступны (без TextFX).

Может быть, есть другой плагин, который содержит необходимые функции. Кроме этого, единственный способ сделать это в Notepad++ — использовать некоторое специальное регулярное выражение для сопоставления и последующей замены ( Ctrl + F & rarr; Заменить вкладку).

Хотя в меню Изменить доступно множество функций (обрезка, удаление пустых строк, сортировка, преобразование EOL), «уникальная» операция недоступна.

Борис Аладышкин/ автор статьи

Приветствую! Я являюсь руководителем данного проекта и занимаюсь его наполнением. Здесь я стараюсь собирать и публиковать максимально полный и интересный контент на темы связанные с современными технологиями и программным обеспечением. Уверен вы найдете для себя немало полезной информации. С уважением, Борис Аладышкин.

Понравилась статья? Поделиться с друзьями:
Itsovet61.ru
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: