TEXtractor v1.6.0.0 (32+64)
+
Библиотека от 16.12.2024

Обзор

Утилита TEXtractor служит для поиска в RTF-, FB2-файлах и на Веб-страницах слов и словосочетаний, заданных пользователем.

Единица извлечения — текстовый абзац или параграф (тег \par в случае RTF-файлов или теги <p>…</p> в случае FB2-файлов и Веб-страниц).

Окно программы состоит из двух областей: первое сверху — поле ввода слов или словосочетаний, подлежащих выборке; второе сверху представляет собой список источников, из которых производится выборка.

Поисковый запрос

Формат записи слов или словосочетаний, подлежащих поиску, проще всего продемонстрировать на примерах.

кибел — ищет все вхождения текста «кибел», например, «Рея-Кибела», «кибелический», «кибелизм» и т.д.

превращ* форм — ищет все вхождения текста «превращ* форм», например, «превращенная форма», «превращенных форм», «превращения формы» и т.д.

Несколько запросов можно объединять символом ; (точка с запятой):

Кибел;превращ* форм — ищет одновременно перечисленные выше фрагменты в любых абзацах текста.

Если необходимо, чтобы искомые фрагменты были в пределах одного абзаца, то вместо ; (точка с запятой) используется & (амперсанд):

эгрегор&метафиз — создаст выборку из абзацев, в которых одновременно присутствуют эгрегор и метафиз.

По умолчанию, искомый фрагмент ищется в любом месте слова, но если необходимо найти слова, начинающиеся с заданного фрагмента, то перед ним нужно поставить \ (обратную косую черту):

\гомер — найдет только слова, начинающиеся с «гомер», а например, «многомерность» в выборку не попадёт.

По умолчанию, поиск регистронезависимый, т.е. для запроса «кибел» будет найдена как «Кибела», так и «кибела». Если поставить галочку в поле «С учётом регистра», то будет найдена только «Кибела» (с большой буквы).

Кроме того, можно задавать слова-исключения — они начинаются со знака ! в начале слова. Например, если требуется искать вхождения слова «Ленин», но нежелательно включать в выборку «Ленинград» и его производные, то следует ввести Ленин;!Ленинград.

Источники

Программа поддерживает 4 типа источников:

  1. RTF-файлы;
  2. FB2-файлы;
  3. Веб-страницы по прямым ссылкам (см. «Веб-ссылки»);
  4. Веб-страницы через «Ярлык Интернета Windows» (см. «Веб-ссылки»);
  5. TEX-файлы (см. «Сохранение настроек»);
  6. Папки, содержащие какие-либо из вышеперечисленных типов источников (все источники в данных папках и подпапках будут обработаны рекурсивно).

Добавлять источники можно:

  1. перетаскиванием мышью (Drag & Drop) файлов и папок в поле источников;
  2. через стандартный диалог открытия папок «Файл > Добавить папки… (Ctrl+O)» или файлов «Файл > Добавить файлы… (Ctrl+Shift+O)»;
  3. через буфер обмена: скопируйте в буфер обмена папки и файлы через Проводник Windows, либо скопируйте текстовые пути (разделенные переводом строки) папок/файлов и вставьте их в поле ввода источников «Файл > Добавить из буфера обмена (Ctrl+V)».

Удалить источники можно, выделив их в поле источников и нажав клавишу Delete.

Веб-ссылки

Добавлять веб-ссылки можно:

  1. перетаскиванием мышью (Drag & Drop) .url-файлов* в поле источников;
  2. через специальный диалог добавления веб-ссылок «Файл > Добавить веб-ссылки (URL)… (Ctrl+L)»;
  3. через буфер обмена: скопируйте в буфер обмена адреса Web-страниц (разделенные переводом строки, если ссылок больше одной) и вставьте их в поле ввода источников «Файл > Добавить из буфера обмена (Ctrl+V)».

Если необходимо обработать большое количество веб-страниц, отличающихся лишь одним индексом, то такой веб-адрес можно добавить в формате: http://www.site.com/book?page=[[1-31]], где числа в двойных квадратных скобках 1-31 — индекс первой и последней страницы, подлежащей обработке. Данный адрес будет преобразован утилитой в последовательность ссылок:

http://www.site.com/book?page=1
http://www.site.com/book?page=2

http://www.site.com/book?page=31

Поскольку веб-страницы хранятся не на локальном компьютере, а на удаленных серверах в Интернете, обработка таких источников может происходить значительно медленнее, чем локальных RTF- или FB2-файлов. Поэтому, Вы можете отказаться от обработки веб-ссылок в текущей сессии поиска, сняв флажок «Обрабатывать веб-ссылки».

* «Ярлык Интернета Windows» (.url) — это файл, получаемый операцией Проводника Windows «Создать > Ярлык…».

Извлечение

Чтобы начать процедуру извлечения, нажмите кнопку СТАРТ (клавиша Enter); чтобы прервать процедуру, нажмите СТОП (клавиша Enter). По окончании процедуры выборки будет автоматически сгенерирован временный файл в формате RTF с временным названием, который, если результат выборки Вас устраивает, Вы можете сохранить в нужное Вам место.

Сохранение настроек

Все заданные пользователем параметры поиска (запрос, источники и опции) можно сохранить в файл в формате .tex для повторного открытия в будущем: «Сохранить настройки… (Ctrl+S)».

Данный файл можно также использовать в качестве «контейнера» источников — если поместить его в любую папку, подлежащую обработке программой, то утилита обработает все источники из файла .tex так, как будто они были добавлены в поле источников непосредственно.

Оптимизация RTF

Программа работает только с файлами в формате RTF, текст в которых закодирован «прямым образом» (в ANSI или UTF8), если же содержимое представлено escape-последовательностями (а в таком виде RTF-файлы сохраняет Microsoft Word), то перед анализом такого файла TEXtractor преобразует и сохранит его в более легковесный, «прямой» формат RTF (сохранив оригинал в файл с расширением .backup).