Пресса
о нас
HTML-to-RTF: коловращение форматов ( 28
апреля 2004 г. 12:41:07 | Автор: Wild Hare )
На свете существует великое множество форматов — текстовых,
графических, бинарных, медийных и прочих. Как следствие,
сплошь и рядом возникают ситуации, когда мы получаем
информацию в одном формате, а хранить (обрабатывать,
передавать дальше) хотим в другом. Вот, к примеру, едва
ли не самый банальный случай: мы собираем в Сети какую-то
информацию, которую затем компилируем в некий отчет
(исследование, доклад, реферат, etc.) — в исходном виде
информация представляет собою набор разноформатных HTML-страниц,
надерганных с разных сайтов, а финальный документ мы
верстаем, понятное дело, в MS Word (ну или в Adobe Page
Maker, или кто где привык). Сколько лишней работы мы при этом делаем?
В каждом HTML-файле нужно отыскать требуемые фрагменты,
очистить их от лишних (с нашей точки зрения) дизайнерских
изысков и перенести в нашу рабочую среду. Что делает
Word при вставке текста из буфера? Правильно, он вместе
с текстом тащит еще и стиль. А нам оно надо? Нет, нам
оно не надо — у наc в документе собственный стиль, и
приходится постоянно отвлекаться на выравнивание — гарнитуры,
кегля и цвета фонтов, центрирования абзацев, прибивания
лишних деталей и прочего в том же духе. HTML ведь не
предназначен для обработки, это формат для чтения глазами.
Поэтому задачу удобнее решать в два приема:
вначале превратить собранные HTML-страницы в нечто,
более удобное, а уже потом заняться собственно обработкой.
Конечно, можно открыть каждую страницу в том же MS Word,
выбросить весь лишний дизайн, сохранить в виде DOC-файла,
и иметь дело уже с ним. Но, опять же, зачем тратить
лишнее время, если можно взять в руки правильный конвертор,
который все сделает сам? Правильный конвертор так и зовут — HTMLtoRTF
Converter (найти на SoftSearch, скачать у автора). Он
умеет делать только одну вещь: превращать HTML-разметку
в документы формата RTF и TXT, но эту единственную вещь
он умеет делать хорошо. С текстовым форматом все просто
и понятно: выбросить форматирующие тэги, и сохранить
то, что останется (если, конечно, что-то останется).
При желании можно задать принудительный перевод строки
через каждые N символов, для пущей удобочитаемости.
Но это самый простой случай. С форматом RTF дело обстоит интереснее:
поддерживается несколько режимов конвертирования. Полный
(максимальное сходство финального документа с исходным),
стандартный (выбрасывается все лишнее и остается только
текст) и выборочный (конвертировать ли таблицы, сохранять
ли картинки, цвет и стиль текста, etc.) — помимо этого
можно принудительно задавать кодировку, гарнитуру и
кегль шрифта для финального документа. Небольшие манипуляции
с настройками позволят причесать стадо разноцветных
и разноформатных страниц под одну гребенку, ну а дальнейшая
судьба сконвертированной информации — личное дело пользователя,
конвертору она безразлична. Но конвертор не был бы полноценным, если
бы не поддерживал пакетную обработку — конвертацию сразу
пачки HTML в пачку же RTF. Отдельно нужно отметить,
что работает HTMLtoRTF не только качественно, но еще
и быстро: тестовый набор из 289 файлов (правда, небольших,
но где вы видели мегабайтные HTML-страницы?) он перелопатил
за 15 секунд. В качестве недостатка стоит упомянуть
такую вещь: в отличие от многих своих собратьев, HTMLtoRTF
не встраивается в контекстное меню Проводника, что не
есть гуд, хотя и мелочь. А вот для любителей автоматизировать
свою деятельность есть два бонуса: во-первых, полноценная
работа из командной строки, и во-вторых специальная
поставка HTMLtoRTF в виде DLL-библиотеки (но это уже
для программистов). Резюме: пользователям, по жизни имеющим
дело с превращением форматов, стоит подумать о расширении
набора своих дежурных конверторов. |