LinkProcessor-2015

версия:4.3.1 (3 декабря 2016)

интерфейс: русский

совместимость: Windows XP,

Windows 7

размер: 1.5 Мб

скачать

Описание программы

(3.12.2016)Программа обновлена, доработан алгоритм сохранения страниц.

В новой версии программы добавлен функционал, позволяющий загружать файлы по прямым ссылкам, а не только html-страницы.
Также был добавлен модуль, который позволяет извлекать из текста ссылки по определённому шаблону, с помощью него можно, например, вытащить все прямые ссылки на изображения со страницы поиска Гугла по картинкам, чтобы закачать их все сразу менеджером загрузок.
LinkProcessor-2015 может скачивать страницы и сохранять их со всем содержимым: картинками, стилями css и внешними файлами javascript, как это делается в браузерах, - для каждого html-файла создается индивидуальная папка, где расположено соответствующее содержимое страницы. Кроме того, все относительные URL автоматически заменяются на полные, поэтому из сохраненной страницы можно всегда перейти по внешней ссылке, что очень удобно в большинстве случаев. Еще программа встраивает в каждую страницу ссылки для навигации на другие загруженные страницы("первая","последняя", "вперед","назад"), поэтому, если вы сохранили раздел интересующего вас сайта, состоящий из множества страниц, то при просмотре не придется всякий раз открывать каждую страницу отдельно. Также в директории, куда сохранялись страницы, создаётся файл оглавления index.htm со ссылками на все страницы. Далее весь этот набор страниц можно объединить в стандартный файл справки, - в программу теперь встроен компиллятор chm-файлов.

Начиная со второй версии программы, добавлена возможность сохранения ссылок в обычном виде,типа http://site.com/folder/page.html без html-тегов <a href=''..........>название ссылки</a> ,то есть,теперь мы имеем простой список со ссылками, который может быть использован в другой программе,либо в самом LinkProcessor'е,в этой версии в программе появился собственный модуль загрузок для скачивания страниц

Программа предназначена для извлечения URL (ссылок) из html страниц,сохраненных на жёстком диске. Для начала,клавишей выбора папки выбираем директорию,где находятся html страницы и нажимаем клавишу ОБРАБОТАТЬ ФАЙЛ(Ы)

Будет произведено сканирование всех файлов в папке,и все найденные ссылки будет предложено сохранить в один файл (по умолчанию - Links.htm) .Программа сканирует файлы в указанной папке с расширениям *.html, *.htm, *. txt и *.php ; если у файлов другие расширения, их следует переименовать, модуль для пакетного переименования файлов имеется в самой программе.

LinkProcessor может извлекать из документов как все найденные ссылки, так и фильтровать их в соответствии с заданными фильтрами-в результате- в конечный файл будут записаны только те url,в которых встречаются те символы или строки,которые были выбраны,а все остальные ссылки будут игнорированы. Полученный список url можно открыть из программы в Notepad' е для дальнейшего редактирования стандартными средствами,или открыть в браузере. Чтобы открыть папку куда был сохранён список ссылок,пользуемся клавишей НАЙТИ ФАЙЛ

Программу можно использовать также для объединения множества разрозненных текстовых/html файлов в один,для этого ставим галку в чекбоксе ОБЪЕДИНИТЬ ВЕСЬ ТЕКСТ и убираем галку ДОБАВЛЯТЬ ПЕРЕВОД СТРОКИ чтобы программа не дописывала тег <br> в конец строки, который используется для форматирования списка ссылок. При этом не имеет значения,какие фильтры заданы,из обрабатываемых файлов будут записываться любые строки и весь текст полностью будет слит в один файл.

ФИЛЬТРЫ СТРОК

LinkProcessor ищет ссылки,анализируя строки,содержащиеся между тегами <a href=******* >*название_ссылки * </a>. Чтобы вытащить ссылки содержащие только какую-либо определённую строку задаём фильтр,из искомой строки и групповых символов. Групповые символы - это символ звездочки '*' и знак вопроса '?'. Звездочка означает любое количество допустимых символов, а '?'- любой одиночный символ.Причём,текст в названии ссылки также анализируется и может быть задан в фильтре поиска. Например задан фильтр *showtopic* ,и программа найдёт все ссылки вида

http://4pda.ru/forum/index.php?showtopic=343700

http://4pda.ru/forum/index.php?showtopic=394344

или

фильтр *.jpg

http://wallpapers.com/comps/ image1230 .jpg

http://wallpapers.com/comps/logo_3D .jpg - эти ссылки будут найдены

а вот такие:

http://wallpapers.com/nature/wall_4523 .jpg?getfile.php - будут пропущены. (тут после .jpg есть еще символы,а звёздочка не поставлена!)

А это пример,как будет работать фильтр с использованием символа '?'

фильтр задан: *.jp?g

http://veterock.host.sk/logo.jpeg - эта ссылка будет найдена

http://veterock.host.sk/logo.jpg - эта ссылка будет проигнорирована.

фильтр задан: *My??ass*

http://veterock.host.sk/ docs/MyClass.rar

http://veterock.host.sk/ docs/MyGrass.zip -будут найдены обе ссылки, два знака '?' подразумевают здесь,что в фильтре-шаблоне находятся два любых символа подряд.

если задан фильтр: *загрузить* будут найдены все ссылки вида < a href="http://server.com/some_file.ext"> загрузить что-то там .

Все фильтры - регистронезависимы,строчные, или прописные символы - значение не имеет.

Вместе с фильтром поиска нужной строки можно использовать дополнительный отсеивающий фильтр

он работает так:

если находится строка соответствующая условию поиска, но содержащая также строку,заданную во втором, исключающем фильтре,то эта ссылка не будет записана в конечный файл, пример:

фильтр совпадений: *pictures*jpg

фильтр исключений:*thumbnail*

из этих двух ссылок

http://wallpapers.com/pictures /downloads/Background_023.jpg

http://wallpapers.com/ pictures /downloads/thumbnail-Background_023. jpg

будет записана только первая, не содержащая запретного слова thumbnail

Фильтр исключений настраивается точно также, с использованием групповых символов. По умолчанию он выключен,и если не планируется его использовать,ничего не меняйте в его поле ввода, изначально там записана строка *ыыыыыыыыыы* - это заглушка.Не рекомендуется записывать туда строки вообще без групповых символов, или пытаться использовать этот фильтр отдельно, когда в фильтре совпадений прописано просто дефолтное значение ** - оба фильтра могут работать только в паре, иначе логика работы программы будет нарушена.

Самый оптимальный вариант -это вытащить все ссылки из страниц, используя фильтр совпадений и сохранить их в один файл, а потом в случае необходимости,пройтись по нему еще раз,подключив дополнительно фильтр исключений.

Ссылки извлеченные программой - кликабельны -html теги сохраняются.

Также имеется возможность сохранить ссылки в чистом виде без html-тегов, для этого отмечаем флажком пункт ТОЛЬКО ССЫЛКИ Фильтры поиска также работают, но поиск соответственно производится в пределах URL, поэтому рекомендуется сначала произвести выборку ссылок в html-формате

ПАКЕТНОЕ ПЕРЕИМЕНОВАНИЕ ФАЙЛОВ

LinkProcessor работает с расширениями файлов *.html, *.htm, *. txt и *.php, поэтому в него дополнительно встроен

модуль для пакетного переименования файлов

Чтобы им воспользоваться,нажимаем ПЕРЕИМЕНОВАНИЕ ФАЙЛОВ, выбираем папку,по умолчанию в поле НАЧАЛЬНОЕ задана опция: любое .* убираем звёздочку (точка должна остаться!) и пишем вместо неё разрешение тех файлов, которие собирались изменить. В поле КОНЕЧНОЕ ставим нужное нам разрешение,опять же, не забывая оставить точку.

В программе также предусмотрена возможность очистки файла со списком ссылок, из него можно удалить все повторяющиеся ссылки, если их не удалось убрать при первичном сканировании страниц, с помощью фильтров

ГЕНЕРАЦИЯ ССЫЛОК

В программу также встроен модуль генерации ссылок по шаблону, который позволяет автоматически создать на одной странице список ссылок,по такому принципу ссылки генерируются движками многих форумов и новостных порталов. Такую страничку можно скормить программе-загрузчику, например FlashGet или Offline Explorer и скачать все темы какого-нибудь форума сразу, без лишнего мусора.

Страница формируется в *. txt или *.html формате, если поставлен флажок HTML. Принцип работы генератора легко понять, запустив на исполнение встроенный шаблон и просмотрев получившийся на выходе файл.

ЗАГРУЗКА СТРАНИЦ

С помощью LinkProcessor можно загружать страницы из интернета; жмём кнопку ЗАГРУЗКА, выбираем текстовый файл со ссылками клавишей СПИСОК. По умолчанию,страницы будут загружаться в директорию программы, можно выбрать любую другую клавишей ОБЗОР. Можно задать количество попыток,на случай ошибок скачивания (максимум 10),также можно установить интервал между скачиваниями - до 60-ти секунд, - некоторые сайты могут банить по ip из-за частых запросов.

Cкачанные файлы сохраняются с расширением *.htm с именем в виде возрастающего порядкового номера. Файлы могут быть любого типа,не только страницами, но так как эта прога предназначена в первую очередь для загрузки страниц,я не не включил в неё возможность сохранения с оригинальными расширениями - всё скачивается как *.htm. По этой же причине нет возможности скачивать с ftp://

Ccылки,которые не удалось скачать, записываются в правое окно,их можно сохранить, чтобы попытаться загрузить в другой раз.


комментарии (14)



написал Автогубитель
Бесподобно !!! Отсутсвие стандартных кнопок сворачивания-закрытия, расположение посреди экрана и невозможность перетягивания - супер идеи для суперпрограммиста особенно на двухмониторной конфигурации. По половине программы на каждом мониторе, YES. И как приятный бонус знаки вопроса в английской Windows XP/7 неизлечимый никакими плясками с бубном/правками реестра. Так держать. Горжусь "нашими" ПОГРОМИСТАМИ smile))
добавлено: 07.01.17 13:56
написал Александр
Классно! Теперь программа корректно сохраняет страницы!
добавлено: 04.12.16 22:07
написал Veterock
Обновил, теперь прога сохраняет страницы, присваивая им ведущие нули в имени: 0001.htm..0010.htm etc.
добавлено: 03.12.16 15:55
написал Александр
Буду с нетерпением ждать.
добавлено: 01.12.16 00:44
написал Veterock
Ну, самый очевидный вариант, это сохранять страницы с нумерацией с ведущим нулем: 001.htm, 002.htm и т.п., тогда при объединении все склеится в нужном порядке.
добавлено: 30.11.16 09:26
написал Александр
Нашёл одну программку,называется Индексатор HTML.Позволяет индексировать файлы html в указанной папке с созданием соответствующей страницы.Так в ней предусмотрена возможность сортировки страниц в выходном файле по имени файла,тегу,дате создания.Так вот из всех этих видов сортировки в правильном порядке страницы идут только при индексации по дате создания .В остальных случаях всё также как и в Вашей программе. ЭТО я к тому ,что может моя находка Вас натолкнёт на решение проблемы .
добавлено: 30.11.16 08:03
написал Александр
Спасибо! Всё разрешилось , дело было в настройках безопасности.Вот до чего руки не дошли и даже не вспомнил!!! Насчёт сохранения страниц:сохраняет в двоичном порядке,т.е. идут страницы 1,10,11....19,2,20,21,22....29,3,30,31,32,...34,4,5,6,7,8,9 (из 34 загруженных),а не в десятиричном порядке.А сами закачанные страницы (до процедуры объединения) идут по порядку,и нумерация и содержимое соответствуют страницам сайта (проверял,закидывая каждую в браузер).
добавлено: 27.11.16 10:27
написал Veterock
Насчет генерации ссылок, а тот шаблон, что встроен в программу, тоже не обрабатывается? Программе никакие доп. компоненты не требуются,может быть дело в настройках безопасности на вашем компьютере? Посмотрите на вкладке СВОЙСТВА файла LinkProcessor-2015.exe(правая кнопка мыши>> СВОЙСТВА), нет там такого? как на этом скрине , если что,выберите РАЗБЛОКИРОВАТЬ. Возможно, прога находится у вас в корне диска C, переместите ее тогда в Program Files(x86), или в Пользователи>>Общие, и смотрите, что получится. А так, я не вижу никаких причин, у меня таких проблем не возникало ни на Win7x32, ни в Win7x64, в XP тоже все работает. А насчет сохранения страниц в неправильном порядке, пока не знаю, что там, надо будет проверить в чем проблема.
добавлено: 27.11.16 01:32
написал Александр
Ещё одно маленькое дополнение.Я проверил скачанные htm - ки, нумерация страниц соответствует содержимому.Косяк где - то на этапе объдинения происходит..вот.
добавлено: 26.11.16 17:16
написал Александр
Вообщем решил я проблему сторонней программой.Сгенерил ссылки,вставил в поле загрузки из текстового файла.Загрузил.В главном окне программы выбрал папку с загруженными файлами,обработал с галкой в поле "объединить весь текс".На выходе получил файл где страницы объдинились не по порядку,т.е. не как задано в списке загрузок.После 1 страницы идут 10,11,12...7,8,9 (загужал 34 страницы форума).Как с этой напастью можно справиться? Я понимаю что руками можно перелопатить все скачанные страницы,определить нужную последовательность и пересоздать текстовый файл...Но страниц на закачку может быть туча,а не 4-5..Вы сталкивались может быть с таким?
добавлено: 26.11.16 16:51
написал Александр
Если что видна 7 64бит
добавлено: 26.11.16 15:14
написал  Александр
Спасибо за ответ!Я попробовал ввести ваш пример,ноль реакции программы.Может программе требуются какие-нибудь компонеты , не установленные на моей машине? Так то вроде всё стоит,программа не ругается ни на что,просто не выдаёт ничего.
добавлено: 26.11.16 15:04
написал Александр
Здравствуйте! Подскажите пожалуйста как правильно генерировать ссылки .У меня после заполнения полей и нажатия кнопи генерации ничего не происходит.Спасибо.
Veterock пишет: Может быть неправильно задано значение в поле СЧЕТЧИК ? Для примера, качаем страницы с promodj.com со ссылками на треки в разделе Acid Breaks.Ссылки на страницы раздела имеют вид http://promodj.com/tracks/acid_breaks?page=1(первая стр.) http://promodj.com/tracks/acid_breaks?page=2 (следуюцая)и т.д. Номер страницы увеличивается на единицу, - ставим 1 в поле СЧЕТЧИК. В шаблон URL вставляем http://promodj.com/tracks/acid_breaks?page= и чтобы получить список со ссылками на страницы, напр. с первой по пятидесятую ставим 1 в поле НАЧАЛЬНЫЙ URL и 50 в поле КОНЕЧНЫЙ URL. Пробуйте.
добавлено: 24.11.16 02:21
написал Владимир
Здравствуйте! А возможно ли сделать в программе сохранение скачанных страниц с расширением *.mht (веб-архив)? Этот формат значительно удобней, чем *.html - он сохраняет всю отображаемую на веб-страницах информацию в одном файле, а не только ссылки и текст, как в html, где остальная информация (картинки и т.д.) сохраняются дополнительно в отдельной папке, что создаёт само по себе неудобство от большого количества папок, когда сохраняешь много html-страниц. Благодарю!
Veterock пишет: У самого была такая идея, но руки не доходили:) Если это не потребует серьезных изменений в логике программы, попробую реализовать, следите за обновлениями
добавлено: 14.03.15 16:03
Имя

Сообщение

введите защитный код


Обновить

Powered by ©Veterock Studio 2013