Програмне забезпечення Methabot є швидкість оптимізованої сценаріїв і настроюється Web, FTP і локальну файлову систему гусеничного. Він підтримує сценаріями типу файлу розбір, широкий спектр можливостей налаштування і легко налаштувати, щоб відповідати конкретним потребам anyones.
При використанні модульної системи і мови сценаріїв, користувачі мають можливість повною мірою або частковий контроль процесу сканування і вирішити, однак Methabot слід зберігати веб-даних, статистика і багато іншого.
Просто працює Methabot з командного рядка Ви можете налаштувати користувача типи файлів, фільтрація вирази, поведінку, і багато іншого, так що вам не потрібно бути сценарист
Особливості :
- Це швидко, розроблений з нуля і до зі швидкістю-оптимізації на увазі.
- Scriptable через Javascript з E4X
- Користувацький тип файлу фільтрації (залежно від типу MIME, розширення файлу або вирази UMEX)
- Багатопотокове
- Високо настроюється з командного рядка
- розширюваний модуль системи, підтримуючи аналізатори для користувача дані і фільтри.
- Простий, але потужний фільтрація URL-адрес, через UMEX.
- Автоматичне викачування
- Підтримка автоматичної обробки печива при роботі через HTTP
- Розклад, відмовостійкі мережі
- Портативний, проходять з успіхом на 32-біт / 64-бітної Linux 2.6, 32 біт / 64-біт FreeBSD 6.x / 7.0, Windows XP і Mac OS X. Якщо працювати практично на будь-якій Unix-подібної ОС.
Що нового У цьому випуску:
- Виправлення, при використанні зовнішнього заглянути межа глибини був переплуталися.
- Пам'ять очищення виправлення
- динамічної гіперпосилання більше не встановлюється для пошуку за замовчуванням, так як це уповільнює значно повзе
- Build Тепер система створює і встановлює деякі файли заголовків, модулі можна використовувати при компонуванні
- інструмент мета-конфігурації додав
- lmm_mysql переміщається за межі цього пакету
Використання
Не варіант
Що нового у версії 1.5.0:
- Зміни та нові можливості:
- Підтримка читання intial буфер зі стандартного вводу
- - тип і --base-URL параметри командного рядка додані, поряд з можливістю initial_filetype в файлах конфігурації
- Печиво і інформація DNS тепер правильно розподіляються між працівниками при виконанні багатопоточних
- Додана деякі приклад використання команди --examples
- Великі поліпшення в тому-нить зв'язку, тепер працює швидше і більш організованою
- Додана підтримка для "Init" функцій в скриптах. Дізнайтеся більше про ініціалізації функцій в http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha не замерзає при виконанні декількох одночасних запитів HTTP HEAD-більше. Причина замерзає була помилка в Libcurl який тепер встановлений. Деякі обхідні шляхи, які були додані до libmetha, щоб запобігти заморожування від відбуваються при використанні дефект Libcurl версії, а також.
- Підтримка старих версій 7.17.x Libcurl і 7.16.x
- Нова інформація доступна в & Quot; це & Quot; Об'єкт браузерів, парсери, Content-Type і статусу передачі коду. Дізнайтеся більше на http://bithack.se/projects/methabot/docs/e4x/this.html
- - докладний варіант замінити --silent, так багатослівний режим тепер за замовчуванням
- Початкова підтримка FTP повзати і варіант ftp_dir_url гусеничний
- Глибина обмеження тепер гусеничний конкретних
- Додані параметри командного рядка --crawler і --filetype
- Підтримка розширення і перевизначення вже певних типів файлів і сканери
- Підтримка за ключовим словом копіювання у файли конфігурації
- Підтримка динамічно перемикання активного шукача це дозволяє сканувати різні веб-сайти абсолютно по-різному в одному сеансу шукача. Детальніше про переключення гусеничного на http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev версія оновити 3,51
- включити директиву в конфігураційних файлах, що в даний час складає включений конфігураційний файл вже не був завантажений, щоб запобігти включають-петлі і кілька визначень тип файлу / гусеничні.
- Різні SpiderMonkey виправлення збору сміття, libmetha не обвалиться більше, коли прибирання після багатопотокової сесії
- Додана деяку додаткову інформацію до --info опції
- варіант "зовнішнього" тепер встановлений і включений знову
- Нова опція --spread робочі
- Нью-libmetha API функція lmetha_global_setopt () дозволяє змінювати глобальну помилку / повідомлення / попередження кореспонденту
- Додана початкова реалізація тестів для розробників
- Краще звітності помилок при завантаженні файлів конфігурації
- Виправлення коли HTTP-сервер не повертає заголовок Content-Type, після запиту HEAD,
- Виправлення при сортуванні посилань після прохання декількох HTTP HEAD,
- Виправлення в HTML на XML Converter, коли сторінка HTML не мають і л; HTML & GT; Тег
- Виправлення, варіант extless-гіперпосилання не працює
- Виправлення, HTML, щоб XML-конвертер більше не давиться байт порядку міток або іншого тексту до фактичного HTML
- Виправлення, запобігти libmetha від того, щоб отримати доступ до URL, протоколів, які не підтримуються
- Виправлення при виключенні після помилки.
- Виправлення, нерозв'язних посилань не вирватись з повторення циклу після трьох спроб
- Дуже експериментальної і нестабільної підтримка Win32, в основному призначена для розробників
- Нові файли конфігурації:
- google.conf, для виконання Google пошук
- youtube.conf, пошук YouTube
- meta.conf, відбитки мета інформації, наприклад ключових слів і опис HTML сторінок
- title.conf, друкує назву HTML сторінок
- ftp.conf, для обходу FTP серверів
Що нового у версії 1.4.1:
- Налаштування не міг знайти jsapi.h на деяких системах , це має бути встановлено тепер.
- Файли конфігурації тепер можуть змінювати гусеничні та типу файлу прапори, додана можливість "зовнішнього" і "external_peek '
- Виправлення, Methabot іноді збій при очищенні порожні адреси після багаторазового HTTP КЕРІВНИКА
- Виправлена помилка, що виникала при працює синхронно.
- система збирання включають в себе виправлення, коли jsconfig.h не може бути знайдений.
Вимоги
- заголовки SpiderMonkey
- Curl
Коментар не знайдено