Apache Nutch був побудований на вершині Apache Lucene , потужний Java пошукова система.
Розробники Nutch змінив кодову Lucene, перетворення даних агностик Lucene кодову в проекті, присвяченому для пошуку даних на веб-спеціально.
Ця технологія може бути використана для пошуку на вашому власному веб-сторінки як вбудованим пошуковим сервером, або сканують Інтернет у пошуках інформації для аналізу і очистити у вашій базі даних.
Nutch може працювати на одній машині, але краще працює в Hadoop кластерів.
Різні плагіни доступні для розширення його спектр використання
Що нового У цьому випуску :.
- Переконайтеся, що дублюють теги не існує в мікроформат-reltag набір тегів.
- краще відступити значення для поля дати.
- Позбутися від страшної.
- Оновлення до Hadoop 1.2.0.
- Оновлення до Тіка 1.3.
Що нового у версії 2.0 :.
- Перейменовано HTMLParseFilter в ParseFilter
- Видалити залишки Роботи / Блокування IP код в Lib-HTTP.
- логирование портів для SLF4J.
- Зовнішній аналізатор підтримує атрибут кодування.
- Налаштування конфігурації Ivy не включають Гора.
- Інжектор слід додати метадані перед викликом injectedScore.
- Port Nutch тест на Nutchbase.
- Додати розбору HTML назад.
- MoreIndexingFilter відсутня формат дати.
- Тайм-аут для Parser.
- Інтервал повтору в день обходу встановлюється в 0.
- Створити вихід журналу для ДП индексировании DeDup.
- Покращена NutchConfiguration.
- SolrDeleteDuplicates потрібно клонувати об'єкти SolrRecord.
- Рідні LIBS Hadoop не доступні через Maven.
- відокремити збірки і виконання середовища.
Що нового у версії 1.5:
- Цей реліз включає в себе кілька поліпшень, включаючи модернізацію декількох великих компонентів, включаючи тика 1.1 і Hadoop 1.0.0, поліпшення LinkRank і WebGraph елементи, а також ряд нових полігонів, що охоплюють чорного списку, фільтрацію і аналіз, щоб назвати декілька.
Що нового у версії 1.4 :.
- Додана Solr 4x (стовбур) приклад схеми
- Додана "/ виконання", щоб SVN ігнорувати.
- Застосування / XHTML + XML повинен бути включений в plugin.xml розбору в HTML; дозволяють декільком MIMETYPES для plugin.xml.
- Виправлена розбору тика і розібрати-HTML, щоб використовувати відносне дозвіл URL за RFC-3986.
- Оновлення до Тіка 0,10. ПРИМІТКА :. ТІКА Новий RTF аналізатор може ігнорувати більше тексту в спотворених документів, ніж раніше - див Тіка-748 для отримання більш докладної
- Додана Sonar мети в Ant build.xml.
- Модернізований SolrJ до версії 3.4.0.
- Ant PMD мета порушується.
- Модернізований Solr Схема до версії 1.4.
Що нового у версії 1.3:
- Цей реліз включає в себе кілька удосконалень (покращений RSS підтримку розбору, міцніше інтеграція з Apache Тіка, зовнішньої підтримки, розбір більш точного визначення мови і на порядок менше вихідного випуску архів - !. тільки про 2 Мб)
Що нового у версії 1.2 :.
- Зробити індексу більш плагін налаштовується
- Настроювані Файл протоколу батьківського каталогу сканування.
- Тайм-аут для Parser.
- Сайт досі Lucene фірмових.
- Інтервал повтору в день обходу встановлюється в 0.
Що нового у версії 1.0 :.
- Дозволити аналізатори для повернення декількох об'єктів розбору,
- Вилучено зайвим фонду каротаж банку з онтології плагіна.
- Виправлена помилка в SegmentReader викликає нескінченний цикл.
- Скоринг фільтр повинен поширювати бал для всіх зовнішніх посилань за один раз.
- Зменшити кількість попереджень у Nutch ядра.
Коментар не знайдено