Apache Nutch

Скріншот програми:
Apache Nutch
Дані програми:
Версія: 2.3
Дата завантаження: 1 Mar 15
Розробник: Apache Software Foundation
Ліцензія: Безкоштовно
Популярність: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch був побудований на вершині Apache Lucene , потужний Java пошукова система.
Розробники Nutch змінив кодову Lucene, перетворення даних агностик Lucene кодову в проекті, присвяченому для пошуку даних на веб-спеціально.
Ця технологія може бути використана для пошуку на вашому власному веб-сторінки як вбудованим пошуковим сервером, або сканують Інтернет у пошуках інформації для аналізу і очистити у вашій базі даних.
Nutch може працювати на одній машині, але краще працює в Hadoop кластерів.
Різні плагіни доступні для розширення його спектр використання

Що нового У цьому випуску :.

  • Переконайтеся, що дублюють теги не існує в мікроформат-reltag набір тегів.
  • краще відступити значення для поля дати.
  • Позбутися від страшної.
  • Оновлення до Hadoop 1.2.0.
  • Оновлення до Тіка 1.3.

Що нового у версії 2.0 :.

  • Перейменовано HTMLParseFilter в ParseFilter
  • Видалити залишки Роботи / Блокування IP код в Lib-HTTP.
  • логирование портів для SLF4J.
  • Зовнішній аналізатор підтримує атрибут кодування.
  • Налаштування конфігурації Ivy не включають Гора.
  • Інжектор слід додати метадані перед викликом injectedScore.
  • Port Nutch тест на Nutchbase.
  • Додати розбору HTML назад.
  • MoreIndexingFilter відсутня формат дати.
  • Тайм-аут для Parser.
  • Інтервал повтору в день обходу встановлюється в 0.
  • Створити вихід журналу для ДП индексировании DeDup.
  • Покращена NutchConfiguration.
  • SolrDeleteDuplicates потрібно клонувати об'єкти SolrRecord.
  • Рідні LIBS Hadoop не доступні через Maven.
  • відокремити збірки і виконання середовища.

Що нового у версії 1.5:

  • Цей реліз включає в себе кілька поліпшень, включаючи модернізацію декількох великих компонентів, включаючи тика 1.1 і Hadoop 1.0.0, поліпшення LinkRank і WebGraph елементи, а також ряд нових полігонів, що охоплюють чорного списку, фільтрацію і аналіз, щоб назвати декілька.

Що нового у версії 1.4 :.

  • Додана Solr 4x (стовбур) приклад схеми
  • Додана "/ виконання", щоб SVN ігнорувати.
  • Застосування / XHTML + XML повинен бути включений в plugin.xml розбору в HTML; дозволяють декільком MIMETYPES для plugin.xml.
  • Виправлена ​​розбору тика і розібрати-HTML, щоб використовувати відносне дозвіл URL за RFC-3986.
  • Оновлення до Тіка 0,10. ПРИМІТКА :. ТІКА Новий RTF аналізатор може ігнорувати більше тексту в спотворених документів, ніж раніше - див Тіка-748 для отримання більш докладної
  • Додана Sonar мети в Ant build.xml.
  • Модернізований SolrJ до версії 3.4.0.
  • Ant PMD мета порушується.
  • Модернізований Solr Схема до версії 1.4.

Що нового у версії 1.3:

  • Цей реліз включає в себе кілька удосконалень (покращений RSS підтримку розбору, міцніше інтеграція з Apache Тіка, зовнішньої підтримки, розбір більш точного визначення мови і на порядок менше вихідного випуску архів - !. тільки про 2 Мб)

Що нового у версії 1.2 :.

  • Зробити індексу більш плагін налаштовується
  • Настроювані Файл протоколу батьківського каталогу сканування.
  • Тайм-аут для Parser.
  • Сайт досі Lucene фірмових.
  • Інтервал повтору в день обходу встановлюється в 0.

Що нового у версії 1.0 :.

  • Дозволити аналізатори для повернення декількох об'єктів розбору,
  • Вилучено зайвим фонду каротаж банку з онтології плагіна.
  • Виправлена ​​помилка в SegmentReader викликає нескінченний цикл.
  • Скоринг фільтр повинен поширювати бал для всіх зовнішніх посилань за один раз.
  • Зменшити кількість попереджень у Nutch ядра.

Схожі програми

pyelasticsearch
pyelasticsearch

20 Jul 15

HideSeek
HideSeek

4 Jun 15

Elastica
Elastica

6 Mar 16

Інші програми розробника Apache Software Foundation

Apache Nutch

Коментар не знайдено
додати коментар
Включіть картинки!
Пошук за категоріями