Apache Nutch

Скріншот програми:
Apache Nutch
Дані програми:
Версія: 2.3
Дата завантаження: 1 Mar 15
Розробник: Apache Software Foundation
Ліцензія: Безкоштовно
Популярність: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch був побудований на вершині Apache Lucene , потужний Java пошукова система.
Розробники Nutch змінив кодову Lucene, перетворення даних агностик Lucene кодову в проекті, присвяченому для пошуку даних на веб-спеціально.
Ця технологія може бути використана для пошуку на вашому власному веб-сторінки як вбудованим пошуковим сервером, або сканують Інтернет у пошуках інформації для аналізу і очистити у вашій базі даних.
Nutch може працювати на одній машині, але краще працює в Hadoop кластерів.
Різні плагіни доступні для розширення його спектр використання

Що нового У цьому випуску :.

  • Переконайтеся, що дублюють теги не існує в мікроформат-reltag набір тегів.
  • краще відступити значення для поля дати.
  • Позбутися від страшної.
  • Оновлення до Hadoop 1.2.0.
  • Оновлення до Тіка 1.3.

Що нового у версії 2.0 :.

  • Перейменовано HTMLParseFilter в ParseFilter
  • Видалити залишки Роботи / Блокування IP код в Lib-HTTP.
  • логирование портів для SLF4J.
  • Зовнішній аналізатор підтримує атрибут кодування.
  • Налаштування конфігурації Ivy не включають Гора.
  • Інжектор слід додати метадані перед викликом injectedScore.
  • Port Nutch тест на Nutchbase.
  • Додати розбору HTML назад.
  • MoreIndexingFilter відсутня формат дати.
  • Тайм-аут для Parser.
  • Інтервал повтору в день обходу встановлюється в 0.
  • Створити вихід журналу для ДП индексировании DeDup.
  • Покращена NutchConfiguration.
  • SolrDeleteDuplicates потрібно клонувати об'єкти SolrRecord.
  • Рідні LIBS Hadoop не доступні через Maven.
  • відокремити збірки і виконання середовища.

Що нового у версії 1.5:

  • Цей реліз включає в себе кілька поліпшень, включаючи модернізацію декількох великих компонентів, включаючи тика 1.1 і Hadoop 1.0.0, поліпшення LinkRank і WebGraph елементи, а також ряд нових полігонів, що охоплюють чорного списку, фільтрацію і аналіз, щоб назвати декілька.

Що нового у версії 1.4 :.

  • Додана Solr 4x (стовбур) приклад схеми
  • Додана "/ виконання", щоб SVN ігнорувати.
  • Застосування / XHTML + XML повинен бути включений в plugin.xml розбору в HTML; дозволяють декільком MIMETYPES для plugin.xml.
  • Виправлена ​​розбору тика і розібрати-HTML, щоб використовувати відносне дозвіл URL за RFC-3986.
  • Оновлення до Тіка 0,10. ПРИМІТКА :. ТІКА Новий RTF аналізатор може ігнорувати більше тексту в спотворених документів, ніж раніше - див Тіка-748 для отримання більш докладної
  • Додана Sonar мети в Ant build.xml.
  • Модернізований SolrJ до версії 3.4.0.
  • Ant PMD мета порушується.
  • Модернізований Solr Схема до версії 1.4.

Що нового у версії 1.3:

  • Цей реліз включає в себе кілька удосконалень (покращений RSS підтримку розбору, міцніше інтеграція з Apache Тіка, зовнішньої підтримки, розбір більш точного визначення мови і на порядок менше вихідного випуску архів - !. тільки про 2 Мб)

Що нового у версії 1.2 :.

  • Зробити індексу більш плагін налаштовується
  • Настроювані Файл протоколу батьківського каталогу сканування.
  • Тайм-аут для Parser.
  • Сайт досі Lucene фірмових.
  • Інтервал повтору в день обходу встановлюється в 0.

Що нового у версії 1.0 :.

  • Дозволити аналізатори для повернення декількох об'єктів розбору,
  • Вилучено зайвим фонду каротаж банку з онтології плагіна.
  • Виправлена ​​помилка в SegmentReader викликає нескінченний цикл.
  • Скоринг фільтр повинен поширювати бал для всіх зовнішніх посилань за один раз.
  • Зменшити кількість попереджень у Nutch ядра.

Схожі програми

jquery-filter
jquery-filter

13 May 15

pyelasticsearch
pyelasticsearch

20 Jul 15

FilteringHighlight
FilteringHighlight

13 May 15

Apache Lucene
Apache Lucene

10 Dec 15

Інші програми розробника Apache Software Foundation

Apache Nutch

Коментар не знайдено
додати коментар
Включіть картинки!
Пошук за категоріями