Apache Nutch

Скріншот програми:
Apache Nutch
Дані програми:
Версія: 2.3
Дата завантаження: 1 Mar 15
Розробник: Apache Software Foundation
Ліцензія: Безкоштовно
Популярність: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch був побудований на вершині Apache Lucene , потужний Java пошукова система.
Розробники Nutch змінив кодову Lucene, перетворення даних агностик Lucene кодову в проекті, присвяченому для пошуку даних на веб-спеціально.
Ця технологія може бути використана для пошуку на вашому власному веб-сторінки як вбудованим пошуковим сервером, або сканують Інтернет у пошуках інформації для аналізу і очистити у вашій базі даних.
Nutch може працювати на одній машині, але краще працює в Hadoop кластерів.
Різні плагіни доступні для розширення його спектр використання

Що нового У цьому випуску :.

  • Переконайтеся, що дублюють теги не існує в мікроформат-reltag набір тегів.
  • краще відступити значення для поля дати.
  • Позбутися від страшної.
  • Оновлення до Hadoop 1.2.0.
  • Оновлення до Тіка 1.3.

Що нового у версії 2.0 :.

  • Перейменовано HTMLParseFilter в ParseFilter
  • Видалити залишки Роботи / Блокування IP код в Lib-HTTP.
  • логирование портів для SLF4J.
  • Зовнішній аналізатор підтримує атрибут кодування.
  • Налаштування конфігурації Ivy не включають Гора.
  • Інжектор слід додати метадані перед викликом injectedScore.
  • Port Nutch тест на Nutchbase.
  • Додати розбору HTML назад.
  • MoreIndexingFilter відсутня формат дати.
  • Тайм-аут для Parser.
  • Інтервал повтору в день обходу встановлюється в 0.
  • Створити вихід журналу для ДП индексировании DeDup.
  • Покращена NutchConfiguration.
  • SolrDeleteDuplicates потрібно клонувати об'єкти SolrRecord.
  • Рідні LIBS Hadoop не доступні через Maven.
  • відокремити збірки і виконання середовища.

Що нового у версії 1.5:

  • Цей реліз включає в себе кілька поліпшень, включаючи модернізацію декількох великих компонентів, включаючи тика 1.1 і Hadoop 1.0.0, поліпшення LinkRank і WebGraph елементи, а також ряд нових полігонів, що охоплюють чорного списку, фільтрацію і аналіз, щоб назвати декілька.

Що нового у версії 1.4 :.

  • Додана Solr 4x (стовбур) приклад схеми
  • Додана "/ виконання", щоб SVN ігнорувати.
  • Застосування / XHTML + XML повинен бути включений в plugin.xml розбору в HTML; дозволяють декільком MIMETYPES для plugin.xml.
  • Виправлена ​​розбору тика і розібрати-HTML, щоб використовувати відносне дозвіл URL за RFC-3986.
  • Оновлення до Тіка 0,10. ПРИМІТКА :. ТІКА Новий RTF аналізатор може ігнорувати більше тексту в спотворених документів, ніж раніше - див Тіка-748 для отримання більш докладної
  • Додана Sonar мети в Ant build.xml.
  • Модернізований SolrJ до версії 3.4.0.
  • Ant PMD мета порушується.
  • Модернізований Solr Схема до версії 1.4.

Що нового у версії 1.3:

  • Цей реліз включає в себе кілька удосконалень (покращений RSS підтримку розбору, міцніше інтеграція з Apache Тіка, зовнішньої підтримки, розбір більш точного визначення мови і на порядок менше вихідного випуску архів - !. тільки про 2 Мб)

Що нового у версії 1.2 :.

  • Зробити індексу більш плагін налаштовується
  • Настроювані Файл протоколу батьківського каталогу сканування.
  • Тайм-аут для Parser.
  • Сайт досі Lucene фірмових.
  • Інтервал повтору в день обходу встановлюється в 0.

Що нового у версії 1.0 :.

  • Дозволити аналізатори для повернення декількох об'єктів розбору,
  • Вилучено зайвим фонду каротаж банку з онтології плагіна.
  • Виправлена ​​помилка в SegmentReader викликає нескінченний цикл.
  • Скоринг фільтр повинен поширювати бал для всіх зовнішніх посилань за один раз.
  • Зменшити кількість попереджень у Nutch ядра.

Схожі програми

Zoom Search Engine
Zoom Search Engine

10 Feb 16

finder.php
finder.php

13 Apr 15

useful.filter.js
useful.filter.js

12 May 15

Fuzzysearch
Fuzzysearch

12 Apr 15

Інші програми розробника Apache Software Foundation

Apache Commons CSV
Apache Commons CSV

10 Dec 15

Apache
Apache

17 Aug 18

Apache MRQL
Apache MRQL

1 Mar 15

Apache Nutch

Коментар не знайдено
додати коментар
Включіть картинки!
Пошук за категоріями