跳到主要內容區塊

政府網站營運交流平台-中文

常見問題

Web Curator Tool (內含Heritrix)無法正常下載網站資料,該如何處理?

  • 若無法找到下載的功能,請確認是否已建置bootstrap以外的使用者,且配置對應的角色權限。
  • 若完成設定後始終未開始進行抓取,請確認Web Curator Tool的管理功能中,頻寬設定是否已正常設定完成。
  • 若開始抓取後只抓了50多kb的資料就停止抓取,可能是網路問題所導致,請重新嘗試抓取。
  • 若抓取約5,000個檔案左右便停止下載,可能是Maximum Documents參數預設為5,000個檔案,達成條件後便停止下載的原因。可參考手冊第101頁修改對應之參數。
  • 部分中文網站因網站內部設定或編碼的問題,例如在網頁Content-Type中charset設定與實際頁面中網址連結urlencode採用的編碼不同,導致無法正常開啟連結進行抓取。