tw-url-normalizer.js 台灣網址整理工具

編輯歷史

時間 作者 版本
2017-07-03 06:11 – 06:11 (unknown) r0 – r1
顯示 diff
+ tw-url-normalizer.js 台灣網址整理工具
+
+ 為了 SEO ,許多以文字為主的網站,會將文章標題放入網址中,但是因為文章標題可能會改變造成網址跟著改變,而讓許多不一樣的文章所指的其實是同一篇文章,這在一些工具像是新聞小幫手就會造成使用者需要重覆回報,如果能有個 library 可以把這些網址正規化,相信對很多應用會有幫助的。
+ 需要工作:
+ *由於網址是由各家網站自己規定,因此難以有統一個方式可以處理所有網站,需要一個一個慢慢加入 regular expression 來處理,所以會先開一個 repository ,然後讓大家可以不斷 pull request 進來新的網址格式。
+ *
+ 需求規格:
+ *url_normalizer(url)
+ *return {
+ * 'query_url': '查詢的網址',
+ * 'normalized_url': '簡化過後可以連的網址',
+ * 'normalized_id': '唯一的 ID',
+ *}
+ Ex:
+ url_normalizer('http://www.appledaily.com.tw/realtimenews/article/finance/20131225/314703/【台股開盤】開高上漲11點');
+ *return {
+ * 'origin_url': 'http://www.appledaily.com.tw/realtimenews/article/finance/20131225/314703/【台股開盤】開高上漲11點',
+ * 'normalized_url': 'http://www.appledaily.com.tw/realtimenews/article/finance/20131225/314703',
+ * 'normalized_id': 'appledaily.com.tw/314703'
+ *}