星期六, 12月 08, 2007

Yahoo! Pipes 推出 Web Scraper

昨天Yahoo! Pipes公開「Fetch Page」模組(說穿了就是Web Scraping),這表示我可以不用再活在Feed43隨時可能扔開免費會員的恐懼之中了嗎?

...實際試用以後發現這個模組有時會說某些網頁不是HTML所以不能Parse。
不過配合Yahoo! Pipes的其他功能,這個模組仍然有不少好玩之處。
例如說,某些BSP(例如某無XO站啦...)不提供RSS全文,這時就可以Build一個Pipe來轉轉看。

作法非常簡單:


  1. 在Fetch Page的URL輸入單篇文章的URL。如果底下的debugger有fetch到資料,繼續下一步。

  2. 從原始碼找出內文被「夾」在哪些標籤或文字裡(要是獨一無二的)。

  3. 在Cut content from ... to ...輸入在2查到的標籤或文字。如果底下的debugger fetch到你想要的資料,繼續下一步。

  4. 然後用Fetch Feed模組輸入該站的RSS,將其pipe到一個Loop模組中,並在Loop中輸入一個Fetch Page:

    • URL改為feed裡的URL(通常是item.link)
    • Cut content from ... to ...輸入剛才查到的標籤或文字
    • 然後在Loop模組中選擇assign first result to feed的內文(通常是item.description)


  5. 確認output結果沒問題以後,就可以存檔然後run pipe,然後get rss就行了。

這是另外一項成果:我實際build了一個可以parse無名小站rss的pipe。
Wretch.cc Blog RSS Parser
不過實際使用時發現有些人的feed就是不能被parse(好像都是付費會員:P)...
如果你真的想看無名的全文,試試這個userscript

這個範例所使用的文章「KJ's Wiki Life: Wikia中文熱門站台(2-10月)」內文已由原作者釋放至公有領域。
--
Update: 改寫成一個Template形式的Parser。
Feed Full Text Parser

完整內文

星期三, 8月 08, 2007

Yahoo! Pipes: 消失的abbr tag

話說我在確認Anav Rin Last 15 Moves的運作時,發現abbr tag都不見了...

完整內文

ラハシイ式標準色盲檢查圖

說明
ラハシイ視覺正常者可看見52;
患有ラハシイ式色盲者無法或難以分辨任何數字。

ラハシイ式標準色盲検査表
作者大概很討厭只不過是顏色跟大家看到的不一樣就要被叫作色「盲」吧:P

(相同原理解說:structure & strangeness: Reverse-Colorblind Test)

完整內文

星期一, 5月 28, 2007

怪談野比物語

大雄媽:「從前從前有位女孩,生了病到了第七天終於...」
大雄:「死了?」
大雄媽:「到了第七天才吃飯,因為是七天前的飯所以こわくてこわくて〜」

ドラえもんよくある誤解集

完整內文

星期日, 4月 22, 2007

超複雜又難笑的笑話

Q: What do you get when you cross a mountain-climber with a mosquito?
A: Nothing: you can't cross a scaler with a vector.

來源:Wolfram Mathworld: Cross Product

完整內文

星期五, 3月 23, 2007

Web2.0流量圖–箱形向下跌勢明顯!


Web2.0真的在發展嗎?根據Alexa的一家之言,顯然並不是!顯然是在下跌的!!
(以下走勢圖若無特別說明,都是用3年當觀察期的)

首先是社交書籤del.icio.us,可以看出在2006年下半年的飆高以後,在今年初開始有走下坡的跡象。

相簿網站flickr,走勢和del.icio.us差不多,雖然人家的流量多del.icio.us一倍,而且還有付費會員,不過我們相信他也是在下滑的。

無名小站則是很明顯地在大約是和Yahoo!奇摩合併的那個時間點大為滑落。

hemidemi的下跌趨勢就更明顯了,從0.001升了0.01個百分點後又跌回0.001。

智邦的myurl的走勢也不太好看,雖然智邦多年前就開始經營網頁空間與電子郵件(所以這張圖表用的是5年),而Alexa只能查到智邦整個網域的流量,但我們依舊能把這些走勢算在myurl頭上,他是下跌的沒錯!

30boxes網路行事曆。我想我們也不用考慮在2006年第二季進場的Google日曆了,將趨勢直接歸咎於Web 2.0走下坡就好了。

MySpace

Pixnet

Wordpress

YouTube

Blogger
最後這5個分明是小眾中的小眾、特例中的特例,特別是那個Pixnet是吸走無名會員才會上升的,而YouTube(1年)和Blogger一定是靠Google作弊的啦,這些網站的流量一定都是下滑的,大家不要上當。


好吧,我只是看了這篇文章,忍不住聯想起「恐懼之邦」裡提到的「對數據的不同解釋,可以同時證明全球暖化存在與不存在」的理論有感而發罷了。
我自己是覺得有一天這些Web 2.0的網站最後大概不是被大公司買下就是倒光啦,畢竟只有大公司才能撐起大量使用者,而小量使用者的網站活不活的下去就是個問題了。
總之我應該是不會走網路創業吧,不關我的事...

update(2007.8.18):
TechCrunch 說 Alexa is useless。可惡,你怎麼可以質疑人家唯一的真理呢。

完整內文

星期四, 3月 22, 2007

QTCH

QTCH - Wikipedia, the free encyclopedia
原來如此,看來 Quicktime 7 比以前 6 的時候聰明多了;以前我只要按 Reset 鍵就能取得檔案了。
(這是否意味著,如果我想要打 Quicktime 串流檔案的主意,我得降級到 Quicktime 6 ?)

完整內文

星期二, 3月 20, 2007

天字第一號


可惜宿舍是用抽的不是用搶的。
(還有學務處說把我們的資料殺光了要重新填是什麼意思...)

完整內文

星期三, 3月 14, 2007

令人驚訝的相似處

哈哈,感謝某人的大力支持,現在與我的網站相似的頁面全部都是KinKi Kids相關(翻桌)

完整內文

星期四, 3月 08, 2007

你唬我啊...

idv.st 免費‧網址‧轉址:

網域名稱 idv.tw - idv 代表 個人. tw 代表 Taiwan .
而 idv.st - idv 代表 個人 , st 為 site (網站) 的縮寫 , 即個人網站之意 !
有點良心好嗎?

完整內文

星期三, 3月 07, 2007

在你開始使用 Google Page Creator 之前


...請先注意GPC建的第一個網址開頭會是你的Google帳號;或者,對某些人來說,也是Gmail帳號。

完整內文

星期一, 3月 05, 2007

再見,舊Template

不打破蛋殼就不能煎蛋。--英國諺語

完整內文

星期六, 2月 24, 2007

為何拍照時要小心?

因為你可能會因為一些蠢事而被送到醫院去,額頭還因此縫了三針。
accident
blooded-coat

完整內文

星期三, 2月 21, 2007

公車數位電視的系統

公車的數位電視

總之應該是一個能跑X Window的系統就對了。

完整內文