Feed on
Posts
Comments

Archive for March 30th, 2007

Time issue in designing a RS

之前看了學長的 Time weighted CF 演算法成功了改進傳統
CF演算法的Accuracy。心中還是有些疑惑,依照學長的論
點是,一個人早期的 rating 資料的參考價值,不會比現在的
rating 資料的參考價值來的高。因此他設計了一個參考價值
依照時間飄逝 decrese 的曲線,也就是距離目前時間點愈近
則參考價值就比較高,愈遠就參考價值愈低。比如今天某位
使用者所做的 rating 參考價值是 1 ,則昨天此位 user 所做的
rating參考價值可能就是 0.9,如此把參考價值乘上實際的rating
數值所得除來的數字是比較具有參考性的。利用這種想法稍微
改了一下 CF 演算法的核心部份,準確度就上升了。但是目前
在 RS 系統上改善 Accuracy 的主要盲點是在於大家都會想出一
套新的方法來改變舊有的演算法,之後宣稱這個方法是可以提
升準確度的。但是卻沒辦法去證明說如果要改善準確度用這些
新方法就可以真的達到目的。 As known as if p then q ( p -> q) ,
we can not guarantee that q -> p 。其實這和 overfitting 有很大
的關係,儘管我們用很複雜的 model 來讓這份萬年 training data
( MovieLens ) 得到最好的 training 效果,並不意味我們拿到一份
全然不同的 training [...]

Read Full Post »

TO : 郵件的主要接收人
CC : 全名是 Carbon Copy ,副本。
BCC : 全名是 Blind Carbon Copy,密件副本。
在分析 Mail 所建立的 social networks 時,郵件彼此傳送之間
傳送者與接收者的重要性可以由 TO , CC , BCC 看出。 比如一
封 MAIL 如果 TO 很多人,則這封郵件對於每個人的重要性就
沒有來比TO 單一個人來的高。當然,BCC給某個人,則代表
這封郵件對那個BCC接收者顯得更唯重要,或是說寄信者相信
BCC的接受者才會利用BCC這欄位。
在分析 Social network 所做的 Visualization 目的是為了讓使用
者能更直觀的看出人與人之間的關係,比如兩個 Nodes之間的遠
近就可以表示這兩個Nodes之間的相似度或是親密度或是相關度等。
但是當 Network 的 Scale 很大時,做Visualization可能就會遭遇呈現
的問題吧,想像著要把好幾千人所組成的 Network 秀在一個小螢幕上
又可以同時讓使用者了解每個 node 是代表哪位人物的確不是很容易
做得到的。

Read Full Post »