一些课程主页

wshxzt 发表于 2010-12-04 05:00:56

发现通过看看别人的slides,作业学习也是不错的方式,有时候直接读paper会过早陷入details,尤其像我这种什么基础都不好的小白,看看slides先大致有个概念然后再看细节或许也不错

关于graph,主要是random walks相关的东西,似乎是jerry做的东西的基础?
http://www.cs.yale.edu/homes/spielman/462/
http://www.cs.yale.edu/homes/spielman/eigs/

learning theory:
rob nowak, 我们学校ece的,跟jerry合作很紧密:
http://www.ece.wisc.edu/~nowak/SLT07.html
avrim blum的:
http://www.machinelearning.com/
http://www.cs.cmu.edu/~avrim/ML09/index.html
侧重点似乎和rob的不一样


peter bartlett:
http://www.cs.berkeley.edu/~bartlett/courses/281b-sp08/
感觉就是带分析的machine learning...

machine learning:
michael jordan,没什么好说的……
http://www.eecs.berkeley.edu/~pliang/cs294-spring08/
Andrew Ng的课程录像:
http://www.youtube.com/results?search_query=machine+learning+stanford+%22machine+learning%22&as=1&and_queries=machine+learning+stanford&exact_query=machine+learning&or_queries=&negative_queries=&geo_name=stanford+ca&geo_latlong=&search_duration=&search_hl=&search_category_type=specific&search_category=27&search_sort=&uploaded=
大概这课是给本科生的……andrew废话有点多@@

fei sha的,主要是下面有个reading list
http://www-rcf.usc.edu/~feisha/htmls/Teaching_CS599_09_Syllabus.html

Gaussian Process:
Carl Edward Rasmussen,hinton大牛的学生,talk很清楚
http://videolectures.net/mlss07_rasmussen_bigp/
一个resource主页,不知道为什么ivm都放里面了:
http://www.gaussianprocess.org/

topics:
hal主持的讨论班,怎么我们学校就没这么有爱的课呢
kernel:
http://apollonius.cs.utah.edu/mediawiki/index.php/MLRG/spring08
multitask:
http://apollonius.cs.utah.edu/mediawiki/index.php/MLRG/summer08
graphical model
http://apollonius.cs.utah.edu/mediawiki/index.php/MLRG/fall08


manifold只找到这个工具的主页 http://www.math.umn.edu/~wittman/mani/

matlab做数值的一个资源,有在线下载numerical computing with matlab:
http://www.mathworks.com/company/aboutus/founders/clevemoler.html
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

OpenCV2.0在windows下用visual studio 2005的配置

wshxzt 发表于 2009-11-29 07:52:48

OpenCV2.0文档不全,bug多多,而且要用CMake,在windows下用vs2005还有点麻烦,所以写个备案
首先下个OpenCV2.0:
http://opencv.willowgarage.com/wiki/
因为据说bug很多,所以推荐用svn更新,不过我还是直接下了安装版
然后安装一个CMake:
http://www.cmake.org/
然后用CMake生成vs2k5的solution文件。用CMake选中那个含有opencv2.0的文件夹就好了,然后新建一个目录放make的文件,比如MakeOpenCV
然后打开solution,分别用debug和release都build下,然后他里面的example应噶就都能跑了
如果自己另外的proj需要用到OpenCV,就需要把
\OpenCV2.0\include\opencv
这个目录加到vc++目录里去,并且把
MakeOpenCV\bin\debug和MakeOpenCV\bin\release加到环境变量里去
并且链接器里加上
highgui200.lib ml200.lib cv200.lib cxcore200.lib
然后应该就搞定了……
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

zz A selective list of papers on variable selection

wshxzt 发表于 2009-11-14 14:11:30

因为工作的需要,我今后可能更多侧重贴点比较pratical 的东西,尤其希望能贴点large scale data management and learning的东西。variable selection在实际中相当重要,zz下wloo师兄的list,希望能有人来总结下哪些比较有希望large scale上也能 work

zz from http://proof.ycool.com/post.2663900.html

1. 经典方法
Akaike (1973). Proc. 2nd International Symposium on Information Theory, pp. 267-281. "AIC"
Schwarz (1978). Ann. Statist. 6(2): 461-464. "BIC"

2. Lasso 路线
Tibshirani (1996). J. Roy. Statist. Soc. Ser. B 58: 267-288. "Lasso"
Knight and Fu (2000). Ann. Statist. 28: 1356-1378. "Asymptotics for Lasso"
Efron, Hastie, Johnstone and Tibshirani (2004). Ann. Statist. 32: 407-499. "LARS"
Zou (2006). J. Amer. Statist. Assoc. 101: 1418-1429. "Adaptive Lasso"

3. SCAD 路线
Fan and Li (2001). J. Amer. Statist. Assoc. 96: 1348-1360. "SCAD and the oracle property"
Fan and Peng (2004). Ann. Statist. 32: 928-961. "SCAD with diverging p"
Zou and Li (2008). Ann. Statist. 36: 1509-1533. "LLA"

4. Elastic Net 路线
Zou and Hastie (2005). J. Roy. Statist. Soc. Ser. B 67 301-320. "EN"
Zou and Zhang (2009). Ann. Statist. 37: 1733-1751. "Adaptive EN"

5. Dantzig Selector 路线
Candes and Tao (2007). Ann. Statist. 35: 2313-2351. "DS and nonasymptotics"
Bickel, Ritov and Tsybakov (2009). Ann. Statist. 37: 1705-1732. "Nonasymptotics for Lasso and DS"

6. Screening and preconditioning
Fan and Lv (2008). J. Roy. Statist. Soc. Ser. B 70: 849-911. "SIS"
Paul, Bair, Hastie and Tibshirani (2008). Ann. Statist. 36: 1595-1618. "Preconditioning"
Wasserman and Roeder (2009). Ann. Statist. 37: 2178-2201. "Screening-cleaning"

7. 综述
Hastie, Tibshirani and Friedman (2009). The Elements of Statistical Learning, 2nd ed., especially Chapters 3, 7 and 18.
Hesterberg, Choi, Meier and Fraley (2008). Statist. Surveys 2: 61-93. "Review for Lasso and LARS"
Fan and Lv (2010). Statist. Sinica, to appear. "Review emphasizing SCAD and SIS"

顺便广告:这个blog以后可能更偏重技术更新,关于我的生活和8g基本会搬到space上去,虽然那里留言需要有space帐号= =
http://wshxzt.spaces.live.com/
希望和感谢大家支持~
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

告别research民工?

wshxzt 发表于 2009-09-09 10:18:00

和新老板meeting,我本来对prob db基本不懂,他的job talk说实话听了一半睡着了@@
第一次见面,他问我是对什么有兴趣,我说我做过machine learning,你看你那里大概有什么learning的应用不,他想了下,blablabla说了一堆,我说,那个index听着不错,于是他扔来2篇paper
第二次meeting,我先说,这个问题似乎xxx也可以做啊,你们想过没有呢。他说,我们当时比较急,没具体考虑过那个东西,就派你去查资料自己yy吧,yy后来教我。然后你针对paper提问,先问了点小问题,然后说,这个地方觉得可以怎么怎么样下……他说,好巧啊,我确实在想那个问题,然后帮我formulize 出问题,然后我想了下,说了个intuition,他说,真巧啊,我也这么想的,接着把他想到的告诉我,然后举了个例子说那个方法可能的问题,然后说,就派你去搞定这个问题了,最后还加了句,i believe you can come up with some ideas that are better than mine……最后结束时说,今天讨论了那么多东西,请用latex写个简单的report,记录下我们今天都想到啥了,还有请自由yy自由查资料,查了后发给我,我当然乐意自己去看,但是我更希望你来讲给我听,you should prepare for your advisor,我就Orz了,终于不是research民工了么 = =bb
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

MSR intern之后想到的

wshxzt 发表于 2009-09-06 10:57:46

又是那么久没有更新了,我承认我太颓废了,我错了,我检讨……
在MSR自己做的proj用到的技术其实很无聊,其实就是一个random walk就没了,我在初期迅速做完预订计划的东西后,就开始找新东西做……现在想来,我还太欠缺分析能力,到intern最后回头去看那步的结果,发现其实很有问题,或许当时多花点时间分析,就能做出点有意思的东西了……之后又找了个更没前途的topic,这个topic选得太失败,于是到最后都没做出啥来。从整个过程中,我渐渐明白了motivation的重要,对于一个idea如果没有足够强的movitation,做到最后都不知道自己为什么要做,像我这样的人很容易就get bored,这种事其实在我身上已经发生过好几次了,可我竟然每次都没有好好总结,只是每次都觉得是自己的idea不够好,其实在做之前就应该好好想想为什么要这么做,这个解决了什么问题,为什么之前的方法不work而这个可能work,这么做可能成功的原因,失败的原因,多问问自己这个东西除了发paper还有什么意义……
当然,除了自己的proj,在MSR也看到很多其他proj,虽然很后悔没有多搭讪点人,而我们组的人做的东西我都不懂@@

关于machine learning,我很看好active learning。ssl那样随机采点标注样本其实不太make sense,既然可以有人肉去标样本,为什么要随机抽样标而不是挑出最可能有帮助的样本标呢……而现在active learning的实际算法不多,大家都喜欢去证bound,我觉得可能是因为这个只有intituation说去标哪些样本是可能有帮助的,希望能看到富有想象力的算法的出现……
 
另外平行训练也很有意思。我并不是说简单的把优化过程并行化,而是把训练数据分成10份,然后分别训练,最后再怎么合起来。跟jerry简单提了下,他的意思似乎是说其实还是能找到一个统一的目标函数的……不知道,嗯

hierarchical classification,虽然也有点人在做,但总觉得大家各自管各自的在做……怎么在图上做hierarchical 的propogation?和hypergraph似乎有点关系,但希望能做到任意层的……

怎么处理graph 上的噪点?觉得一个outlier会把错误传播到周围的点上去。而用l_0 norm(虽然不可能,但是可以用l_1 norm代替)一个outlier带来的影响不会太大……

这学期在旁听统计系的theory of probability,从测度出发讨论概率。虽然估计对自己是没啥用,但是觉得既然都在wisc了,不听点这种bt太浪费了……

这学期跟db组的新faculty, chris re做了independent study,大概是做高效的sequence inference,虽然听起来和machine learning很有关系,但估计最后会focus在怎么建index,怎么做优化上面,不过我觉得我数学基础这么薄弱,但是coding还行,基础算法也凑合,加上有些ml背景,可能做这个更合适点吧……退一万步讲,做点system好歹可以不让coding技能生疏,免得以后想当民工还没人要……
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

给几个puzzle吧

wshxzt 发表于 2009-08-15 07:55:34

最近project的评测做得很郁闷,大概是说我们有一堆query想分成有歧义还是没歧义两类,但是呢,我们没有label,于是呢,我们就找人帮忙标样本,但是呢,这个问题本身就不是well-defined的,每个人标准都不一样,于是呢我们的方法有noise,样本又noise,结果呢,自然就是没法看。。。虽然吧,其实把,我觉得这个问题一开始就没走对方向。。。有歧义的query那么少,还不如直接做suggestion

还是想几个puzzle吧
1、有n个篮子,每个篮子里有鸡蛋若干不等。2个人比赛,两人轮流从篮子里取鸡蛋,每次每人只能取一个篮子里的鸡蛋若干,至少一个,无上限,最后一个取走鸡蛋的人赢。问谁有必胜策略。

2、n个人站 一列,每个人头上有红帽子或者篮帽子,后面人可以看见前面人的帽子。然后从最后个人报自己猜自己戴什么颜色帽子,前面人可以听到后面人。事先商量一个策略,让尽量多的人报对。求这个策略。

3、有一个小黑屋,小黑屋里有2个开关,每个开关2个状态。有n个人,每次随机放进去一个人,一个人可重复地被放进去。求如何利用该2开关,使得某个人可以猜出所有人都已进入过小黑屋。所有人知道一共多少人。事先可商量一个策略,求该策略。
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

众生百态

wshxzt 发表于 2009-07-29 14:18:51

今天从mountain view坐caltrain,一个50多岁的中国大妈不懂英文,问我怎么用那个自动售票机,举手之劳,我就帮她买了张票,当时也没太在意。看她背了2个布 包手上拿个脸盆,一口广东普通话,估计是广东人来美国打工的。后来虽然我告诉她N次我们要到终点站不用担心坐过,但路上她还是比较担心会错过站,于是N次 推醒我问我到没到。 后来下车后我有点担心她会不会在SF走丢,虽然据说SF中国人很多。于是决定把她送回china town,自己也可以顺路逛逛china town。在车上随口问问她有没有中国餐馆推荐,然后她就坚持说要请我吃饭。我当时就很纳闷,怀疑是不是遇上jp了。后来下了车,她盛情难却把我带到一家 广式点心店。她可能对美国规矩还不太懂,进去后直接在一张别人正在收拾的桌子上坐下了,还招呼我快进去。我有点担心她是想蹭饭吃,于是看了眼菜单,发现价 格不是很离谱后便进去了。招待生问我几个人,我说2个,她惊讶地问我和那个大妈一起么——可以感觉得出,她们可能本来都想赶那个大妈走。后来大妈跟我扯了 些她的事,大概情况是她老公早逝,她妹妹入籍后请她到这里来,但是她不懂英文,在这里也找不到好工作,之前一些工活她觉得太累都没干下去。她有两个儿子, 大儿子读书还行,华南理工毕业后去了新加坡,但是现在似乎重病了。问她以后有什么打算,她说她想回去,美国太没有人情,大家都只认钱不认人。后来她越说越 激动,还把她在SF、在国内的地址电话,甚至她妈妈的电话都留给我了……因为我一开始不确定她到底是什么人,只说自己是来SF旅游的,她以为我是从国内一 个人过来的,还让我回去后有空给她妈妈打电话。这时候我都有点怜悯她,不知道是不是她的经历让她精神有点错乱,总之不管怎么说,相遇就是一种缘分,作为邪 恶帝国的intern请一个这样的大妈一顿午饭还是没问题的。结果,最后买单时,大妈说什么都不肯让我付钱,她说她有钱,她说她一定要请好人喝茶……我不 知道这位大妈到底怎么回事,但是希望不要给她带来太大负担吧……

晚上去berkeley见到了whattodo大牛,传说中04级全校 gpa第一的大牛……大牛热情地请了我晚饭,让我万分羞愧——本来想着来加州一定要带点礼物的,但是忙这忙那而且也不知道带啥好,最后就啥也没带,唉…… 大牛的化学系真的是体力民工,大牛说他一周工作90小时,看见我被雷到后说,“也没那么夸张啦,有时候85小时”……berkeley就是 berkeley……
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

爱在何方

wshxzt 发表于 2009-07-25 15:48:25

我花了N久终于看完了这篇超长调侃学术江湖的文章:
http://weizhirong.spaces.live.com/blog/cns!F595B4D8257BEAA9!983.entry?wa=wsignin1.0&sa=389315213

有闲情的朋友们可以慢慢看,还是很逗笑的。没时间的看我的总结:
混入江湖第一步是谦逊,不得罪别人,第二步在江湖上做报告,如何克服别人对新人的提问,然后是如何在别人的talk上提问,接着才是真正的混江湖,在各种social event上如何behavior,然后那个point我境界不够,关于离别钩,没有深刻的认识,大概是说要勇于承认自己的无知,每个人都有自己不熟悉的领域,这个道理大家都明白,但是为什么会放到这个层次上还是不明白,望高人指点。之后说学霸,杀人容易救人难,学霸可以别人杀人时救人……
其实最后条才是全文的重点:

“If you don’t think about your research after work, it means you don’t love it, you are not passionate about it. I think perhaps you are in the wrong field.”

Perhaps you are in the wrong field.

如果你真正热爱你所做的工作,你就会对你的工作朝思暮想牵肠挂肚,你就会在从事工作的时候充满激情感到快乐,这样没有什么能够阻挡你前进的步伐,这样你才能成为高手中的高手。

所以我所要讲的最后一种武器,也不是拳头,而是爱。

少侠,在课程的最后,我把我老板的两个问题转送给你。你下班后还在想你的工作么?还有就是,你工作的时候,are you happy?你爱你所做的事情么?或者说,你在做你爱做的事情么?

什么是爱呢?

问世间,情为何物,教人生死相许?

我到目前为止的人生都过分逆来顺受了……我应该自己好好找到我的所爱……

收藏: QQ书签 del.icio.us 订阅: Google 抓虾

石头记

wshxzt 发表于 2009-07-21 15:23:04

去黄石逛了圈,觉得不写写游记是在对不起近1k刀的花费,但是说实话又写不出啥……没有太大感悟……
黄石主要看一个其实也不算很大的瀑布,然后一堆地喷泉,以及四脚动物们……整个过程基本就是开车到一个观景点下来围观下然后上车继续开,由于保险问题,车都是由狐狸和ff大人开的,我在车上基本负责睡觉……
那个upper fall, lower fall其实还不错,只是觉得花上大半天转n个点就看那么一个瀑布有点点不值,剩下的景点就是地热喷泉,主要问题是到处的spring, geyser都长差不多,而且我也不是地质系的,对这种地貌没有研究和大爱,我也不会拍照片,对取景也不懂,于是就不如传说中的那么好玩了……还有点,chanson同学拍得照片让人深深体会到有王道也未必有真相——很一般的东西也能拍得巨pp -.-b
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

compressive sensing在machine learning中的应用

wshxzt 发表于 2009-07-07 13:45:05

再不灌点学术文这个blog真是要锈掉了……
我觉得和ml最相关的大致有做降维的这篇:
John Wright, Allen Yang, Arvind Ganesh, Shankar Shastry, and Yi Ma, Robust face recognition via sparse representation. (To appear in IEEE Trans. on Pattern Analysis and Machine Intelligence)
大致做法就是用training data表出新的data,即新的x是training data的线性组合,如果training data数大大小于feature数,那么这就相当于CS里的x_0=Ax,A的每列是个sample,x是每个sample的权重。于是给出新的x_0,可以通过优化x的l_1找到最sparse的解,即用最少数量的sample表出新的点。然后还可以在Ax前乘个measurement matrix,用来做特征选择,其实就是进一步降维,我不能忍得是他们直接用了个random matrix做采样矩阵,然后也没分析。他们这里做得还比较简单,直接做了个线性的,我觉得捣捣A肯定能kernel化……不过也没什么意思
Chinmay Hegde, Michael Wakin, and Richard Baraniuk, Random projections for manifold learning. (Neural Information Processing Systems (NIPS), Vancouver, Canada, December 2007) [See also related technical report]
这个看得有点晕,不过应该就是给manifold 做投影(容我废话下吧,从标题就看出来了@@)
Robert Calderbank, Sina Jafarpour, and Robert Schapire, Compressed learning: Universal sparse dimensionality reduction and learning in the measurement domain (Preprint, 2009)
这个就是证明了下在measurement space里train个svm和原空间里train的svm almost the same with prob@@ 基本就是靠着RIP性质证明了loss和regulizor影射后只差个小量。我觉得有意思的是投影到多个space里去,然后在每个space里train,然后做boosting,类似于multi-view learning,可惜他们也只是提了下,没对这个进行分析……我觉得这个肯定能做,不过不知道分析起来多麻烦

不过总的来说,我觉得cs理论很漂亮,但是ml拿来基本就是在炒概念了,其实就是跟风sparse……据说对classification,sparse的意义并不是太大……
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

[募集]鱼的101种做法

wshxzt 发表于 2009-07-03 04:24:16

最近过得极度荒废,主要都在做工程的事情,优化代码,等程序一次一次crash掉后一次一次再重写代码……但是做菜的热情倒恢复得不少,晒几张鱼的照片,顺便募集鱼的菜谱
豆瓣全鱼:

干锅鱼:

糖醋鱼:

能想到的鱼的菜谱还有:
水煮鱼
沸腾鱼(其实一直不太清楚和水煮的差别)
酸菜鱼
熏鱼
糟溜鱼片
剁椒鱼头
松子鲈鱼
蒜茸蒸鱼
豆腐鱼汤
葱烤鲫鱼
宋嫂鱼羹
欢迎补充,可免费品尝偶做的相应的鱼一条,lol
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

程序ws得自己都被雷了

wshxzt 发表于 2009-07-01 04:59:54

其实程序2周前就写好了,但是因为要处理大规模数据,内存和速度都是问题,于是在服务器上跑一不小心就把12g内存的机器弄挂了,于是开始优化代码,c#开发速度快,但是语言本身效率不高,尤其是gc,据说很不可靠,gc收集内存还需要另外很多内存,有时候我程序其实已经跑完了,最后gc收内存时挂掉了……于是便开始static,预分配空间反复利用,好好的200行代码居然写到近500行……真是我这辈子到目前为止写的最龌龊最ws的程序了,自己都不能忍了!!!
收藏: QQ书签 del.icio.us 订阅: Google 抓虾