| huan 的个人资料找不到名字照片日志列表 | 帮助 |
|
4月7日 书会哭么?我本不算爱书之人,不过有些事还是没法看过眼。
最近正在四处借书看,今天抱着若干书去学校图书馆还书,进门大厅里摆起了一个展览,展出的内容是北大图书馆里被欺负的书们。
先是一些个习题集或者教材,免不了的被人圈点批阅。当然还有若干十分刻苦的人,把习题集里面所有题目都给做了一遍,选择题打勾,填空题填满,还附有正确答案以及错误原因分析,写的是密密麻麻,题干本身已经被完全遮掩了。
如果说上面的书边批阅或许还能愉悦读者心灵的话,其它一些书可就没这么好运了。
基本上最普通的手段就是撕书,一本书里面,或许有帮助的一章,被整齐或不整齐的撕掉;一些优美或不优美的图片(只能看图注和上下文猜测了)被抠走;学术杂志中,教师指定参考的某篇文献,搞走(或许嫌复印太贵?);1950年的人民日报也被撕走了一页,不知道是啥历史性内容了。
唉,特别要批评的是撕文献的,撕书在借的时候能看出来,这个东西好容易到图书馆查一篇文章,查到相应页数发现被撕......
当然北大学子们还有一些更有创意的做法,比如借一本书,把里面内容拆出来,换一本便宜书包上原来的皮还回去等等。还有一些老燕京大学的论文,不知用什么手段,里面内容也被掏空了。
还有一些就属于对书籍不爱惜了,比如散了架的书,泡了水的书,变了形的书,等等。
罪过罪过。
爱书的人(比如蜗牛同学)在图书馆工作,然后天天看见不爱书的人虐待图书,不会抓狂么? 4月5日 惊魂未定,注意备份今天早上高兴的到达实验室,开始例行检视程序跑的情况,
然后发现cluster登录不上去了,看上去是sshd没开,真奇怪。
于是telnet,发现可以上去,结果整个nfs就没法访问到,又过了30分钟,登录也上不去了。
快到中午了,居然得知噩耗,说整个硬盘柜子可能出问题了,
据说是那个屋子的空调前两天坏了,@#$@#%#$%
好几十G的数据啊,还有程序。
都是跑了万把小时才跑出来东西,虽说可以再跑,但是让我重新写那些程序的话,疯了。
于是忐忑的去吃午饭,回来问了一下进展,说可以mount上,但是读某些地方有问题。
oh yeah,看来大部分数据应该没问题,希望我的部分一点问题都别挨。
又过了半小时,发现mount上了,然后有俩硬盘去做check了
管他呢,赶紧从ftp把东西都扒下来再说
以前也有过要备份的意识,后来想想,楼下硬盘放在小柜子里,又有空调呵护,
不像我自己这块硬盘,连个硬盘架都没有,塞在软驱位置只拧了一边螺丝,
没曾想挂万漏一。
不知啥时候可以彻底修复,我还要接着跑程序呢 4月3日 看到数学,随便说说下面是今天google黑板报的内容,正撞枪口上了。
顺便随便谈论一下好了。
马氏假定实在是没有办法的办法,我当然没有研究过google内部具体做法,
不过八成应该是用的隐马或者隐半马而不是写出来的这个简单的观测马氏链,
当然世事难预料,应以实际做出的效果好坏判定。
无论如何反正只能解释短程相关性。
现在我做的蛋白质序列,由于空间上可以折叠起来,
字符序列上远的不代表他们在空间上距离远。
这个差不多和语言里的一些组合词对应,比如 if ... then ...
if 和 then 肯定是相关的,但是距离太远了没法考虑了。
当然也有可变长度马,可变依赖马,之类的
不过看来是噱头大于可用性。
这个要是已经搞定了,那spam们也早没搞头了。
----
数学之美2006年4月3日 上午 08:15:00
从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。 发表者: 吴军, Google 科学家 前言 也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。 系列一: 统计语言模型 (Statistical Language Models) Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。 其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。 首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。 给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。 如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为: P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1) 其中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为: P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)… (当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。) 接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,(P(wi|wi-1) = P (wi)/[P(wi-1,wi)]。 也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(NIST) 对所有的机器翻译系统进行了评测,Google 的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。 现在,读者也许已经能感受到数学的美妙之处了,它把一些复杂的问题变得如此的简单。当然,真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克和他的同事的贡献在于提出了统计语言模型,而且很漂亮地解决了所有的细节问题。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。 我是一名科学研究人员 ,我在工作中经常惊叹于数学语言应用于解决实际问题上时的神奇。我也希望把这种神奇讲解给大家听。当然,归根结底,不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人服务的。我希望 Google 多努力一分,用户就多一分搜索的喜悦。 |
|
|