为什么常识

豆瓣九点是如何做文章自动分类的?

生活词典 changshi.cidiancn.com

阅读: 191

豆瓣九点是如何做文章自动分类的?如果不是人工编辑,那么就是一个文本主题分类的问题。如果是贝叶斯,那么是完全切词,通过人工标注一批样本学习一个分类器,还是通过特定的词是否在文章中出现进行学习?如果是前者,这个样本量是多少?后者是否需要更新特殊词词典?或者是别的取 feature方式学习?2 个答案

答案 1:

不好意思,没办法回答的非常详细。基本上是一个半监督的学习过程,会给每个博客计算profile确定分类,同时对博客里的文章再计算profile进行调整。豆瓣的一个优势是拥有比较完整的用户兴趣数据,因此可以不必局限于博客和文章的文本进行分类。把用户的兴趣数据利用起来可以收到比较好的效果。

答案 2:

你说的两种方式都不是非此即彼的,完全切词后也需要特征提取(找一个特殊词词典),特定词是否出现其实就是决策树方法的一个特例,两个方式都需要机器学习,说到机器学习,那就是一个方法了,只是算法选择有差异罢了。

分享常识给亲友.

下一篇:新浪 SAE 和 Google 的 GAE 哪个好? 下一篇 【方向键 ( → )下一篇】

上一篇:知乎的正文字号能不能大一号便于阅读? 上一篇 【方向键 ( ← )上一篇】