[我们是这样理解语言的-3]神经网络语言模型

1 简介

语言模型是自然语言处理领域的基础问题,其在词性标注、句法分析、机器翻译、信息检索等任务中起到了重要作用。简而言之,统计语言模型表示为:在词序列中,给定一个词$w_{t}$和上下文中所有词$w_{t-1}$,这个序列出现的概率,如下式,
$\begin{eqnarray}\hat{P}([……]

继续阅读

Peacock:大规模主题模型及其在腾讯业务中的应用

Peacock:大规模主题模型及其在腾讯业务中的应用

作者:赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益

摘要

如果用户最近搜索了“红酒木瓜汤”,那么应该展示什么样的广告呢?从字面上理解,可能应该返回酒水或者水果类广告。可是你知道吗?“红酒木瓜汤”其实是一个民间丰胸秘方。如果机器能理[……]

继续阅读

语义分析的一些方法(二)

2 文本语义分析

前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。

2.1 Topic Model

首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型[……]

继续阅读

Peacock: 大规模主题模型及其在腾讯业务中的应用

编者注:2014年12月14日,腾讯广点通高级研究员靳志辉在2014中国大数据技术大会上发表演讲,题为《Peacock: 大规模主题模型及其在腾讯业务中的应用》,以下为作者演讲实录。

大家好,我来自腾讯效果广告平台部,参与开发的广告平台是广点通,广点通目前是腾讯最大的效果广告平台,每天承接的流量接[……]

继续阅读

[转化率预估-4]特征选择-简介

在机器学习中从原始信息中生成和选择特征被称为特征工程(Feature Egineering)或者特征抽取(Feature Extraction)。将事物分门别类一直是人类观察和认识世界的基本手段。机器学习作为帮助人类认知和预测事物的工具,分类和聚类也自然成为机器学习中最重要的方法。人对事物做分类主要[……]

继续阅读

[分布式机器学习的故事-5]Rephil和MapReduce:描述长尾数据的数学模型

文章转自王益的《分布式机器学习的故事》

Google Rephil是Google AdSense背后广告相关性计算的头号秘密武器。但是这个系统没有发表过论文。只是其作者(博士Uri Lerner和工程师Mike Yar)在2002年在湾区举办的几次小规模交流中简要介绍过。所以Kevin Murph[……]

继续阅读

[分布式机器学习的故事-4]LDA和MapReduce:可扩展的基础是数据并行

文章转自王益的《分布式机器学习的故事》

因为MPI在可扩展性上的限制, 我们可以大致理解为什么Google的并行计算架构上没有实现经典的MPI。同时,我们自然的考虑Google里当时最有名的并行计算框架MapReduce。

MapReduce的风格和MPI截然相反。MapReduce对程序的结构[……]

继续阅读

[分布式机器学习的故事-2]分布式机器学习的评价标准

文章转自王益的《分布式机器学习的故事》

在后文中会详细介绍的各个大规模机器学习系统,基本都有三个特点:

  1. 可扩展。可扩展的意思是“投入更多的机器,能处理更大的数据”。而传统的并行计算要的是:“投入更多机器,数据大小不变,计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地[……]

继续阅读

[分布式机器学习的故事-1]大数据带来的新机遇

文章转自王益的《分布式机器学习的故事》

一个新时代

起源

分布式机器学习是随着“大数据”概念兴起的。在有大数据之前,有很多研究工作为了让机器学习算法更快,而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”,其核心目标是把计算任务拆解成多个小的任务,分配到多个处理器上做计算。[……]

继续阅读

火光摇曳