| 导语 Product Quantization,国内有人直译为乘积量化,这里的乘积是指笛卡尔积(Cartesian product),意思是指把原来的向量空间分解为若干个低维向量空间的笛卡尔积,并对分解得到的低维向量空间分别做量化(quantization),用于解决相似搜索问题(similar[......]
腾讯广点通技术团队揭秘互联网效果广告背后的技术与挑战
T派IN课堂
腾讯攻城师走进名校课堂,打开互联网技术黑匣子。腾讯广点通技术团队揭秘互联网效果广告背后的技术与挑战。合作高校:南京大学
课程总体介绍
好的商业模式是企业发展的动力来源,也是创新创业得以落地的必要条件。广告作为互联网行业最为主流和清晰的商业模式持续为企业创造价值。
尽管互联网[……]
语义分析的一些方法(三)
3 图片语义分析
3.1 图片分类
图片分类是一个最基本的图片语义分析方法。
基于深度学习的图片分类
传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。
[……]
语义分析的一些方法(二)
2 文本语义分析
前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。
2.1 Topic Model
首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型[……]
语义分析的一些方法(一)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approxim[……]
Peacock: 大规模主题模型及其在腾讯业务中的应用
编者注:2014年12月14日,腾讯广点通高级研究员靳志辉在2014中国大数据技术大会上发表演讲,题为《Peacock: 大规模主题模型及其在腾讯业务中的应用》,以下为作者演讲实录。
大家好,我来自腾讯效果广告平台部,参与开发的广告平台是广点通,广点通目前是腾讯最大的效果广告平台,每天承接的流量接[……]
Google 重叠实验框架:更多,更好,更快地实验
重叠实验框架:更多,更好,更快地实验
Overlapping Experiment Infrastructure: More, Better, Faster Experimentation
Author: Diane Tang, Ashish Agarwal, Deirdre O’Brien, Mike Meyer
译者:lexqu (屈伟)
再校版 version 1.2.0
Introduction
Google是一个数据驱动型公司,这意味着所有对用户的改动的发布,都要决策者以相应的经验数据作为依据。这些数据大部分是由在线流量上的实验产生的。在web的语境下,一个实验是由一股流量(比如,用户的请求)和在这股流量上进行的相对对比实验的修改组成的。修改包括用户可见的修改(比如,修改顶部广告的背景色),以及不可见的修改,比如测试一个新的广告点击率(CTR)预测算法,都可以通过实验的方式进行的。
要支持数据驱动方法论的挑战在于要跟上创新的速度。我们想支持进行尽可能多的实验,如果实验框架要限制同时进行的实验的数量,那是绝不可被接受的。我们进行实验是为了测试一些新的特性和挖掘一些已有特性的提升空间。对于已有特性,实验可以学习到用户的反应并可以对特性进行优化。试想一下,如果在搜索结果页上的内容都是通过参数控制的,包括展示方式和算法。通过对参数设置不同的参数值进行实验,我们可以用衡量指标(用户体验,收入或其它指标)来决定是否要进行哪些修改以得到最好的结果。
对UI的修改通常会使用实验来评价用户反应,但需要注意的是算法的修改同样也需要实验。例如:假设一些团队想测试一个新的机器学习算法来预测广告CTR,或是测试对现有算法的调整(比如,修改学习速度或是收敛速度)。虽然线下评估可以进行一些分析后,可以缩小参数的最佳取值区间(不是最佳取值),但最终这些参数还是需要在线上流量进行评估,分析这些参数在真实的流量上的效果(因为修改可能会影响用户的行为,并改变流量本身的模式,这是不可能在线下环境评估的)。所以,评价这些机器学习算法是需要通过线上实验的方式进行的。
设计我们实验框架的目标是:更多,更好,更快。[……]
[转化率预估-4]特征选择-简介
在机器学习中从原始信息中生成和选择特征被称为特征工程(Feature Egineering)或者特征抽取(Feature Extraction)。将事物分门别类一直是人类观察和认识世界的基本手段。机器学习作为帮助人类认知和预测事物的工具,分类和聚类也自然成为机器学习中最重要的方法。人对事物做分类主要[……]
广告定向之再营销
什么是再营销广告定向
再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等,而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。
一个典型的再营销场景
我们来看下面一个例子:[……]
[转化率预估-1]引言
最近几年,“计算广告学”的概念风生水起,让我们这些从事在线广告匹配技术的程序猿着实荣耀了一把。这在参加校园招聘时最有所体会,前几年学生经常问面试官的问题是“你们做网页搜索吗?”,这些年学生更经常问“你们做广告吗,你们做大数据挖掘吗?”。每当这个时候,我的心中就会油然而生满满的幸福感,还要装着没什么的[……]
[我们是这样理解语言的-1]文本分析平台TextMiner
互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本,如何较好的理解这些文本,服务于实际业务系统,如搜索引擎、在线广告、推荐系统、问答系统等, 给我们提出了挑战。例如在效果广告系统中,需要将 Query(User or Page) 和广告 Ad 投影到相同的特征语义空间做精准匹配,如果 Que[……]
细数广告定向
广告收入支撑着互联网的大半壁江山,由于互联网广告的存在,用户可以享受到互联网免费提供的聊天、搜索、邮件、资讯、博客/微博、视频、音乐等一站式生活服务。相比传统广告,互联网广告使得企业(广告主)花费更少的钱获取更大的营销推广效果,不至于因“我知道我的广告费浪费了一半,可问题在于不知道是哪一半”而苦恼,[……]