博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
MIT自然语言处理第五讲:最大熵和对数线性模型(第二部分)
阅读量:7226 次
发布时间:2019-06-29

本文共 1823 字,大约阅读时间需要 6 分钟。

 

自然语言处理:最大熵和对数线性模型

Natural Language Processing: Maximum Entropy and Log-linear Models 
作者:Regina Barzilay(MIT,EECS Department, October 1, 2004)
译者:( ,2009年4月29日)

一、 词性标注(POS tagging):

c) 特征向量表示(Feature Vector Representation)
 i. 一个特征就是一个函数f(A feature is a function f ):
特征函数1
 ii. 我们有m个特征fk,k = 1…m(We have m features fk for k =1…m)
d) 词性表示(POS Representation)
 i. 对于所有的单纯/标记对的单词/标记特征,(Word/tag features for all word/tag pairs):
特征函数2
ii. 对于所有特定长度的前缀/后缀的拼写特征(Spelling features for all prefixes/suffixes of certain length):
特征函数3
iii. 上下文特征(Contextual features):
特征函数4
iv. 对于一个给定的“历史”x ∈ X ,每一个γ中的标记都被映射到一个不同的特征向量(For a given history x ∈ X, each label in γ is mapped to a different feature vector):
特征向量
v. 目标(Goal):学习一个条件概率P(tag|history)(learn a conditional probability P(tag|history)

二、 最大熵(Maximum Entropy):

a) 例子(Motivating Example):
 i. 给定约束条件:p(x, 0)+p(y, 0)=0.6,a ∈{x, y}且b ∈0, 1,估计概率分布p(a, b)(Estimate probability distribution p(a, b), given the constraint: p(x, 0) + p(y, 0) =0.6, where a ∈{x, y}and b ∈0, 1)):
       最大熵模型举例1
 ii. 满足约束条件的一种分布(One Way To Satisfy Constraints):
       最大熵模型举例2
 iii. 满足约束条件的另一种分布(Another Way To Satisfy Constraints):
       最大熵模型举例3
b) 最大熵模型(Maximum Entropy Modeling)
 i. 给定一个训练样本集,我们希望寻找一个分布符合如下两个条件(Given a set of training examples, we wish to find a distribution which):
  1. 满足已知的约束条件(satisfies the input constraints)
  2. 最大化其不确定性(maximizes the uncertainty)
 ii. 补充:
  最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时侯,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法做出。(这一段转自北大常宝宝老师的《自然语言处理的最大熵模型》)

 

附:课程及课件pdf下载地址:

   http://people.csail.mit.edu/regina/6881/

转载于:https://www.cnblogs.com/renly/archive/2013/01/07/2849908.html

你可能感兴趣的文章
android preference page
查看>>
mysql索引挑选
查看>>
关于冰岛足球的段子
查看>>
在 Windows 中安装 Laravel 5.1.X
查看>>
TeamViewer 9发布-在Linux下安装运行
查看>>
Centos7 Gitea安装教程 - 一款易搭建,运行快的Git服务器
查看>>
CentOS minimal 网络配置
查看>>
Nginx架构
查看>>
为什么结构体中的数组不能用const int变量指定大小?
查看>>
模板特化疑问
查看>>
ruby多线程理解
查看>>
享用甜点时要不要来杯咖啡?Java 与树莓派 (Raspberry PI)
查看>>
精通Oracle 10g Pl/SQL编程
查看>>
邱怡轩:R中大规模矩阵的SVD与矩阵补全
查看>>
C++ Primer习题集(第5版)
查看>>
centos7 mysql 5.7 yum安装
查看>>
JSOUP简单应用
查看>>
Mysql,SqlServer,Oracle主键自动增长的设置
查看>>
开源 java CMS - FreeCMS2.3会员登录
查看>>
malloc(0)的返回值
查看>>