五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

“交叉熵”如何做損失函數(shù)?打包理解“信息量”、“比特”、“熵”、“KL散度”、“

2023-08-30 19:07 作者:廢物學(xué)短  | 我要投稿

信息熵大~信息越不確定(難定)~信息越亂~信息越隨機(jī),大概可以這么理解

定義:

?
09:29
?

解釋一下為什么是相加,不是相乘。f是信息量,可以理解為它是一個物理量,物理量是有量綱的,等號左邊和右邊必須量綱一致。如果右邊是乘的話,就是信息量的平方了,量綱不同了。而概率,是沒有量綱的,可以相乘。


?
11:44
?
-log2(x) 二分法 單位:比特

信息量

系統(tǒng)熵


相對熵——KL散度

?
18:42
?


分為前向和后向kl散度

KL散度在通信系統(tǒng)中,表示用一個信源表示另一個信源的復(fù)雜度

對KL需要兩個分布support相同

  • 吉布斯不等式

把交叉熵應(yīng)用到神經(jīng)網(wǎng)絡(luò)中

?
23:00
?


  • 這里P是基準(zhǔn),相當(dāng)于人腦。而Q相當(dāng)于神經(jīng)網(wǎng)絡(luò),所以只能去改變Q來擬合P,而不能去改變P,P的取值是改不了的
  • KL散度就是求兩個概率分布函數(shù)之間的距離,取事件數(shù)量多的才能計(jì)算所有差異。
  • P(m) Q(n)的數(shù)量不一樣,始終用大的,當(dāng)m<n時(shí),還是用n,pi中的i取不到n呀,那是不是累加結(jié)果又變成和取m一樣喃
  • 我覺得n>m時(shí),取m和n得到的結(jié)果是一樣的,而n<m時(shí)則一定要取m(較大的),都取較大的時(shí)為了方便記憶吧
  • 為啥取較大的,i>m的時(shí)候,pi的值是多少呢
  • 剩下的不能簡單的直接帶入概率為0吧?這樣的話你的信息量怎么辦 信息量里面是有l(wèi)og的 而且本來信息量里面有概率 這樣的話事件少對應(yīng)事件多的的信息量為無窮大? 我比較認(rèn)同前面說的拆開按照條件概率分


1、這里求和上下限應(yīng)該是1和2,分別對應(yīng)是貓和不是貓兩個事件

3、這里up不小心把“訓(xùn)練過程要對所有數(shù)據(jù)進(jìn)行迭代”雜糅進(jìn)求和過程了







“交叉熵”如何做損失函數(shù)?打包理解“信息量”、“比特”、“熵”、“KL散度”、“的評論 (共 條)

分享到微博請遵守國家法律
凤阳县| 屏东市| 文水县| 奉化市| 台南县| 陕西省| 莱州市| 平舆县| 中江县| 会东县| 德江县| 肇庆市| 福贡县| 石渠县| 东平县| 泉州市| 海伦市| 长乐市| 常熟市| 隆尧县| 德惠市| 偏关县| 班玛县| 宜宾市| 桓台县| 海伦市| 邵东县| 常山县| 台中市| 阿合奇县| 兰州市| 商水县| 呼伦贝尔市| 桐乡市| 宁晋县| 华安县| 吉木萨尔县| 澄城县| 福建省| 柘城县| 长乐市|