1. 程式人生 > >BZOJ_P1076 [SCOI2008]獎勵關(概率期望DP+狀態壓縮DP)

BZOJ_P1076 [SCOI2008]獎勵關(概率期望DP+狀態壓縮DP)

BZOJ傳送門
Time Limit: 10 Sec Memory Limit: 162 MB
Submit: 1435 Solved: 804
[Submit][Status][Discuss]
Description
你正在玩你最喜歡的電子遊戲,並且剛剛進入一個獎勵關。在這個獎勵關裡,系統將依次隨機丟擲k次寶物,每次你都可以選擇吃或者不吃(必須在丟擲下一個寶物之前做出選擇,且現在決定不吃的寶物以後也不能再吃)。 寶物一共有n種,系統每次丟擲這n種寶物的概率都相同且相互獨立。也就是說,即使前k-1次系統都丟擲寶物1(這種情況是有可能出現的,儘管概率非常小),第k次丟擲各個寶物的概率依然均為1/n。 獲取第i種寶物將得到Pi分,但並不是每種寶物都是可以隨意獲取的。第i種寶物有一個前提寶物集合Si。只有當Si中所有寶物都至少吃過一次,才能吃第i種寶物(如果系統丟擲了一個目前不能吃的寶物,相當於白白的損失了一次機會)。注意,Pi可以是負數,但如果它是很多高分寶物的前提,損失短期利益而吃掉這個負分寶物將獲得更大的長期利益。 假設你採取最優策略,平均情況你一共能在獎勵關得到多少分值?

Input
第一行為兩個正整數k和n,即寶物的數量和種類。以下n行分別描述一種寶物,其中第一個整數代表分值,隨後的整數依次代表該寶物的各個前提寶物(各寶物編號為1到n),以0結尾。

Output
輸出一個實數,保留六位小數,即在最優策略下平均情況的得分。

Sample Input
1 2
1 0
2 0

Sample Output
1.500000

HINT
【資料規模】
1<=k<=100,1<=n<=15,分值為[-10^6,10^6]內的整數。

Source

比較簡單,列舉撿到時的狀態,注意有負數QuQ

#include<cstdio>
#include<iostream>
using namespace std; #define K 105 #define N 20 inline int in(int x=0,char ch=getchar(),int v=1){ while(ch!='-'&&(ch>'9'||ch<'0')) ch=getchar();if(ch=='-') v=-1,ch=getchar(); while(ch>='0'&&ch<='9') x=(x<<3)+(x<<1)+ch-'0',ch=getchar();return x*v;} int n,k,x;int
pre[N],w[N]; double f[K][1<<15]; int main(){ k=in(),n=in(); for(int i=0;i<n;++i){ x=in(),w[i]=x; while(x=in(),x) pre[i]|=1<<(x-1); } for(int lim=(1<<n),i=k-1;~i;--i){ for(int S=0;S<lim;++S){ for(int j=0;j<n;++j){ if((S&pre[j])==pre[j]) f[i][S]+=max(f[i+1][S|1<<j]+w[j],f[i+1][S])/n; else f[i][S]+=f[i+1][S]/n; } } } printf("%.6lf\n",f[0][0]); return 0; }