python生信程式設計6-10
文章目錄
- Counting Point Mutations 統計點突變
- 孟德爾第一定律/分離定律
- Translating RNA into Protein/RNA翻譯成蛋白質
- Finding a Motif in DNA/在DNA中找模體
- Consensus and Profile/尋找一致序列
Counting Point Mutations 統計點突變
Problem
Given two strings and of equal length, the Hamming distance between and , denoted , is the number of corresponding symbols that differ in and . See Figure 2.
Given: Two DNA strings and of equal length (not exceeding 1 kbp).
Return: The Hamming distance
Figure 2. The Hamming distance between these two strings is 7. Mismatched symbols are colored red.
Sample Dataset
GAGCCTACTAACGGGAT
CATCGTAATGACGGCCT
Sample Output
7
兩個字串之間的漢明距離(Hamming distance)是指兩個相等長度的字串,對應位置上不同字元的個數
s = 'GAGCCTACTAACGGGAT'
t = 'CATCGTAATGACGGCCT'
hamm = (i for i in range(len(s)) if s[i] != t[i] )
print(len(list(hamm)))
7
孟德爾第一定律/分離定律
問題
複習一下概率論中學到的知識
-
概率定義:大量的試驗證明,當試驗的重複次數n逐漸增大時,事件A發生的頻率逐漸穩定與某個常數p。這個p就是事件A發生的概率,用於表示在一次試驗中,事件A 發生的可能性大小,記事件A的概率為P(A)
-
例1:例:從一所高中中隨機抽取一名學生,已知抽到一名女生的概率是0.5,抽到一名高二學生的概率是0.3,抽到一名高二女生的概率是0.2。那麼抽到一名高二學生或一名女生的概率是?
使用公式P(A∪B)=P(A)+P(B)-P(AB),記事件A={抽到一名女生,事件B={抽到一名高二學生},則P(A)=0.5,P(B)=0.3,P(AB)=0.2
P(A∪B)=P(A)+P(B)-P(AB)=0.5+0.3-0.2=0.6
-
排列:從n個不同元素中,任取m個元素,按照一定的順序排成一列,叫做從n個不同元素中取出m個元素的一個排列.與順序有關
-
組合:從n個不同元素中,任取m個元素,併成一組,叫做從n個不同元素中取出m個元素的一個組合.與順序無關
-
例2:從n個不同的元素中取出m個元素,並按照一定的順序排成一列,則共有:
- 例3:從n個不同的元素中取出m個元素,則共有:
- 例4:一千張彩票中任意抽取一張,有多少基本事件?任意抽取兩張有多少基本事件?
任意抽取一張,基本事件1000個;任意抽取2張,則應該是從1000個任意取2個的組合數:
下面舉一個古典概型例子
一個口袋裝有5只球,其中3只紅球,2只藍球,從袋中取球兩次,每次隨機地取一隻,考慮兩種取球方式:
(a)第一次取一隻球,觀察其顏色後放回,攪勻後再取一次,這種取球方式叫做放回抽樣
(b) 第一次取一球不放回袋中,第二次從剩餘的球中再取一球,這種方式叫做不放回取樣
試分別就上面兩種情況:
(1)取到的兩隻球都是紅球的概率
(2)取到的兩隻球顏色相同的概率
(3)取到的兩隻球中至少一隻是紅球的概率
解:
以 分別表示“取到的兩隻球都是紅球”,“取到的兩隻球都是藍球”“ 取到的兩隻球中至少一隻是紅球”。易知“取到兩隻顏色相同的球”這一事件即為 ,而
放回抽樣的情況
由於 得
不放回抽樣的情況
第一次從袋中取紅球有3個球可以取,第二次取紅球只有2個球可以取
第一次從袋中取藍球有2個球可以取,第二次取藍球只有1個球可以取