Python 篩選替換排序提取（單個染色體SNP從全基因組提取）

阿新 • • 發佈：2019-01-13

# -*- coding: utf-8 -*-
"""
Created on Wed Nov 28 18:06:39 2018

@author: windows10
"""
import pandas as pd
#from pandas import DataFrame as df

#對ped鹼基形式替換為數字形式
f = open('C:\\Users\\windows10\\Desktop\\Python練習\\文字流\\all.ped')
data1 = pd.read_table(f,header = None) #header 預設為第一行
data1.shape  #展示資料框的  行數和列數，如果資料為1，則對sep重新設定進行調節
data1.head()
data11 = data1.iloc[:, 6:]
data11[data11.isnull().values == True]
data11 = data11.replace('A', 1)
data11 = data11.replace('T', 2)
data11 = data11.replace('C', 3)
data11 = data11.replace('G', 4)
print(data11)
data12 = pd.concat([data1.iloc[:, :6],data11],axis = 1)
print(data12)
data12.shape
data12.head(20)


#抽取map第一條染色體多行的SNP位點，並按照位置順序進行排列
f = open('C:\\Users\\windows10\\Desktop\\Python練習\\文字流\\all.map')
data2 = pd.read_table(f,names=['1', '2', '3', '4']) #header 預設為第一行
data2.shape  #展示資料框的  行數和列數，如果資料為1，則對sep重新設定進行調節
data2.head()
data2.iloc[:,1]  #map檔案的首列
data2.iloc[:,1].shape
print(type(data2))
data2.iloc[5,1]  
type(data2.iloc[5,1])   #確定元素型別


data2 = data2.astype('object')   #轉化元素型別為object類
print(data2['1'])
data21 = data2[data2['1'] == '8']  #‘1’為字串，加‘’，選取map檔案裡的所有2號染色體上的位點
data21.head()
data21.values
data21['1']
data21.index    #檢視行索引
data21.columns    #檢視列索引
data21.values    #檢視資料框的值
data21.dtypes    #檢視每列的資料型別
data21['4'].astype('int64')     #轉化第四列為數值型，才能排序
data22 = data21.sort_values(by = '4')   #by 後直接跟index
data22.shape
data22.head(500)
list = data22['2']
list = list.tolist()   #將第二列資料（第N條染色體上的SNP name）傳遞到列表
list

#為ped檔案建立col.name
li = []
for j in range(0,68516):    #把SNP位點列表轉化為ped的column名
    li.append(data2.iloc[j,1])
    li.append(data2.iloc[j,1])
print(li)
st = ['FMID', 'INID', 'FAID', 'MOID', 'SEX', 'H']  #為ped檔案建立前6列 表頭
st
lis = st + li  #前6列表頭和ped7：：個表頭合併，建立完整的ped表頭
lis[:10]
len(lis)
#修改data12的列名
data12.columns = lis     #為ped檔案建立表頭
data12.head(20)
data12.shape



#對1號染色體多行的位點從ped 檔案中提取
#按照map檔案中1號染色體，排好序的SNP，逐個對list中SNP進行提取

data12['WUR10000127']
type(data12['WUR10000127'])
newdf = data12.iloc[:, :6]   #提取ped檔案表頭
newdf   

for k in list:            #從ped檔案裡提取第N條染色體上的SNP位點，並組成新的資料框
    newdf = pd.concat([newdf,data12[k]],axis = 1)   #Axis = 1代表逐列合併（按列合併）
newdf.columns
newdf.to_excel("C:\\Users\\windows10\\Desktop\\Python練習\\文字流\\chrom8_ped.xlsx", index = False, header = True)
data22.to_excel("C:\\Users\\windows10\\Desktop\\Python練習\\文字流\\chrom8_map.xlsx", index = False, header = True)



#      流程化操作需要修改的地方，如下：
###   42：  data2['1'] == 
###   87：  newdf.to_exce
###   88：  data22.to_excel

Python 篩選替換排序提取（單個染色體SNP從全基因組提取）

# -*- coding: utf-8 -*- """ Created on Wed Nov 28 18:06:39 2018 @author: windows10 """ import pandas as pd #from pandas import DataFrame as df #

Python多重繼承排序原理（MRO演算法解析，拓撲排序，C3演算法）

Python內建屬性__MRO__演算法解析什麼是MRO MRO（Method Resolution Order）：方法解析順序。 Python語言包含了很多優秀的特性，其中多重繼承就是其中之一，但是多重繼承會引發很多問題，比如二義性，Python中一切皆引用，這使得他不會像C++

Python實現八大排序演算法（轉載）+ 桶排序（原創）

插入排序核心思想程式碼實現希爾排序核心思想程式碼實現氣泡排序核心思想程式碼實現快速排序核心思想程式碼實現堆排序核心思想程式碼實現歸併排序核心思想程式碼實現基數排序核心思想程式碼實現桶排

Python小練習更改版（更改一部分代碼，與錯誤）

print items isdigit 對不起 pro 轉換成 efault adl confirm 之前上傳的發現有部分代碼錯誤，重新上傳；更改了第一次的代碼與錯誤，增加了註釋與商店部分功能；沒有每天堅持更新博客，與初衷相差甚遠，堅持！每天進步一點點！

Python——寫自己的異常（形成強大的捕捉和處理能力）

字符測試 lag gic 格式 swd for gin don """ 1、編寫自己的異常時，通常是繼承Exception 2、如果繼承的是BaseException，那麽就不會被通用的except Exception捕捉到 3、自己定義的異

python全棧開發【第九篇】Python常用模塊一（主要是re正則和collections）

順序常用模塊內置 object 簡潔整體 re.search lec 快速一、認識模塊　　什麽是模塊：一個模塊就是一個包含了python定義和聲明的文件，文件名就是加上.py的後綴，但其實import加載的模塊分為四個通用類別：　　　　1.使用python

java中Collection，Arrays內元素的排序問題（comparable，comparator接口的應用）

區別 ons err adt 分享圖片 ima http 排序 list 在我們通常對於collection的使用過程中，很多時候都需要對內部的元素進行排序。對於這個排序，通常可以有兩種實現方式： 1.創建一個comparator類實現comparator接口，然後應用co

python小白之路（特性語法三之字符串）

大寫 () strip rfi isalnum 插入 join upper 出現 1、字符串：雙引號或單引號中的數據輸出：print() 輸入：input()切片：[起始下標：結束下標：步長] PS：選取區間屬於左閉右開型。【1:5:1】【5：1：-1】常見操作：f

Python之爬蟲-- js加密（破解有道詞典加密的演算法）

js加密有的反爬蟲策略採用js對需要傳輸的資料進行加密處理（通常是取md5值) 經過加密，傳輸的就是密文，但是加密函式或者過程一定是在瀏覽器完成，也就是一定會把程式碼（js程式碼）暴露給使用者通過閱讀加密演算法，就可以模擬出加密過程，從而達到破解過程參看案例

Fastjson 序列化，反序列化Map物件排序問題（字串轉map，map轉字串）

背景記錄專案中遇到的關於fastjson jsonobject轉string亂序，string轉jsonObject亂序問題的解決方案 fastJson issues 問題來源描述參見： https://github.com/alibaba/fastjson/issues/359

Python學習-第1課（變數，字串，運算子，迴圈）

學習前準備~ 環境安裝：　　Anaconda3+PyCharm python文件 python概述：一、Hello world及註釋二、變數 1. 命名規則：變數命名可以包含數字，大小寫字母，下劃線數字不可以在開頭一般在pytho

Python OpenCV _6直方圖均衡化（查詢表，OpenCV，Numpy等方法）

Python OpenCV這個初級影象處理系列是參考他人的文章寫的，有些地方做了一些改動，沒有太多理論，側重程式碼實現，主要目的是將這些基本操作程式碼系統地梳理一遍，也是為了以後能快速查詢。此係列原始碼在我的GitHub裡：https://github.com/yeyujujishou19/P

python之旅-日記9（記錄零基礎自己的每天學習）

CMD 操作命令 win+R 開啟執行面板 dir 當前目錄 date 當前系統日期 time 當前時間 (cd 新路徑) ver win版本 (copy 檔案目標路徑 ) shutdown -s關閉（-t 時間） -r重啟通過python程式執行cmd os.system(‘命令

python之旅-日記8（記錄零基礎自己的每天學習）

str().zfill（n）一共n長，向右對齊，不夠補0 eg：0000zzz str().strip() 移除字串頭尾指定的字元（預設空格） ord（）對應的ascii碼 hex（）整數轉為十六進位制字串 oct（）返回一個整數的八進位制 chr（）ascii對應的。與ord相反 z

python之旅-日記7（記錄零基礎自己的每天學習）

函式物件類 1.>包（__init__標記為一個包） 2.>函式 f（*l）*l可變長度的引數 **l為字典引數還有列表引數預設引數 3.>模組 4.>面向物件程式設計 1)多型封裝繼承 2)建構函式，解構函式 3)私有屬性（__asdf

python之旅-日記6（記錄零基礎自己的每天學習）

異常除錯 1.>try…except try…except…else 2.>try…1.finally…2. 1程式碼無異常執行並跳轉2程式碼 1程式碼異常仍然執行2 3.>raise 異常物件,異常資訊標識 4.>assert 斷言檢測某個條件表

python之旅-日記5（記錄零基礎自己的每天學習）

檔案互動 1.> 開啟檔案 open(檔名稱，開啟方式) 開啟方式 r讀 w讀寫 a寫 b二進位制打來 U支援換行符 +讀或寫 2.>讀取檔案 read()讀取所有資料 readline()只讀一行 rradlines()讀取每一行，返回列表集 3.>檔案寫

python之旅-日記4（記錄零基礎自己的每天學習）

番外篇 (爬蟲scrapy框架) 2018/9/19 scrapy 1.>scrapy startproject aaa 建立一個爬蟲專案 2.>items.py 修改容器 3.>pipelines.py 修改管道 4.>settings.py 設定開啟pipe

python之旅-日記3（記錄零基礎自己的每天學習）

2018/9/14 基礎知識字串正則表示式 xpath 字串 1.> len（） 2.> eval（n’+'m）字串計算 3.> ord()單個字元轉為ASCII chr()整數轉為字元 4.> raw_input（）輸入轉為字元型別 input（）基礎型別 5.

十大經典排序演算法（動圖演示，收藏好文）

js和java兩版目錄十大經典排序演算法（動圖演示） 0.1 演算法分類十種常見排序演算法可以分為兩大類：非線性時間比較類排序：通過比較來決定元素間的相對次序，由於其時間複雜度不能突破O(nlogn)，因此

Python 篩選 替換 排序 提取（單個染色體SNP從全基因組提取）

相關推薦

Python 篩選替換排序提取（單個染色體SNP從全基因組提取）