Отиди на
Форум "Наука"

Recommended Posts

  • Потребител
Публикува
Преди 20 минути, tantin said:

Сега бачо Кухулине, слушай внимателно: взимаш си файла: v54.1.p1_1240K_public.ind / да речем че с тая база работиш. Отваряш го с ноутпад..  И си избираш кой индивид искаш да провериш. 

да речем за тия индивиди:

      DA160_noUDG.SG F Russia_Alan.SG
      DA162_noUDG.SG M Russia_Alan.SG
      DA164_noUDG.SG F Russia_Alan.SG
      DA243_noUDG.SG M Russia_Alan.SG

 

Намираш ги във файла ти къде са:  и ги заместваш по тоя начин:

      DA160_noUDG.SG F DA160_noUDG.SG
      DA162_noUDG.SG M DA162_noUDG.SG
      DA164_noUDG.SG F DA164_noUDG.SG
      DA243_noUDG.SG M DA243_noUDG.SG

 

веднъж като го презапишеш тоя файл, (save),  мошеж да си правиш проверката директно по индивид.

Няма нужда да ползваш груповото име Russia_Alan.SG , а ползваш индивидуланото име за съответния индивид.  

Правиш си бакъп на оригиналния  v54.1.p1_1240K_public.ind ако решиш да го ползваш пак с групата вместо по индивидите.

 

f4(prefix, pop1, "Chimp.REF", pop3, pop4)
ℹ Getting population combinations...
ℹ 1 population combinations found
ℹ Computing from f4 from genotype data...
ℹ Reading metadata...
ℹ Computing block lengths for 1150639 SNPs...
ℹ Computing 1 f4-statistics for block 713 out of 713...
ℹ Summarize across blocks...
# A tibble: 1 × 9
  pop1   pop2      pop3                pop4                         est       se     z     p     n
  <chr>  <chr>     <chr>               <chr>                      <dbl>    <dbl> <dbl> <dbl> <dbl>
1 CHG.SG Chimp.REF Russia_Alan_Core.SG Russia_SaltovoMayaki.SG -0.00130 0.000832 -1.56 0.119 97493

Има някакъв прогрес в z, но си остава под 3. Ще мислим друго.

  • Мнения 104
  • Създадено
  • Последно мнение

ПОТРЕБИТЕЛИ С НАЙ-МНОГО ОТГОВОРИ

ПОТРЕБИТЕЛИ С НАЙ-МНОГО ОТГОВОРИ

Posted Images

  • Потребител
Публикува
Преди 1 минута, Кухулин said:

 

f4(prefix, pop1, "Chimp.REF", pop3, pop4)
ℹ Getting population combinations...
ℹ 1 population combinations found
ℹ Computing from f4 from genotype data...
ℹ Reading metadata...
ℹ Computing block lengths for 1150639 SNPs...
ℹ Computing 1 f4-statistics for block 713 out of 713...
ℹ Summarize across blocks...
# A tibble: 1 × 9
  pop1   pop2      pop3                pop4                         est       se     z     p     n
  <chr>  <chr>     <chr>               <chr>                      <dbl>    <dbl> <dbl> <dbl> <dbl>
1 CHG.SG Chimp.REF Russia_Alan_Core.SG Russia_SaltovoMayaki.SG -0.00130 0.000832 -1.56 0.119 97493

Има някакъв прогрес в z, но си остава под 3. Ще мислим друго.

За момента не го мисли това със z, всяко нещо с времето си. 

Z мисля че го изчисляваха като z= est/se  .  За днес това ти е предостатъчно.  Запази някоя друга мозъчна клетка за утре.  

  • Потребител
Публикува
Преди 5 минути, tantin said:

Z мисля че го изчисляваха като z= est/se

Така е, да. Три стандартни отклонения, по-известни като 3-сигма. Всичко под това е проява на доста лош вкус.

 

  • Потребител
Публикува
Преди 2 минути, Кухулин said:

Така е, да. Три стандартни отклонения, по-известни като 3-сигма. Всичко под това е проява на доста лош вкус.

 

Едва ли.. При толкоз включени снипове: Computing block lengths for 1150639 SNPs...

Но да.. Вероятно си прав. Не знам точно какво търсиш   или какво очакваш . Близост или раздалечаване?

Не забравяй че имаш и Ф3, която дори е по-лесна от Ф4.  С Ф3 по-лесно можеш да докажеш близост, или кой е по средата. Зет се изчислява по същия начин.

f3(prefix, pop1, pop2 , pop3)

 

  • Потребител
Публикува

За утре имаш следната задача:

Вместо това: prefix

f4(prefix, pop1, "Chimp.REF", pop3, pop4)

Ще ползваш f2_from_precomp

Обаче трябва малко подготовка, да си подготвиш един фолдер дето да се запишат прочетените данни и ти оттам да ги ползваш наготово , а не всеки път да ги смяташ на ново и наново..

Има го добре обяснено в оня workshop.

f2_blocks = f2_from_precomp(my_f2_dir, pops = mypops)

вече като подкараш Ф4 с опцията f4(f2_blocks,  pop1, pop2, pop3 ) ще видиш как  стават другите неща.  

  • Потребител
Публикува
Преди 12 минути, tantin said:

Едва ли.. При толкоз включени снипове: Computing block lengths for 1150639 SNPs...

Но да.. Вероятно си прав. Не знам точно какво търсиш   или какво очакваш . Близост или раздалечаване?

Не забравяй че имаш и Ф3, която дори е по-лесна от Ф4.  С Ф3 по-лесно можеш да докажеш близост, или кой е по средата. Зет се изчислява по същия начин.

f3(prefix, pop1, pop2 , pop3)

 

Търся кой алан има повече КЛС. Ф4 дава повече в салтовеца, фст дава в кавказкия (ако изобщо дава нещо):

 fst(prefix, pop1, c(pop3, pop4), adjust_pseudohaploid = FALSE)
ℹ Reading allele frequencies from packedancestrymap files...
ℹ v54.1.p1_1240K_public.geno has 16389 samples and 1233013 SNPs
ℹ Calculating allele frequencies from 9 samples in 3 populations
ℹ Expected size of allele frequency data: 168 MB
1233k SNPs read...
✔ 1233013 SNPs read in total
! 101701 SNPs remain after filtering. 51455 are polymorphic.
ℹ Allele frequency matrix for 101701 SNPs and 3 populations is 10 MB
ℹ Computing pairwise f2 for all SNPs and population pairs requires 59 MB RAM without splitting
ℹ Computing without splitting since 59 < 8000 (maxmem)...
ℹ Returning fst blocks
# A tibble: 2 × 4
  pop1   pop2                      est      se
  <chr>  <chr>                   <dbl>   <dbl>
1 CHG.SG Russia_Alan_Core.SG     0.468 0.00241
2 CHG.SG Russia_SaltovoMayaki.SG 0.801 0.00177

Ф3 засега не мога да я подкарам,  утре ще я мисля.

  • Потребител
Публикува

Ето примерно как се прави изчисляването на тия  precomp данни:

# първо задаваш си къде е  директорията:

my_f2_dir = "C:/Users/Кухулин_123"

# после правиш самото изчисление на    precomp данни  с екстракт функцията:

extract_f2(prefix, my_f2_dir,
            inds = NULL,
            pops = mypops,
            blgsize = 0.05,
            maxmem = 8000,
            maxmiss = 0,
            minmaf = 0,
            maxmaf = 0.5,
            pops2 = NULL,
            outpop = NULL,
            overwrite =T)

# Тука mypops = pop1 + pop2 + pop3 + pop4  - всичките трябва да ги има в тоя списък
# после ги четеш от директорията:

f2_blocks = f2_from_precomp(my_f2_dir, pops = mypops)

# И после директно с тях си  изчисляваш:

 f4(f2_blocks,  pop1, pop2, pop3, pop4 ) 

 

 

  • Потребител
Публикува (edited)
Преди 54 минути, Кухулин said:
 fst(prefix, pop1, c(pop3, pop4), adjust_pseudohaploid = FALSE)

.. сега забелязах нещо.. това вкарване вътре на c(pop3, pop4)  - функция във функция може да не работи добре. Особено ако си пробвал по същия начин с Ф3.. За предпочитане да си ги сложиш в друга променлива и да ползваш новата променлива наместо функцията. Примерно:

pop_34 = c(pop3, pop4)

fst(prefix, pop1, pop_34, adjust_pseudohaploid = FALSE)

Най-вероятно затова Ф3 не е тръгнало. 

Редактирано от tantin
  • Потребител
Публикува
Преди 8 часа, tantin said:

Не забравяй че имаш и Ф3, която дори е по-лесна от Ф4.  С Ф3 по-лесно можеш да докажеш близост, или кой е по средата. Зет се изчислява по същия начин.

f3(prefix, pop1, pop2 , pop3)

 

С ф3 в салтовците също излиза повече КЛС:

f3(f2_blocks, "Chimp.REF", "CHG.SG", pop)
# A tibble: 2 × 7
  pop1      pop2   pop3                      est      se     z     p
  <chr>     <chr>  <chr>                   <dbl>   <dbl> <dbl> <dbl>
1 Chimp.REF CHG.SG Russia_Alan_Core.SG     0.336 0.00198  170.     0
2 Chimp.REF CHG.SG Russia_SaltovoMayaki.SG 0.338 0.00209  162.     0

Значи, ако тълкуваме данните правилно, фст мери нещо друго.

 

  • Потребител
Публикува
Преди 6 часа, Кухулин said:

С ф3 в салтовците също излиза повече КЛС:

f3(f2_blocks, "Chimp.REF", "CHG.SG", pop)
# A tibble: 2 × 7
  pop1      pop2   pop3                      est      se     z     p
  <chr>     <chr>  <chr>                   <dbl>   <dbl> <dbl> <dbl>
1 Chimp.REF CHG.SG Russia_Alan_Core.SG     0.336 0.00198  170.     0
2 Chimp.REF CHG.SG Russia_SaltovoMayaki.SG 0.338 0.00209  162.     0

Значи, ако тълкуваме данните правилно, фст мери нещо друго.

 

Дотук много добре.

Щом си подкарал и Ф3 вече имаш почти всичко.

Относно тълкуването: Ф3(а,в,с) равно на (а-с)(в-с)

а - шимпанзето

в- Кавказкия ловец

с - тия дето тестваме.

По принцип колкото по в средата е "с"  токова по-отрицателно трябва да стане ф3.

Обаче при теб вече са над нулата, тоест вече са се отклонили от средата.

Тоя с по- близкото до 0 е съответно по-близък до CHG. Тоест руските алани имат малко повечко Клс компонент. 

  • Потребител
Публикува

Ето и аз да дам един пример с CHG.

Цитирай

i Reading allele frequencies from packedancestrymap files...
i v54.1_1240K_public.geno has 16466 samples and 1233013 SNPs
i Calculating allele frequencies from 1066 samples in 51 populations
i Expected size of allele frequency data: 641 MB
1233k SNPs read...
√ 1233013 SNPs read in total
! 5850 SNPs remain after filtering. 5681 are polymorphic.
i Allele frequency matrix for 5850 SNPs and 51 populations is 3 MB
i Computing pairwise f2 for all SNPs and population pairs requires 287 MB RAM without splitting
i Computing without splitting since 287 < 8000 (maxmem)...
i Data written to D:\temp/

След филтрирането ни остават едвам 5800 снипа, но и това си е ОК за целта. Все пак това са 1066 индивида в 51 групи .

Резултати:

Цитирай

B21 = 1 # Chimp
j = 52 # "CHG 
k =   f3(f2_blocks,  pop_for_admix_list[j] , pop_for_admix_list[B21] , pop_for_admix_list1   )

image.thumb.png.adb7aeb49551d8f864a2a9f8293c28f8.png

> k
# A tibble: 52 x 7
   pop1                  pop2      pop3                            est      se     z         p
   <chr>                 <chr>     <chr>                         <dbl>   <dbl> <dbl>     <dbl>
 1 Georgia_Satsurblia.SG Chimp.REF Algeria_NumidoRoman_Berber.SG 0.134 0.00542  24.7 3.26e-134
 2 Georgia_Satsurblia.SG Chimp.REF BB7-240_noUDG                 0.147 0.00602  24.5 1.29e-132
 3 Georgia_Satsurblia.SG Chimp.REF Belgium_UP_GoyetQ116_1        0.139 0.00604  23.0 2.15e-117
 4 Georgia_Satsurblia.SG Chimp.REF BIR.SG                        0.139 0.00503  27.6 2.73e-167
 5 Georgia_Satsurblia.SG Chimp.REF BK-1653_noUDG                 0.139 0.00610  22.7 3.41e-114
 6 Georgia_Satsurblia.SG Chimp.REF Bulgaria_C                    0.136 0.00472  28.9 3.44e-183
 7 Georgia_Satsurblia.SG Chimp.REF Bulgaria_EBA                  0.130 0.00458  28.5 2.99e-178
 8 Georgia_Satsurblia.SG Chimp.REF Bulgaria_EBA_Yamnaya          0.129 0.00562  23.0 2.36e-117
 9 Georgia_Satsurblia.SG Chimp.REF Bulgaria_EIA                  0.132 0.00460  28.7 1.26e-181
10 Georgia_Satsurblia.SG Chimp.REF Bulgaria_MalakPreslavets_N    0.135 0.00555  24.4 4.69e-131
# ... with 42 more rows

 

 

  • Потребител
Публикува
Преди 11 минути, tantin said:

 

image.thumb.png.adb7aeb49551d8f864a2a9f8293c28f8.png

Ето за сравнение Ф4 със същите групи:

image.thumb.png.e40aa8b49d59b9c4ff83e72346d681c9.png

  • Потребител
Публикува

Заради теста и заради големия интерес към аланите, направих ви още един репорт, справка:

image.thumb.png.19852c0c7a20ae8a244963901ccdd1df.png

Разяснителни бележки:

Цитирай

Към вече разгледаните разнообразни групи добавяме малко алани и централно азиатци:

Russia_Alan.SG
Russia_SaltovoMayaki.SG
Kazakh.SG
Kazakhstan_Central_Saka.SG
Kazakhstan_Botai_Eneolithic

Това обаче си има цена.  Ще трябва да се лишим от още няколко хиляди снипа, дето участват в съревнованието.

i v54.1_1240K_public.geno has 16466 samples and 1233013 SNPs
i Calculating allele frequencies from 1085 samples in 57 populations
i Expected size of allele frequency data: 700 MB
1233k SNPs read...
√ 1233013 SNPs read in total
! 422 SNPs remain after filtering. 405 are polymorphic.
i Allele frequency matrix for 422 SNPs and 57 populations is 0 MB
i Computing pairwise f2 for all SNPs and population pairs requires 26 MB RAM without splitting
i Computing without splitting since 26 < 8000 (maxmem)...
i Data written to D:\temp/
> f2_blocks = f2_from_precomp(my_f2_dir, pops = mypops)  ### <--------required !!!!!! To update the blocks with results
i Reading precomputed data for 57 populations...
i Reading f2 data for pair 1653 out of 1653...

---

И така, добавихме тези 5 групи. Сега в крайния резултат ще участват едва 422 снипа.  Но и това си е нещо, не е като нищото.. Това естествено ще ни увеличи грешката и това се вижда на графиката .  Съответно и някои групи ще си сменят мястото, щото работим вече с доста по-голяма очаквана грешка. 

Вижда се че руските Алани са най-близко към Кавказкия ловец събирач Georgia_Satsurblia.SG .

 

 

  • Потребител
Публикува (edited)

Слагам за последно и тази графика:

image.thumb.png.641467678de0ec019c2aafa79db60eef.png

Вместо Сацубрила, ползваме другия кавказки ловец с кодовото име КК1. (почти като куклус клан, само дето е с някакво грузинско име дето трудно може да бъде изказано).  Но по-интересното е че нашите български проби показват от най-високите нива на CHG.. Включително Варна. 

Цитирай

Скрипта за тоя репорт: Кухулин може да го пробваш:

k =   f4(f2_blocks,  pop_for_admix_list[j] , pop_for_admix_list[B21] , pop_for_admix_list , pop_for_admix_list[i]   )

където: (това са ми индексите в списъка с групите).. Ти ще си нагласиш твоите според листа ти..

i=19 ( злати кюн)
B21 = 1 # Chimp
j =  20  # KK1  

 

Редактирано от tantin
  • Потребител
Публикува
Преди 5 часа, tantin said:

Относно тълкуването: Ф3(а,в,с) равно на (а-с)(в-с)

а - шимпанзето

в- Кавказкия ловец

с - тия дето тестваме.

По принцип колкото по в средата е "с"  токова по-отрицателно трябва да стане ф3.

Обаче при теб вече са над нулата, тоест вече са се отклонили от средата.

Тоя с по- близкото до 0 е съответно по-близък до CHG. Тоест руските алани имат малко повечко Клс компонент. 

Това се нарича "outgroup f3" и идеята е тъкмо тази - че няма как да е отрицателна. Няма как ъгълът между векторите да е по-голям от 90 градуса, понеже маймуната е много-много далеч. Съответно колкото по-малък е резултатът, толкова по-къса е проекцията и толкова по-далеч е тестът от края на основния вектор - в случая КЛС. Пример за аутгруп ф3 върху родните популации:

 f3(f2_blocks, "Chimp.REF", "TUR_Barcin_N", pops)
# A tibble: 5 × 7
  pop1      pop2         pop3            est      se     z     p
  <chr>     <chr>        <chr>         <dbl>   <dbl> <dbl> <dbl>
1 Chimp.REF TUR_Barcin_N BGR_Ezero_EBA 0.233 0.00278  83.8     0
2 Chimp.REF TUR_Barcin_N BGR_KA_EIA    0.237 0.00258  91.8     0
3 Chimp.REF TUR_Barcin_N BGR_Late_C    0.238 0.00264  90.3     0
4 Chimp.REF TUR_Barcin_N BGR_Ryahovets 0.233 0.00294  79.1     0
5 Chimp.REF TUR_Barcin_N Bulgarian.HO  0.234 0.00253  92.7     0

Следователно в предния пост именно салтовският алан излиза по-близо до КЛС според ф3.

 

  • Потребител
Публикува
Преди 15 минути, Кухулин said:

Пример за аутгруп ф3 върху родните популации:

 f3(f2_blocks, "Chimp.REF", "TUR_Barcin_N", pops)
# A tibble: 5 × 7
  pop1      pop2         pop3            est      se     z     p
  <chr>     <chr>        <chr>         <dbl>   <dbl> <dbl> <dbl>
1 Chimp.REF TUR_Barcin_N BGR_Ezero_EBA 0.233 0.00278  83.8     0
2 Chimp.REF TUR_Barcin_N BGR_KA_EIA    0.237 0.00258  91.8     0
3 Chimp.REF TUR_Barcin_N BGR_Late_C    0.238 0.00264  90.3     0
4 Chimp.REF TUR_Barcin_N BGR_Ryahovets 0.233 0.00294  79.1     0
5 Chimp.REF TUR_Barcin_N Bulgarian.HO  0.234 0.00253  92.7     0

 

А това са ф2/фст-дистанциите, които нито съответстват на аутгруп ф3, нито на реалния компонент ТМБ.

f2(f2_blocks, "TUR_Barcin_N", pops)
# A tibble: 5 × 4
  pop1         pop2              est       se
  <chr>        <chr>           <dbl>    <dbl>
1 TUR_Barcin_N BGR_Ezero_EBA 0.0856  0.00172 
2 TUR_Barcin_N BGR_KA_EIA    0.00842 0.000675
3 TUR_Barcin_N BGR_Late_C    0.0143  0.00101 
4 TUR_Barcin_N BGR_Ryahovets 0.137   0.00203 
5 TUR_Barcin_N Bulgarian.HO  0.00966 0.000439

Имам чувството, че тези функции са много чувствителни към естеството на пробите (брой, качество и др.), докато в Г25 всички тези фактори са елиминирани. Затова там простите дистанции може би са по-достоверни. Евентуално. С уговорки.

Затова толкова хвалят Давидски, че знае как да ги филтрира и да ги гласи. Явно си е майсторлък.

 

  • Потребител
Публикува (edited)

 

Преди 30 минути, Кухулин said:

А това са ф2/фст-дистанциите, които нито съответстват на аутгруп ф3, нито на реалния компонент ТМБ.

f2(f2_blocks, "TUR_Barcin_N", pops)
# A tibble: 5 × 4
  pop1         pop2              est       se
  <chr>        <chr>           <dbl>    <dbl>
1 TUR_Barcin_N BGR_Ezero_EBA 0.0856  0.00172 
2 TUR_Barcin_N BGR_KA_EIA    0.00842 0.000675
3 TUR_Barcin_N BGR_Late_C    0.0143  0.00101 
4 TUR_Barcin_N BGR_Ryahovets 0.137   0.00203 
5 TUR_Barcin_N Bulgarian.HO  0.00966 0.000439

Имам чувството, че тези функции са много чувствителни към естеството на пробите (брой, качество и др.), докато в Г25 всички тези фактори са елиминирани. Затова там простите дистанции може би са по-достоверни. Евентуално. С уговорки.

Затова толкова хвалят Давидски, че знае как да ги филтрира и да ги гласи. Явно си е майсторлък.

 

Ето как са при мен Ф2 статистиките, само че аз ползвам Turkey_N щото тях имам в тая извадка:

Цитирай

# A tibble: 57 x 4
   pop1     pop2                              est      se
   <chr>    <chr>                           <dbl>   <dbl>
 1 Turkey_N Algeria_NumidoRoman_Berber.SG 0.0290  0.00806
 2 Turkey_N BB7-240_noUDG                 0.132   0.0105 
 3 Turkey_N Belgium_UP_GoyetQ116_1        0.149   0.0116 
 4 Turkey_N BIR.SG                        0.0398  0.00484
 5 Turkey_N BK-1653_noUDG                 0.155   0.0123 
 6 Turkey_N Bulgaria_C                    0.00111 0.00191
 7 Turkey_N Bulgaria_EBA                  0.00918 0.00288
 8 Turkey_N Bulgaria_EBA_Yamnaya          0.0846  0.0106 
 9 Turkey_N Bulgaria_EIA                  0.00296 0.00251
10 Turkey_N Bulgaria_MalakPreslavets_N    0.0536  0.00787
# ... with 47 more rows

image.thumb.png.f3b3f333238dd6d7f96bcf85235380bd.png

Ф2 статистиките ни дават директните разтояния от индивид до индивид ( или от усреднената група към усреднена група/ или индивид).

В тоя пример с Турския Неолит виждаш кои са най-близко към Анатолия. 

Обаче интересните за нас са Варненци и стария палеолит.  Варненци, старите ловци събирачи, кавказките ловци събирачи се отталечават от Турския и Българския неолит.  Прави ми впечатление в няколко справки че варненци отиват все към Натуфианците. 

 

Редактирано от tantin
  • Потребител
Публикува
Преди 10 минути, tantin said:

Ето как са при мен Ф2 статистиките, само че аз ползвам Turkey_N щото тях имам в тая извадка:

Подобна история. Гледам на плота по-малки дистанции до съвременните и средновековните българи, отколкото до неолитните.

И не знам каква е тази история в публикациите пробите да са групирани по един начин, а в базата на Райх - по друг. Изкуствено се създават пречки пред възпроизводството на резултатите. Но нас това няма как да ни спре :D 

Впрочем, нищо чудно някъде да седи .ind с оригиналните етикети, не съм търсил.

  • Потребител
Публикува
Преди 3 минути, Кухулин said:

Подобна история. Гледам на плота по-малки дистанции до съвременните и средновековните българи, отколкото до неолитните.

И не знам каква е тази история в публикациите пробите да са групирани по един начин, а в базата на Райх - по друг. Изкуствено се създават пречки пред възпроизводството на резултатите. Но нас това няма как да ни спре :D 

Впрочем, нищо чудно някъде да седи .ind с оригиналните етикети, не съм търсил.

Има дори излишък на информация.  Стига да ти се занимава виждаш как е . Бъркаш в кацата с мед и вадиш каквото и колкото си искаш...  

Относно Давидски: мисля че ползва СмартПСА,  обаче аз никога досега не съм успял да си го пусна тоя софтуер, обаче си ползвам друг начин за генериране на пса. Вече ПСА ни дава много удобства, видимост и всичко останало.  Всичките екстри дето Давидски ги предлага идват от неговата ПСА база. А той понеже успява да "закрепи" основните компоненти,  това му позволява да наблъсква в базата си колкото ще индивида. Може и 50 000 вече да ги е докарал на бройка. Но по-вероятно да е на около 20 000.  Това закрепване обаче на принципните компоненти си идва с други минуси,  получават се натрупвания на грешки и неточност. 

Засега не се напъвай още да тълкуваш сложните казуси. Понаправи си някое друго упражнение с примерите дето ги дават по уъркшоповете, вкарвай в тях отвреме на време по някоя нова тестова популация и ще се ориентираш,   ще добиеш сетивата в тая сложна и хлъзгава материя.. 

Между другото R-studioto гърми ако му зададеш много популации,  или трябва да си на много мощен компютър с много памет.  Ако нещо видиш разни странни грешки: рестартираш R-studioto, намаляш малко броя на популациите и на следващото изпълнение всичко може да си е наред.   За тия цели с Адмикстоолс2   R studio на Уиндоус си е достатъчно.  Но за разни други неща си трябва и на Линукс. 

  • Потребител
Публикува

Викам чакай ще пробвам да възпроизведа компонентите на Лазаридис. Оказа се, че съм голям оптимист :D 

# A tibble: 5 × 5
  target            left                 weight    se      z
  <chr>             <chr>                 <dbl> <dbl>  <dbl>
1 BGR_Ryahovets_Mdv CHG                  -0.573  1.36 -0.422
2 BGR_Ryahovets_Mdv EHG                  -0.556  1.72 -0.323
3 BGR_Ryahovets_Mdv Levant_PPN            2.26   2.90  0.780
4 BGR_Ryahovets_Mdv SRB_Iron_Gates_HG     0.204  1.11  0.185
5 BGR_Ryahovets_Mdv TUR_Marmara_Barcin_N -0.334  2.47 -0.135

Някакви идеи?

  • Потребител
Публикува
Преди 11 минути, Кухулин said:

Викам чакай ще пробвам да възпроизведа компонентите на Лазаридис. Оказа се, че съм голям оптимист :D 

# A tibble: 5 × 5
  target            left                 weight    se      z
  <chr>             <chr>                 <dbl> <dbl>  <dbl>
1 BGR_Ryahovets_Mdv CHG                  -0.573  1.36 -0.422
2 BGR_Ryahovets_Mdv EHG                  -0.556  1.72 -0.323
3 BGR_Ryahovets_Mdv Levant_PPN            2.26   2.90  0.780
4 BGR_Ryahovets_Mdv SRB_Iron_Gates_HG     0.204  1.11  0.185
5 BGR_Ryahovets_Mdv TUR_Marmara_Barcin_N -0.334  2.47 -0.135

Някакви идеи?

При тези модели това се случва много често. Разглеждаш го като вектори. Ряховеца е много близък до ТМБ и Левант. КХГ ЕХГ се ползват за корекция с обратен знак, един вид свалят излишни компоненти.

  • Потребител
Публикува

Мамицата им неандерталска и всякакви други цървули, оставили са ме с 500 снипа. Сега прекомпилирах само с Ряховец и излязох на 29734. Не че резултатът има нещо общо с Южната дъга, ама поне не стряска...

Цитирай
# A tibble: 5 × 5
  target            left                 weight     se     z
  <chr>             <chr>                 <dbl>  <dbl> <dbl>
1 BGR_Ryahovets_Mdv CHG                  0.255  0.0815 3.13 
2 BGR_Ryahovets_Mdv EHG                  0.265  0.0746 3.56 
3 BGR_Ryahovets_Mdv Levant_PPN           0.127  0.119  1.06 
4 BGR_Ryahovets_Mdv SRB_Iron_Gates_HG    0.0317 0.0523 0.606
5 BGR_Ryahovets_Mdv TUR_Marmara_Barcin_N 0.321  0.120  2.68 

Нещо не съм възхитен от възпроизвеждането на модела. Уж всичко е както пише в суплемента, ама гредичка. Сигурно трябва да се бърникне по опциите.

  • Потребител
Публикува
Преди 1 час, Кухулин said:

Не че резултатът има нещо общо с Южната дъга, ама поне не стряска...

Мани майтапа, ама тоя qpAdm по три компонента е по-близо до Г25 и само по два - до ЮД :D  

Мойта сметка:

 target            left                 weight     se     z
  <chr>             <chr>                 <dbl>  <dbl> <dbl>
1 BGR_Ryahovets_Mdv CHG                  0.255  0.0815 3.13 
2 BGR_Ryahovets_Mdv EHG                  0.265  0.0746 3.56 
3 BGR_Ryahovets_Mdv Levant_PPN           0.127  0.119  1.06 
4 BGR_Ryahovets_Mdv SRB_Iron_Gates_HG    0.0317 0.0523 0.606
5 BGR_Ryahovets_Mdv TUR_Marmara_Barcin_N 0.321  0.120  2.68 

Южната дъга:

ID	CHG	EHG	Levant_PPN	SRB_Iron_Gates_HG	TUR_Marmara_Barcın_N	Population
I10548	0.298	0.204	0.014		0.063			0.421			BGR_Ryahovets_Mdv

Г25:

zUEY5oX.png

 

И между другото екселският файл на ЮД не съвпада със суплемента... 

  • Потребител
Публикува

Ряховец директно от файла, всяка ф4 с максимум наличи снипове. Не знам какво повече да му бая, че да заприлича на ЮД.


> qpadm (dataset, pops_SA_left, pops_SA_right, 'BGR_Ryahovets_Mdv', allsns = T)
ℹ Reading metadata...
ℹ Computing block lengths for 1150639 SNPs...
ℹ Computing 45 f4-statistics for block 713 out of 713...
ℹ Number of SNPs after excluding those with missing data: 30201
ℹ Computing admixture weights...
ℹ Computing standard errors...
ℹ Computing number of admixture waves...

warning: solve(): system is singular (rcond: 2.09067e-18); attempting approx solution

warning: solve(): system is singular (rcond: 5.1679e-18); attempting approx solution

warning: solve(): system is singular (rcond: 1.21638e-17); attempting approx solution
$weights
# A tibble: 5 × 5
  target            left                 weight     se     z
  <chr>             <chr>                 <dbl>  <dbl> <dbl>
1 BGR_Ryahovets_Mdv CHG                  0.240  0.0817 2.93 
2 BGR_Ryahovets_Mdv EHG                  0.273  0.0765 3.56 
3 BGR_Ryahovets_Mdv Levant_PPN           0.137  0.121  1.13 
4 BGR_Ryahovets_Mdv SRB_Iron_Gates_HG    0.0218 0.0532 0.409
5 BGR_Ryahovets_Mdv TUR_Marmara_Barcin_N 0.329  0.125  2.62 

$rankdrop
# A tibble: 5 × 7
  f4rank   dof   chisq         p dofdiff chisqdiff   p_nested
   <int> <int>   <dbl>     <dbl>   <int>     <dbl>      <dbl>
1      4     5    3.50 6.23e-  1       7      115.  7.50e- 22
2      3    12  119.   1.10e- 19       9      165.  6.68e- 31
3      2    21  284.   6.29e- 48      11      498.  7.22e-100
4      1    32  782.   8.89e-144      13     2312.  0        
5      0    45 3094.   0              NA       NA  NA        

$popdrop
# A tibble: 31 × 16
   pat      wt   dof chisq        p f4rank    CHG     EHG Levant_PPN SRB_Iron_Gates_HG TUR_Marmara_Barcin_N feasible
   <chr> <dbl> <dbl> <dbl>    <dbl>  <dbl>  <dbl>   <dbl>      <dbl>             <dbl>                <dbl> <lgl>   
 1 00000     0     5  3.50 6.23e- 1      4  0.240  0.273       0.137            0.0218                0.329 TRUE    
 2 00001     1     6 41.0  2.89e- 7      3  0.307  0.275       0.388            0.0306               NA     TRUE    
 3 00010     1     6 14.9  2.14e- 2      3  0.239  0.293       0.133           NA                     0.335 TRUE    
 4 00100     1     6 10.0  1.24e- 1      3  0.284  0.252      NA                0.0274                0.436 TRUE    
 5 01000     1     6 28.7  6.79e- 5      3  0.451 NA           0.104            0.148                 0.298 TRUE    
 6 10000     1     6 21.6  1.44e- 3      3 NA      0.410       0.247           -0.0268                0.370 FALSE   
 7 00011     2     7 49.3  2.01e- 8      2  0.290  0.302       0.408           NA                    NA     TRUE    
 8 00101     2     7 92.8  3.23e-17      2  0.828  0.0408     NA                0.131                NA     TRUE    
 9 00110     2     7 22.3  2.30e- 3      2  0.279  0.278      NA               NA                     0.443 TRUE    
10 01001     2     7 80.6  1.04e-14      2  0.617 NA           0.240            0.143                NA     TRUE    
# ℹ 21 more rows
# ℹ 4 more variables: best <lgl>, dofdiff <dbl>, chisqdiff <dbl>, p_nested <dbl>
# ℹ Use `print(n = ...)` to see more rows

> 

Дясната група:

> pops_SA_right
 [1] "IRN_Ganj_Dareh_N"   "ISR_Natufian_EpiP"  "MAR_Taforalt_EpiP"  "Mbuti.DG"           "Mesopotamia"       
 [6] "RUS_AfontovaGora3"  "RUS_MA1_HG"         "TUR_C_Boncuklu_PPN" "TUR_Pinarbasi_EpiP" "WHG"               
> 

В суплемента на Лазаридис:

We describe the implementation of the stages of our protocol below. In all the analyses of this section we use the following set of 15 “Right” outgroup populations: Base: Mbuti.DG(407), CHG(7), EHG(8, 9), IRN_Ganj_Dareh_N(10), ISR_Natufian_EpiP(10), Levant_PPN(10), MAR_Taforalt_EpiP(408), Mesopotamia, RUS_AfontovaGora3(75), RUS_MA1_HG(409), SRB_Iron_Gates_HG(3), TUR_C_Boncuklu_PPN(410), TUR_Marmara_Barcın_N ((9) and this study), TUR_Pınarbaşı_EpiP(410), WHG(25, 75, 411)

  • Потребител
Публикува

Хммм. Формално ф4 също потвърждава, че Ряховец има по-висок ИЕЛС компонент, отколкото КЛС...


> f4 (dataset, "BGR_Ryahovets_Mdv", "Mbuti.DG", "EHG", "CHG")
ℹ Getting population combinations...
ℹ 1 population combinations found
ℹ Computing from f4 from genotype data...
ℹ Reading metadata...
ℹ Computing block lengths for 1150639 SNPs...
ℹ Computing 1 f4-statistics for block 713 out of 713...
ℹ Summarize across blocks...
# A tibble: 1 × 9
  pop1              pop2     pop3  pop4      est       se     z             p      n
  <chr>             <chr>    <chr> <chr>   <dbl>    <dbl> <dbl>         <dbl>  <dbl>
1 BGR_Ryahovets_Mdv Mbuti.DG EHG   CHG   0.00309 0.000515  6.01 0.00000000189 779763
> 

 

Напиши мнение

Може да публикувате сега и да се регистрирате по-късно. Ако вече имате акаунт, влезте от ТУК , за да публикувате.

Guest
Напиши ново мнение...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Вашето предишно съдържание е възстановено.   Изчистване на редактора

×   You cannot paste images directly. Upload or insert images from URL.

Зареждане...

За нас

"Форум Наука" е онлайн и поддържа научни, исторически и любопитни дискусии с учени, експерти, любители, учители и ученици.

За своята близо двайсет годишна история "Форум Наука" се утвърди като мост между тези, които знаят и тези, които искат да знаят. Всеки ден тук влизат хиляди, които търсят своя отговор.  Форумът е богат да информация и безкрайни дискусии по различни въпроси.

Подкрепи съществуването на форумa - направи дарение:

Дари

 

 

За контакти:

×
×
  • Create New...
×

Подкрепи форума!

Твоето дарение ще ни помогне да запазим и поддържаме това място за обмяна на знания и идеи. Благодарим ти!