一只「鹌鹑」引发的讨论:鸟种那么多 为何单单Pick我?


机构组织山水自然保护中心
作者自然观察团队
发布日期2018-06-26
点击量405
详情

绝大部分中国人熟知的「鹌鹑」图源:Dave Irving / hbw.com


其实我并没有见过野外自然状态下的鹌鹑。我对鹌鹑长什么样的认识仅限于小时候和我爸逛菜市时看到笼子关着的饲养的鹌鹑,以及它被我爸做成一道菜的样子。但这不妨碍鹌鹑成为我最熟悉的鸟之一。

两年前我进入山水,我的工作有很大一部分就是和各种鸟打交道。我们通过自然观察项目向合作伙伴和公众收集各种鸟类(当然其实还有其他物种)的分布记录,包括鸟的种类、地理坐标等信息。


自然观察APP物种照片记录页面:该功能能帮助注册用户记录在野外观察到的物种照片、名称、位点、数量、时间等,为注册用户提供记录物种观察和与其它自然爱好者互动的功能。


利用收集到的这些信息通过分布模型,我们计算出每一种鸟在全国的分布情况。这些分布信息可以反馈给公众,让他们知道每种鸟分布在哪里,去哪儿可以看到某些鸟。我们也会把这些信息反馈给合作伙伴,可以让他们找到物种调查的一些空缺地方,针对性地展开一些调查,弥补基础信息的缺失状况。而业内的研究人员也可以通过我们的网站下载这些信息,用于自己的生态地理学研究。

把所有鸟的分布情况都叠加起来,我们就可以得到一张全国的鸟类多样性分布地图。


全国鸟类多样性分布地图


鉴于鸟是一种评价生物多样性常用的指标物种,我们就可以通过得到的鸟类多样性分布地图得到全国生物多样性丰富地区的分布,在保护力量有限的情况下,这些区域就成了需要首先集中力量保护区的区域。针对不同的区域不同的情况,可以设计不同的保护策略,更好地保护在地的生物多样性。这些信息都是中国自然观察报告中解答物种生存状况如何的重要组成部分。

整个过程听上去并不是很复杂,但当鸟种数量超过1000的时候,这个过程就十分漫长了。除了可以找志愿者帮忙运行分布模型以外,就只能通过写代码批量来计算。当然,写代码的任务就落到了我这个伪码农的身上。每个部分的工作写完,总会拿几个鸟来测试一下效果,由于拼音音序排名第一,这个重任日常就落到了鹌鹑身上。于是办公室的日常就变成了:

前期

对话版

我:

XX模型跑完了。

胡板子:可以可以,看看。

我:

来来来,我们来看看鹌鹑。

后期

对话版

   我:

XX模型跑完了。

胡板子:看看你最喜欢的鹌鹑吧。


作为一个立志于想把这个预测模型全自动化的伪程序员,阻挡在我面前最大的障碍便是阈值的选择。这是一个把鸟在某个地点存在的可能性转换成它存在或者不存在的信息的过程。

我始终觉得阈值的选择是个玄学问题。虽然文献帮我们把阈值的范围从N个缩减到了3个,但是依然存在一个需要人工去筛选的过程。至于筛选的原则,就是哪个结果看上去和人们了解的实际分布比较像就算哪个。

为了寻找用程序代替这个人工筛选的思路,鹌鹑又成了我实验的样例数据。对着三张用不同阈值截出来的鹌鹑分布图,我总觉得哪里怪怪的但又说不上来,只能拉胡板子帮我看看。

胡板子:这是西鹌鹑,东边不应该有分布啊……


我:额……可是东边应该也有鹌鹑分布吧?


“东边的是日本鹌鹑啊。”果然又因为鸟类知识匮乏被胡板子鄙视了。恶补鹌鹑知识后发现,中国原来有两种鹌鹑,西边有一种,在新疆繁殖,可能在西藏南部越冬,东边有一种,在东北、内蒙古和华北西北部繁殖,迁徙越冬时经过中国东南部。

有些分类系统把「西边的」Coturnix Coturnix叫西鹌鹑,把「东边的」Coturnix japonica叫鹌鹑,而有些分类系统把「西边的」Coturnix Coturnix叫鹌鹑,东边的Coturnix japonica叫日本鹌鹑。所以当有人和你说一种叫鹌鹑的小鸟时,还真的不好说这到底是东边的鹌鹑还是西边的鹌鹑。


《中国鸟类分类与分布名录(第三版)》中的西鹌鹑(Coturnix coturnix)图源维基百科 


《中国鸟类分类与分布名录(第三版)》中的鹌鹑(Coturnix japonica 图源:WorldLifeExpectancy


为了找出为什么模型结果会在东边有分布,我们翻出了之前鹌鹑记录的分布点图,发现在新疆以外的中部冒出来了一个分布点。显然,这应该不是一条正常的记录。

“这不会是把菜市场里面看到的饲养的鹌鹑发成了记录吧?”当然,这只是我内心的想法,并没有直接说出来,因为怕再次被胡板子鄙视。

我们之前用的鸟类分布数据以中国观鸟记录中心2013年以前收集的鸟友提供的分布点信息为主,理论上每一条记录都经历了资深鸟友的审查,记录的可信度应该是很高的。

考虑再三,我删掉了这个十分可疑的分布点,重新运行了整个计算过程。嗯,结果十分合理,模型发挥十分稳定。鹌鹑的问题就这样解决了。


西鹌鹑分布模型结果


日本鹌鹑分布模型结果


其实到最后,我也没找到一个能够完全自动化这个人工选择阈值过程的方法。因为每种鸟的阈值选择情况都十分不一样(这里我使用了8种拼音ɑ开头的鸟作为实验数据,当然鹌鹑又一次中选),无论我考虑使用哪种筛选方法,总是不能满足所有鸟的需求。

最后的最后,我们参考了多篇文献之后暴力地选择了一种阈值。虽然这样单个鸟种的分布可能会出现偏小的现象,但是毕竟鸟种数量多,在分析全国尺度的鸟类多样性分布或是鸟类保护优先区计算时,这一点影响被庞大的鸟种数量弥补了。

说实在的,我还蛮希望等到不需要模型就能做出鸟类的分布的一天,这样我就不用纠结怎么选择阈值,也不用纠结到底模型结果靠不靠谱了。毕竟模型只是弥补分布记录不足的无奈之举,当物种分布记录足够了,谁还想天天和模型死磕呢?

到时候,我就可以抱着一大堆鹌鹑的数据,看着密密麻麻的点,直接就把分布范围给框出来。再细致一些,我还能把鹌鹑的繁殖地和越冬地都框出来

嗯,想想就美,不是吗?


作者介绍

撰文、供图 / 山水自然保护中心 顾燚芸

编辑 / 山水自然保护中心 彭聪(实习)