Job description
爬虫开发工程师BeijingExperiencedOutsourcedResponsibilities岗位职责:
1. 遵照robots协议,对互联网公开网页和公开数据集进行采集;
2. 负责设计和开发分布式的网络爬虫,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等),提升数据抓取的效果和性能;
3. 负责网页信息抽取技术算法的研究和开发,提升数据抓取的效率和质量;
4. 负责爬取数据的去重、解库、爬虫系统的监控和异常警报;
5. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。
Qualifications
职位要求
1. 本科及以上学历,计算机科学、人工智能、网络安全等相关专业;
2. 3年以上爬虫开发及逆向工程经验,有大模型或AI相关领域的爬虫应用经验者优先;
3. 精通Python或其他编程语言,熟悉爬虫框架(如Scrapy、Selenium、Playwright等);
4. 熟悉大模型训练和数据处理流程,能够根据模型需求调整数据抓取策略;
加分项:
1. 有大规模数据抓取与处理经验,尤其是针对大模型训练数据的采集和优化。
2. 具备AI或大模型领域的技术背景,能够理解和支持模型数据需求。Apply
