Evaluation Scenario Writer - AI Agent Testing Specialist
32 $/oraMindrift
3 days ago Be among the first 25 applicants This opportunity is only for candidates currently residing in the specified country. Your location may affect eligibility and rates. Please submit your resume in English and indicate your level of English.
At Mindrift, innovation meets opportunity. We believe in using the power of collective human intelligence to ethically shape the future of AI.
What We DoThe Mindrift platform, launched and powered by Toloka, connects domain experts with cutting-edge AI projects from innovative tech clients. Our mission is to unlock the potential of GenAI by tapping into real-world expertise from across the globe.
About The RoleWe're looking for someone who can design realistic and structured evaluation scenarios for LLM-based agents. You'll create test cases that simulate human-performed tasks and define gold‑standard behavior to compare agent actions against. You'll work to ensure each scenario is clearly defined, well‑scored, and easy to execute and reuse. You'll need a sharp analytical mindset, attention to detail, and an interest in how AI agents make decisions.
Responsibilities- Design structured test scenarios based on real‑world tasks
- Define the golden path and acceptable agent behavior
- Annotate task steps, expected outputs, and edge cases
- Work with devs to test your scenarios and improve clarity
- Review agent outputs and adapt tests accordingly
Simply apply to this post, qualify, and get the chance to contribute to projects aligned with your skills, on your own schedule. From creating training prompts to refining model responses, you'll help shape the future of AI while ensuring technology benefits everyone.
Requirements- Bachelor's and/or Master's Degree in Computer Science, Software Engineering, Data Science / Data Analytics, Artificial Intelligence / Machine Learning, Computational Linguistics / Natural Language Processing (NLP), Information Systems or other related fields.
- Background in QA, software testing, data analysis, or NLP annotation
- Good understanding of test design principles (e.g., reproducibility, coverage, edge cases)
- Strong written communication skills in English
- Comfortable with structured formats like JSON/YAML for scenario description
- Can define expected agent behaviors (gold paths) and scoring logic
- Basic experience with Python and JS
- Curious and open to working with AI‑generated content, agent logs, and prompt‑based behavior
- Ready to learn new methods, able to switch between tasks and topics quickly and sometimes work with challenging, complex guidelines
- Freelance role is fully remote; you just need a laptop, internet connection, time available, and enthusiasm to take on a challenge
- Experience in writing manual or automated test cases
- Familiarity with LLM capabilities and typical failure modes
- Understanding of scoring metrics (precision, recall, coverage, reward functions)
- Get paid for your expertise, with rates that can go up to $32/hour depending on your skills, experience, and project needs
- Take part in a flexible, remote, freelance project that fits around your primary professional or academic commitments
- Participate in an advanced AI project and gain valuable experience to enhance your portfolio
- Influence how future AI models understand and communicate in your field of expertise
Entry level
Employment typePart‑time
Job functionOther
IndustriesIT Services and IT Consulting
#J-18808-Ljbffr30 $/ora
...English proficiency. Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems.... ...sources. Write comprehensive functional tests that validate actual end-to-end behavior...ConsigliatoTemporaneoImpiego permanente- ...Within the team of hardware in the loop and testing you will directly work on the software... ...networked and Agile team. Together with specialists about hardware in the loop, modeling and... ...and/or on the vehicle (lab/road); Test Cases implementation based on system requirements...ConsigliatoSmart workingAuto aziendaleOrario flessibile
- ...In questa posizione, sarai responsabile di sviluppare e mantenere test automatizzati su una piattaforma crypto-commerce attiva in oltre... ...possibilità di collaborare con team internazionali e di utilizzare strumenti AI per migliorare il lavoro quotidiano. #J-18808-Ljbffr...ConsigliatoLavoro ibrido
- ...team è distribuito e conta circa 90 persone. Il team QA è piccolo, hands-on e nel mezzo di una transizione verso workflow di test automation e AI-augmented QA: l’infrastruttura è già in piedi, quello che manca è una persona dedicata a costruire, mantenere e scalare le...ConsigliatoSmart workingLavoro ibridoRemoto
- Framework Ventures is seeking an AI Filmmaker to create and edit short films using AI tools, collaborating closely with the marketing department. The ideal candidate will have proven video production experience and proficiency in various AI video generation tools, such...ConsigliatoRemoto
35.000 €
...Itconsulting srl, società di consulenza IT, cerca un Automation Tester con almeno 4 anni di esperienza. La posizione è full remote e richiede padronanza di tecnologie di automazione mobile e web, oltre a conoscenze di Python, JavaScript e TypeScript. Offriamo un pacchetto...Remoto32.731,92 € - 43.000 €
## VEL - Test Systems DesignerApplylocations: IT - Torino - C.so Franciatime type: Full timeposted on: Posted Todaytime left to apply: End Date: December 1, 2026 (30+ days left to apply)job requisition id: R0026641**Job Description:****Leonardo** è uno dei partner industriali...Part-timeImpiego permanenteLavoro ibrido32.731,92 € - 43.000 €
...Leonardo Worldwide Corporation a Torino ricerca un Test Systems Designer per il programma GCAP, con focus su integrazione e verifica di sistemi di prova avionici. Il candidato ideale ha una laurea in ingegneria aerospaziale e almeno 2 anni di esperienza nel settore....Impiego permanenteLavoro ibrido32.731,92 € - 43.000 €
...Leonardo SpA, situata a Torino, cerca un Test Systems Designer per il programma Gcap. La figura sarà responsabile dell'analisi e dell'elicitazione dei requisiti, nonché dello sviluppo di sistemi di test per sistemi avionici. Si richiede laurea in Ingegneria Aerospaziale...Impiego permanenteLavoro ibrido- ...Hire Feed is looking for fluent language professionals to assist in training and evaluating AI language models. This flexible, part-time role allows you to work from home on your own schedule, ideal for professionals in writing, teaching, or translation fields. As a language...Part-timeRemotoLavoro da casaOrario flessibile
- ...stabilimenti in 6 paesi. In Italia la presenza sul territorio è assicurata da una rete di filiali a gestione diretta.Posizione Technical Writer - Redattore Tecnico Stiamo ricercando un Redattore Tecnico altamente qualificato e motivato per unirsi al nostro team. Il...
- SNIPER SRL cerca un Business Developer Commerciale in Piemonte. Il candidato avrà il compito di sviluppare nuove opportunità commerciali e gestire il rapporto con i clienti. Trasformerà idee in progetti reali, valorizzando i servizi offerti dall'agenzia.Il profilo ideale...
28.000 € - 32.000 €
...sempre al primo posto. Posizione: Tester AI Seniority: Middle (almeno 3 anni di esperienza... ...di Progettare, sviluppare ed eseguire test automatizzati per applicazioni web e... ...evoluzione dei test. Definire e strutturare Agent Skills e playbook di test riutilizzabili...Impiego permanenteRemoto- ...primo posto. Posizione: Senior Functional Tester Seniority: Esperto (almeno 4 anni di... ...Functional Tester con consolidata esperienza in testing funzionale, backend testing e API testing... ...e tecnici, definizione scenari di test e test case Esecuzione di test funzionali...Impiego permanente
- ...Business Developer Commerciale — Agente, Consulente o Procacciatore Figura dedicata allo sviluppo di nuove opportunità e alla gestione... ...media management, content marketing Progetti di trasformazione AI per PMI: automazioni, integrazione strumenti, formazione interna...Contratto con partita IVA
- ...Communication , capace di gestire progetti iper-creativi dalla strategia al copywriting: naming, comunicazione prodotto sul punto vendita, testi per cataloghi, activation concept e molto altro. Cerchiamo una persona curiosa, brillante e versatile, in grado di trasformare...
- ...per il Nord Ovest (Piemonte, Liguria e Valle d'Aosta). Il candidato ideale ha almeno 3 anni di esperienza, padronanza nell'uso dell'AI per massimizzare la produttività e buona conoscenza del prodotto Motor. Il ruolo prevede responsabilità nella gestione degli intermediari...
- Are you passionate about language and healthcare? Do you thrive on solving linguistic puzzles, like deciphering challenging handwritten medical notes? If so, we’d love to hear from you! The Language Doctors, Inc. is looking for skilled Italian-to-English medical translators...Libero professionistaLungo termineRemotoOrario flessibile
- A medical translation company is looking for skilled Italian-to-English medical translators and editors in Milan. This remote role allows flexibility while engaging in long-term projects that contribute to healthcare clarity. Candidates should have over five years of experience...Lungo termineRemotoOrario flessibile
- ...dignitosamente almeno Canva e sappia cosa sia un brand kit No AI slop: siamo assolutamente pro l’utilizzo di tool AI e hai la piena... ...: ti verranno forniti già pronti e scritti Caption, copy e testi: tutta la parte testuale e di scrittura dei post è a carico nostro...Libero professionistaContratto con partita IVALavoro ibrido
27.000 € - 32.000 €
...posizionamento. Attualmente siamo alla ricerca di un/una Junior AI Agent Developer / Cloud DevOps che affiancato da figure senior e... ...agli ambienti. Supportarterà quindi il team nello sviluppo, test e rilascio di componenti per agenti AI in ambiente Azure, crescendo...Orario flessibile30 $/ora
...the future of AI. What We... ...systems are tested and evaluated? This is a... ...autonomous AI agents for a new... ...logic, and agent evaluation frameworks... ...through scenarios,... ...closely with QA, writers, or developers... ...structured scenario design Background... ...with QA or test-case...Part-timeImpiego permanenteLibero professionistaRemotoOrario flessibile30 $/ora
An innovative AI project firm in Milan seeks QAs for autonomous AI agents. This flexible, project-based role requires strong analytical thinking, attention to detail... ...role involves reviewing logic and completeness of scenarios and helping refine AI behaviors. Compensation can...RemotoOrario flessibile30.000 € - 35.000 €
CGM Consulting S.r.l. cerca un/una Backend Developer AI Agent Platform con esperienza in Node.js e TypeScript. Il candidato ideale lavora su sistemi assicurando servizi backend scalabili e affidabili in un contesto Full Remote.Richieste buone competenze in JavaScript,...Impiego permanenteRemoto- AeroFrohne LLC is seeking an independent contractor Matterport Pro3 Technician in Torino, Piemonte. This role involves coordinating with stakeholders, capturing detailed spatial data with the Matterport Pro3, and managing project files. The ideal contractor will need...Paga orariaLibero professionista
- Project Objective This project aims to test and evaluate one AI agent in the development stage. By asking questions and requests, based on various categories (the training is provided), you will try to force the AI agent to say something harmful, offensive, dangerous...Tempo pienoStage/TirocinioRemoto
- A technology consulting firm is seeking a fully remote Project Evaluator for AI development. Responsibilities include generating requests and evaluating an AI agent's responses. The ideal candidate must be fluent in French and have intermediate English skills for training...Tempo pienoRemoto
- Koinè snc, un’azienda in crescita nel settore della formazione, cerca un/una Copywriter Freelance creativo/a per scrivere contenuti per corsi online sul settore automotive. Il candidato ideale ha esperienza nel copywriting, ottime capacità di scrittura, e conoscenza dell...Libero professionista
- ...evoluzione, dove competenze diverse si fondono per creare valore attorno al prodotto. Stiamo cercando un/a: Posizione Technical Writer Junior Lavorerai a Torino e sarai inserito nel team di documentazione tecnica DTC (Diagnostic Trouble Codes), con interesse...Stage/TirocinioOrario flessibile
- ...trasformando la conoscenza di prodotto in soluzioni concrete, accessibili e utili per ogni fase del business. Junior DTC Technical Writer Lavorerai a Torino e sarai inserito nel team di documentazione tecnica DTC (Diagnostic Trouble Codes), con interesse per il mondo AG...Stage/TirocinioLavoro da casaOrario flessibile

